Автоматизированный подход к сбору сообщений социальных сетей, содержащих признаки религиозной нетерпимости

Постановка проблемы. Для обучения инструментов выявления признаков нетерпимости в сообщениях социальных сетей необходимы размеченные наборы сообщений, сбор которых - трудоемкая задача. Подобные наборы широко представлены в открытом доступе для английского и арабского языков, однако для русского языка практически отсутствуют. Цель. Снизить трудоемкость формирования наборов сообщений на русском и английском языках для обучения методов выявления признаков религиозной нетерпимости в текстах. Результаты работы. Представлен автоматизированный подход к формированию размеченных наборов сообщений социальных сетей. В рамках этого подхода объединены методы сфокусированного сбора сообщений социальных сетей и активного обучения. Показано, что при сборе сообщений с помощью методов активного обучения осуществляется пошаговая коррекция их разметки и дообучение классификатора, применяемого для фильтрации нерелевантных текстов. Практическая значимость. Разработанный подход позволяет одновременно сформировать мультиязычный корпус сообщений, содержащих признаки религиозной нетерпимости, и обучить классификатор для выявления подобных текстов. Обученный классификатор может быть применен в составе прикладных систем анализа и мониторинга социальных сетей.

Labeled message datasets are required to train tools to detect hatred messages in social media, and the collection of those datasets is a laborious task. Such sets are widely available in the public domain for English and Arabic but can be hardly found for the Russian and other languages. The article presents an automated approach to creating labeled sets of religious hatred messages from social media. This approach combines focus crawling of social network messages and active learning approaches. Crawling is a step-by-step procedure that uses active learning methods to correct message labeling and to train the classifier used to filter irrelevant texts. The developed approach makes it possible to simultaneously form a multilingual corpus of religious hatred messages and train a classifier to identify them.

Number of issue
2
Language
Russian
Pages
70-80
Status
Published
Volume
19
Year
2023
Organizations
  • 1 Федеральный исследовательский центр «Информатика и управление» РАН
  • 2 Российский университет дружбы народов
  • 3 Институт искусственного интеллекта
Keywords
Identification of religious hatred; formation of the corpus; focused crowling; multilingual classics-texts; XLM-RoBERTa; Выявление религиозной ненависти; формирование корпуса; сфокусипрованный кроулинг; мультиязычная классификация текстов; XLM-RoBERTa
Date of creation
28.12.2023
Date of change
28.12.2023
Short link
https://repository.rudn.ru/en/records/article/record/103817/
Share

Other records

Shulipenko V.V.
Проблемы модернизации иноязычного образования в трансформационных условиях. Самарский национальный исследовательский университет имени академика С.П. Королева. 2023. P. 234-237
Еремян В.В., Еремян Э.В.
Правовая политика и правовая жизнь. Саратовский филиал Федерального государственного бюджетного учреждения науки Института государства и права Российской академии наук. 2023. P. 265-282