Автоматизированный подход к сбору сообщений социальных сетей, содержащих признаки религиозной нетерпимости

Волков, С.С.; Девяткин, Д.А.; Соченков, И.В.; Шелманов, А.О.

Автоматизированный подход к сбору сообщений социальных сетей, содержащих признаки религиозной нетерпимости

Постановка проблемы. Для обучения инструментов выявления признаков нетерпимости в сообщениях социальных сетей необходимы размеченные наборы сообщений, сбор которых - трудоемкая задача. Подобные наборы широко представлены в открытом доступе для английского и арабского языков, однако для русского языка практически отсутствуют. Цель. Снизить трудоемкость формирования наборов сообщений на русском и английском языках для обучения методов выявления признаков религиозной нетерпимости в текстах. Результаты работы. Представлен автоматизированный подход к формированию размеченных наборов сообщений социальных сетей. В рамках этого подхода объединены методы сфокусированного сбора сообщений социальных сетей и активного обучения. Показано, что при сборе сообщений с помощью методов активного обучения осуществляется пошаговая коррекция их разметки и дообучение классификатора, применяемого для фильтрации нерелевантных текстов. Практическая значимость. Разработанный подход позволяет одновременно сформировать мультиязычный корпус сообщений, содержащих признаки религиозной нетерпимости, и обучить классификатор для выявления подобных текстов. Обученный классификатор может быть применен в составе прикладных систем анализа и мониторинга социальных сетей.

Labeled message datasets are required to train tools to detect hatred messages in social media, and the collection of those datasets is a laborious task. Such sets are widely available in the public domain for English and Arabic but can be hardly found for the Russian and other languages. The article presents an automated approach to creating labeled sets of religious hatred messages from social media. This approach combines focus crawling of social network messages and active learning approaches. Crawling is a step-by-step procedure that uses active learning methods to correct message labeling and to train the classifier used to filter irrelevant texts. The developed approach makes it possible to simultaneously form a multilingual corpus of religious hatred messages and train a classifier to identify them.

Авторы

Волков С.С. ^1, ² , Девяткин Д.А. ¹ , Соченков И.В. ¹ , Шелманов А.О. ³

Журнал

Системы высокой доступности

Номер выпуска

Язык

Русский

Страницы

70-80

Статус

Опубликовано

Том

Год

2023

Организации

¹ Федеральный исследовательский центр «Информатика и управление» РАН
² Российский университет дружбы народов
³ Институт искусственного интеллекта

Ключевые слова

Identification of religious hatred; formation of the corpus; focused crowling; multilingual classics-texts; XLM-RoBERTa; Выявление религиозной ненависти; формирование корпуса; сфокусипрованный кроулинг; мультиязычная классификация текстов; XLM-RoBERTa

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

ДИСКУРС - «ПЛАСТИКОВОЕ» СЛОВО?

Статья

Шулипенко В.В.

Проблемы модернизации иноязычного образования в трансформационных условиях. 2023. С. 234-237

ЕСТЬ ЛИ У НАС ОСНОВАНИЯ ГОВОРИТЬ О ДЕГРАДАЦИИ И РЕГРЕССЕ ЛИБЕРАЛЬНОЙ МОДЕЛИ ДЕМОКРАТИИ? (ЧАСТЬ II)

Статья

Еремян В.В., Еремян Э.В.

Правовая политика и правовая жизнь. 2023. С. 265-282