Постановка проблемы. Для обучения инструментов выявления признаков нетерпимости в сообщениях социальных сетей необходимы размеченные наборы сообщений, сбор которых - трудоемкая задача. Подобные наборы широко представлены в открытом доступе для английского и арабского языков, однако для русского языка практически отсутствуют. Цель. Снизить трудоемкость формирования наборов сообщений на русском и английском языках для обучения методов выявления признаков религиозной нетерпимости в текстах. Результаты работы. Представлен автоматизированный подход к формированию размеченных наборов сообщений социальных сетей. В рамках этого подхода объединены методы сфокусированного сбора сообщений социальных сетей и активного обучения. Показано, что при сборе сообщений с помощью методов активного обучения осуществляется пошаговая коррекция их разметки и дообучение классификатора, применяемого для фильтрации нерелевантных текстов. Практическая значимость. Разработанный подход позволяет одновременно сформировать мультиязычный корпус сообщений, содержащих признаки религиозной нетерпимости, и обучить классификатор для выявления подобных текстов. Обученный классификатор может быть применен в составе прикладных систем анализа и мониторинга социальных сетей.
Labeled message datasets are required to train tools to detect hatred messages in social media, and the collection of those datasets is a laborious task. Such sets are widely available in the public domain for English and Arabic but can be hardly found for the Russian and other languages. The article presents an automated approach to creating labeled sets of religious hatred messages from social media. This approach combines focus crawling of social network messages and active learning approaches. Crawling is a step-by-step procedure that uses active learning methods to correct message labeling and to train the classifier used to filter irrelevant texts. The developed approach makes it possible to simultaneously form a multilingual corpus of religious hatred messages and train a classifier to identify them.