Данная работа посвящена выявлению вербальной агрессии в текстовых сообщениях путём использования методов машинного обучения. Данная задача относится к классу задач анализа тональности текста (Sentiment analysis). Основным её предназначением является автоматизированное выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте. В данном исследовании будут рассмотрены основные особенности и проблемы, с которыми приходится сталкиваться при выявлении агрессии и тональной классификации текстовых сообщений. Специально для этой работы был взят набор текстовых сообщений из Twitter. Он содержит не только правильно написанные слова, но и жаргон, аббревиатуры слов и слова, написанные ошибками. Реализация методов обработки и классификации естественного языка в таких условиях позволяет максимально приблизиться к повседневным манерам общения, что делает результаты классификации более релевантными. Данная задача сейчас особенно актуальна в нашей стране, в связи с ростом контроля за общением в социальных сетях и интернете в целом. Целью исследования является сравнение различных алгоритмов машинного для решения поставленной задачи. .
This work is devoted to the identification of verbal aggression in text messages by using machine learning methods. This task belongs to the class of tasks for analyzing the sentiment of the text (Sentiment analysis). Its main purpose is the automated identification of emotionally colored vocabulary in texts and the emotional assessment of authors (opinions) in relation to the objects referred to in the text. This study will examine the main features and problems encountered in identifying aggression and tonal classification of text messages. Specifically for this work, a set of text messages from Twitter was taken. It contains not only correctly spelled words, but also jargon, word abbreviations, and misspelled words. The implementation of natural language processing and classification methods in such conditions allows us to get as close as possible to everyday communication manners, which makes the classification results more relevant. This task is now particularly relevant, due to the growing control over communication in social networks and the Internet in general. The purpose of the study is to compare different machine algorithms for solving the problem.