Программные инструменты создания и анализа массивов текстов коротких электронных сообщений пользователей социальных сетей

В рамках исследования преследуется цель разработки алгоритма создания и анализа массива текстов коротких электронных сообщений (постов) в социальных сетях с помощью общедоступных программных инструментов. Научная новизна состоит в том, что для решения подобной проблемы применяется междисциплинарный подход, учитывающий последние достижения прикладной и математической лингвистики и информационной безопасности, с привлечением актуальной нормативной базы. В ходе работы, согласно предложенной графической модели, посредством плагина Web Scraper был собран текстовый материал исследования объемом около 1,5 МБ; сформирован массив текстов коротких электронных сообщений, конвертированный в пригодный для дальнейшей обработки формат CSV; проведен базовый анализ этого массива текстов посредством общедоступного программного комплекса PolyAnalyst, который включил такие процедуры, как извлечение терминов, сущностей и ключевых слов, анализ тональности и определение тематики текстов. В результате была доказана функциональность созданного алгоритма, определены перспективы дальнейших исследований - работа с текстовыми данными большого объема и анализ этих данных для нахождения в них деструктивного контента.

The research aims at developing an algorithm for creating and analyzing a text data bank of short electronic messages (posts) from social networks using free software tools. The scientific novelty lies in the fact that to solve such a problem, an interdisciplinary approach is used, taking into account the latest achievements of applied and mathematical linguistics and information security, with the involvement of the current regulatory framework. In the course of the work, according to the proposed graphical model, textual research material of ca. 1.5 MB was collected using the Web Scraper plug-in; a text data bank of short electronic messages was generated, converted into a CSV format suitable for further processing; a basic analysis of this data bank was carried out using PolyAnalyst free software package, which included such procedures as the extraction of terms, entities and keywords, sentiment analysis and determination of the subject matter of texts. As a result, the functionality of the created algorithm was proven, prospects for further research were identified - working with big text data and analyzing this data to find destructive content in them.

Authors
Логинова А.О.1 , Горожанов А.И.1 , Алейникова Д.В. 1, 2
Publisher
Общество с ограниченной ответственностью Издательство Грамота
Number of issue
11
Language
Russian
Pages
3641-3647
Status
Published
Volume
16
Year
2023
Organizations
  • 1 Московский государственный лингвистический университет
  • 2 Российский университет дружбы народов
Keywords
corpus linguistics; text data bank; information security; texts of short electronic messages; destructive content; корпусная лингвистика; массив текстовых данных; информационная безопасность; тексты коротких электронных сообщений; деструктивный контент
Date of creation
28.12.2023
Date of change
28.12.2023
Short link
https://repository.rudn.ru/en/records/article/record/105820/
Share

Other records

Панова А.С., Суботялов М.А., Сорокина Т.С.
Бюллетень Национального научно-исследовательского института общественного здоровья имени Н.А. Семашко. Федеральное государственное бюджетное научное учреждение "Национальный научно-исследовательский институт общественного здоровья имени Н.А. Семашко". 2023. P. 132-136