Программные инструменты создания и анализа массивов текстов коротких электронных сообщений пользователей социальных сетей

В рамках исследования преследуется цель разработки алгоритма создания и анализа массива текстов коротких электронных сообщений (постов) в социальных сетях с помощью общедоступных программных инструментов. Научная новизна состоит в том, что для решения подобной проблемы применяется междисциплинарный подход, учитывающий последние достижения прикладной и математической лингвистики и информационной безопасности, с привлечением актуальной нормативной базы. В ходе работы, согласно предложенной графической модели, посредством плагина Web Scraper был собран текстовый материал исследования объемом около 1,5 МБ; сформирован массив текстов коротких электронных сообщений, конвертированный в пригодный для дальнейшей обработки формат CSV; проведен базовый анализ этого массива текстов посредством общедоступного программного комплекса PolyAnalyst, который включил такие процедуры, как извлечение терминов, сущностей и ключевых слов, анализ тональности и определение тематики текстов. В результате была доказана функциональность созданного алгоритма, определены перспективы дальнейших исследований - работа с текстовыми данными большого объема и анализ этих данных для нахождения в них деструктивного контента.

The research aims at developing an algorithm for creating and analyzing a text data bank of short electronic messages (posts) from social networks using free software tools. The scientific novelty lies in the fact that to solve such a problem, an interdisciplinary approach is used, taking into account the latest achievements of applied and mathematical linguistics and information security, with the involvement of the current regulatory framework. In the course of the work, according to the proposed graphical model, textual research material of ca. 1.5 MB was collected using the Web Scraper plug-in; a text data bank of short electronic messages was generated, converted into a CSV format suitable for further processing; a basic analysis of this data bank was carried out using PolyAnalyst free software package, which included such procedures as the extraction of terms, entities and keywords, sentiment analysis and determination of the subject matter of texts. As a result, the functionality of the created algorithm was proven, prospects for further research were identified - working with big text data and analyzing this data to find destructive content in them.

РАЗВИТИЕ ПРЕДСТАВЛЕНИЙ О МЕХАНИЗМАХ РЕГУЛЯЦИИ КАЛИЕВОГО ГОМЕОСТАЗА ВО ВТОРОЙ ПОЛОВИНЕ XX ВЕКА (ОБЗОР)

Статья

Панова А.С., Суботялов М.А., Сорокина Т.С.

Бюллетень Национального научно-исследовательского института общественного здоровья имени Н.А. Семашко. Федеральное государственное бюджетное научное учреждение "Национальный научно-исследовательский институт общественного здоровья имени Н.А. Семашко". 2023. С. 132-136

ОККАЗИОНАЛИЗМЫ ДЖ. ОРУЭЛЛА ИЗ РОМАНА “1984” В ПЕРЕВОДЕ Ю. Р. СОКОЛОВА

Статья

Самохин И.С., Никашина Н.В., Нагорнова Е.В.

Филологические науки. Вопросы теории и практики. Общество с ограниченной ответственностью Издательство Грамота. Том 16. 2023. С. 4013-4017

Программные инструменты создания и анализа массивов текстов коротких электронных сообщений пользователей социальных сетей

Другие записи

РАЗВИТИЕ ПРЕДСТАВЛЕНИЙ О МЕХАНИЗМАХ РЕГУЛЯЦИИ КАЛИЕВОГО ГОМЕОСТАЗА ВО ВТОРОЙ ПОЛОВИНЕ XX ВЕКА (ОБЗОР)

ОККАЗИОНАЛИЗМЫ ДЖ. ОРУЭЛЛА ИЗ РОМАНА “1984” В ПЕРЕВОДЕ Ю. Р. СОКОЛОВА