Выявление значимых признаков противоправных текстов

Цель исследования: разработка методики определения частотными методами лексических характеристик и психолингвистических факторов, как дифференцирующих признаков для задач идентификации тематики противоправных текстов в целях информационной безопасности.Метод: применялся автоматический морфологический и синтаксический анализ, частотные методы, сравнение автоматически сформированных словарей методами корреляционного анализа. Полученные результаты: разработана методика частотного анализа лексики противоправных текстов, которая позволяет по частотным словарям сравнивать различные наборы текстов и выявлять дифференцируюшие признаки; приведена методика вычисления коэффициента попарной ранговой корреляции для сравнения частотных словарей различных лексических характеристик; проведен сравнительный анализ различных по тематике коллекций текстов противоправной направленности; показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью обнаружения противоправных ресурсов и сообщений; показаны возможности использования как морфологических характеристик слов и словосочетаний, так и буквосочетаний в качестве дифференцирующих признаков; показана возможность вычисления психолингвистических показателей противоправных текстов, основанных на автоматическом лингвистическом анализе текстов; выделены психолингвистические характеристики, характерные для текстов различных тематик.

The purpose of the study: development of a technique for determining lexical characteristics and psycholinguistic factors as discriminative features for identifying the topics of illegal texts by frequency methods for information security purposes.Method: automatic morphological and syntactic analysis, frequency methods, comparison of auto-generated dictionaries by correlation analysis methods.Results: a technique of frequency analysis of the illegal texts vocabulary has been developed, which allows to compare different sets of texts using frequency dictionaries and identify discriminative features; a technique of calculating pairwise rank correlation coefficient for comparison of frequency dictionaries of various lexical characteristics has been presented; a comparative analysis of different illegal texts collections has been carried out; the possibility of using frequency lexical characteristics to study the properties of texts in order to detect illegal resources and messages has been shown; the possibilities of using both morphological characteristics of words and word combinations and letter combinations as discriminative features have been shown; the possibility of calculating the psycholinguistic indicators of illegal texts based on automatic linguistic text analysis has been shown; the psycholinguistic characteristics for texts of various topics have been highlighted.

Authors
Аванесян Н.Л.1 , Соловьев Ф.Н.2 , Тихомирова Е.А.3 , Чеповский А.М. 1, 4, 5
Number of issue
4
Language
Russian
Pages
76-84
Status
Published
Year
2020
Organizations
  • 1 Федеральное государственное автономное образовательное учреждение высшего образования Национальный исследовательский университет "Высшая школа экономики"
  • 2 Автономная некоммерческая организация Институт физико-технической информатики
  • 3 Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)"
  • 4 Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов
  • 5 Федеральное государственное бюджетное образовательное учреждение высшего образования "МИРЭА-Российский технологический университет"
Keywords
automated text analysis; noun phrases; rank correlation; psycholinguistics characteristics; extremist texts; автоматический анализ текстов; именные группы; ранговая корреляция; психолингвистические характеристики; экстремистские тексты
Share

Other records

Алейникова А.А., Липка О.Н., Андреева А.П.
Моря России: исследования береговой и шельфовой зон. Федеральное государственное бюджетное учреждение науки Федеральный исследовательский центр "Морской гидрофизический институт РАН". 2020. P. 219-220
Роменских П.В., Мескин В.А.
Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика. Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). Vol. 25. 2020. P. 424-433