Цель исследования: разработка методики определения частотными методами лексических характеристик и психолингвистических факторов, как дифференцирующих признаков для задач идентификации тематики противоправных текстов в целях информационной безопасности.Метод: применялся автоматический морфологический и синтаксический анализ, частотные методы, сравнение автоматически сформированных словарей методами корреляционного анализа. Полученные результаты: разработана методика частотного анализа лексики противоправных текстов, которая позволяет по частотным словарям сравнивать различные наборы текстов и выявлять дифференцируюшие признаки; приведена методика вычисления коэффициента попарной ранговой корреляции для сравнения частотных словарей различных лексических характеристик; проведен сравнительный анализ различных по тематике коллекций текстов противоправной направленности; показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью обнаружения противоправных ресурсов и сообщений; показаны возможности использования как морфологических характеристик слов и словосочетаний, так и буквосочетаний в качестве дифференцирующих признаков; показана возможность вычисления психолингвистических показателей противоправных текстов, основанных на автоматическом лингвистическом анализе текстов; выделены психолингвистические характеристики, характерные для текстов различных тематик.
The purpose of the study: development of a technique for determining lexical characteristics and psycholinguistic factors as discriminative features for identifying the topics of illegal texts by frequency methods for information security purposes.Method: automatic morphological and syntactic analysis, frequency methods, comparison of auto-generated dictionaries by correlation analysis methods.Results: a technique of frequency analysis of the illegal texts vocabulary has been developed, which allows to compare different sets of texts using frequency dictionaries and identify discriminative features; a technique of calculating pairwise rank correlation coefficient for comparison of frequency dictionaries of various lexical characteristics has been presented; a comparative analysis of different illegal texts collections has been carried out; the possibility of using frequency lexical characteristics to study the properties of texts in order to detect illegal resources and messages has been shown; the possibilities of using both morphological characteristics of words and word combinations and letter combinations as discriminative features have been shown; the possibility of calculating the psycholinguistic indicators of illegal texts based on automatic linguistic text analysis has been shown; the psycholinguistic characteristics for texts of various topics have been highlighted.