Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса специфичности для составления своего рода «профиля» подкорпуса (набора текстов); проведен сравнительный анализ корпуса текстов террористической, экстремистской направленности и корпуса русских рассказов первой трети двадцатого века; обнаружены взаимосвязи лексики противоправных и литературных текстов; показаны возможности использования корпусной лингвистики для исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете; показаны возможности использования как морфологических характеристик слов, так и псевдооснов словоупотреблений в анализе специфичности при корпусном анализе; результаты исследований показывают, что инструменты частотного анализа, предоставляемые платформой TXM, эффективны для прикладных задач, когда необходимо выявить неявные лексические совпадения различных корпусов текстов.
The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist textsMethod: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used.Results: a methodology for comparative analysis of special text corpora has been developed, which makes it possible to identify implicit links between corpora of heterogeneous texts; the relationships between the vocabulary of illegal and literary texts were revealed; the possibility of using the specificity index to compile a “profile” of a text subcorpus was shown; comparative analysis of the corpus of extremist texts and the corpus of Russian stories of the first third of the twentieth century was made; the relationships between the vocabulary of illegal and literary texts were revealed; the possibilities of using corpus linguistics to study the properties of extremist texts in order to detect illegal Internet resources and messages were shown; the possibilities of using both morphological characteristics of words and pseudo-bases of word occurrences in the analysis of specificity on corpus data have been examined; research results showed that the frequency analysis tools provided by the TXM platform are effective for applications when it is necessary to identify implicit lexical matches between different text corpora