Сравнительный анализ специальных корпусов текстов для задач безопасности

Лаврентьев, А.М.; Рябова, Д.М.; Тихомирова, Е.А.; Фокина, А.И.; Чеповский, А.М.; Шерстинова, Т.Ю.

Сравнительный анализ специальных корпусов текстов для задач безопасности

Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса специфичности для составления своего рода «профиля» подкорпуса (набора текстов); проведен сравнительный анализ корпуса текстов террористической, экстремистской направленности и корпуса русских рассказов первой трети двадцатого века; обнаружены взаимосвязи лексики противоправных и литературных текстов; показаны возможности использования корпусной лингвистики для исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете; показаны возможности использования как морфологических характеристик слов, так и псевдооснов словоупотреблений в анализе специфичности при корпусном анализе; результаты исследований показывают, что инструменты частотного анализа, предоставляемые платформой TXM, эффективны для прикладных задач, когда необходимо выявить неявные лексические совпадения различных корпусов текстов.

The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist textsMethod: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used.Results: a methodology for comparative analysis of special text corpora has been developed, which makes it possible to identify implicit links between corpora of heterogeneous texts; the relationships between the vocabulary of illegal and literary texts were revealed; the possibility of using the specificity index to compile a “profile” of a text subcorpus was shown; comparative analysis of the corpus of extremist texts and the corpus of Russian stories of the first third of the twentieth century was made; the relationships between the vocabulary of illegal and literary texts were revealed; the possibilities of using corpus linguistics to study the properties of extremist texts in order to detect illegal Internet resources and messages were shown; the possibilities of using both morphological characteristics of words and pseudo-bases of word occurrences in the analysis of specificity on corpus data have been examined; research results showed that the frequency analysis tools provided by the TXM platform are effective for applications when it is necessary to identify implicit lexical matches between different text corpora

Авторы

Лаврентьев А.М. ¹ , Рябова Д.М. ² , Тихомирова Е.А. ³ , Фокина А.И. ² , Чеповский А.М. ^2, ⁴ , Шерстинова Т.Ю. ^5, ⁶

Journal

Вопросы кибербезопасности

Номер выпуска

Язык

Russian

Страницы

58-65

Статус

Published

Год

2020

Организации

¹ Национальный центр научных исследований (НЦНИ) Франции и Высшей нормальной школы
² Федеральное государственное автономное образовательное учреждение высшего образования Национальный исследовательский университет "Высшая школа экономики"
³ Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)"
⁴ Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов
⁵ Федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет"
⁶ Высшая школа экономики. Национальный исследовательский университет

Ключевые слова

корпусная лингвистика; автоматический анализ текстов; платформа корпусного анализа; показатель специфичности; экстремистские тексты; corpus linguistics; automated text analysis; corpora analysis platform; specificity score; extremist texts

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Article

Kartashkin V.A., Abashidze A.Kh.

International Journal on Minority and Group Rights. Том 10. 2003. С. 203-220

ВСТУПИТЕЛЬНАЯ СТАТЬЯ К ПЕРЕВОДУ ФРАГМЕНТА СТАТЬИ Г.ОБЕРХАММЕРА "ВСТРЕЧА КАК КАТЕГОРИЯ РЕЛИГИОЗНОЙ ГЕРМЕНЕВТИКИ" (9-11)

Article

Псху Р.В.

Asiatica: Труды по философии и культурам Востока. Том 14. 2020. С. 114-126