Сравнительный анализ специальных корпусов текстов для задач безопасности

Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса специфичности для составления своего рода «профиля» подкорпуса (набора текстов); проведен сравнительный анализ корпуса текстов террористической, экстремистской направленности и корпуса русских рассказов первой трети двадцатого века; обнаружены взаимосвязи лексики противоправных и литературных текстов; показаны возможности использования корпусной лингвистики для исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете; показаны возможности использования как морфологических характеристик слов, так и псевдооснов словоупотреблений в анализе специфичности при корпусном анализе; результаты исследований показывают, что инструменты частотного анализа, предоставляемые платформой TXM, эффективны для прикладных задач, когда необходимо выявить неявные лексические совпадения различных корпусов текстов.

The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist textsMethod: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used.Results: a methodology for comparative analysis of special text corpora has been developed, which makes it possible to identify implicit links between corpora of heterogeneous texts; the relationships between the vocabulary of illegal and literary texts were revealed; the possibility of using the specificity index to compile a “profile” of a text subcorpus was shown; comparative analysis of the corpus of extremist texts and the corpus of Russian stories of the first third of the twentieth century was made; the relationships between the vocabulary of illegal and literary texts were revealed; the possibilities of using corpus linguistics to study the properties of extremist texts in order to detect illegal Internet resources and messages were shown; the possibilities of using both morphological characteristics of words and pseudo-bases of word occurrences in the analysis of specificity on corpus data have been examined; research results showed that the frequency analysis tools provided by the TXM platform are effective for applications when it is necessary to identify implicit lexical matches between different text corpora

Authors
Лаврентьев А.М.1 , Рябова Д.М.2 , Тихомирова Е.А.3 , Фокина А.И. 2 , Чеповский А.М. 2, 4 , Шерстинова Т.Ю.5, 6
Number of issue
3
Language
Russian
Pages
58-65
Status
Published
Year
2020
Organizations
  • 1 Национальный центр научных исследований (НЦНИ) Франции и Высшей нормальной школы
  • 2 Федеральное государственное автономное образовательное учреждение высшего образования Национальный исследовательский университет "Высшая школа экономики"
  • 3 Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)"
  • 4 Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов
  • 5 Федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет"
  • 6 Высшая школа экономики. Национальный исследовательский университет
Keywords
корпусная лингвистика; автоматический анализ текстов; платформа корпусного анализа; показатель специфичности; экстремистские тексты; corpus linguistics; automated text analysis; corpora analysis platform; specificity score; extremist texts
Date of creation
02.11.2020
Date of change
02.11.2020
Short link
https://repository.rudn.ru/en/records/article/record/69005/
Share

Other records

Украинцев С.Е., Захарова И.Н., Заплатников А.Л., Белоусова Т.В., Белоцерковцева Л.Д., Овсянников Д.Ю., Горев В.В., Рожко Ю.В.
Неонатология: новости, мнения, обучение. Общество с ограниченной ответственностью Издательская группа ГЭОТАР-Медиа. Vol. 8. 2020. P. 28-38
Псху Р.В.
Asiatica: Труды по философии и культурам Востока. Региональная общественная организация Санкт-Петербургское философское общество. Vol. 14. 2020. P. 114-126