Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений

Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов русских писателей. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. В качестве другого метода рассматривается анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты и позволяют констатировать возможность выделения дифференцирующих признаков. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта.

This article is devoted to the application of corpora analysis mathematical methods for the research of Russian fiction texts. A corpus of prose texts of Russian XIX century fiction, consisting of five subcorpora, has been created for the research. Each subcorpora contains texts of one certain author. Using the example of the created corpora, the possibilities of using the correspondence analysis method integrated into the TXM platform as one of the tools of the statistical research method are demonstrated. As another method, we consider the analysis of pairwise rank correlation coefficients to compare the frequency characteristics of texts of different subcorps. The methods described give correlated results and make it possible to identify differentiating features. The methods described give correlated results and make it possible to identify differentiating features. The described method can be used both for linguistic and literary studies and for creating appropriate training text sets for artificial intelligence tasks.

Авторы

Аванесян Н.Л. ¹ , Губина О.В. ² , Чеповский А.М. ^1, ²

Journal

Труды Института системного анализа Российской академии наук

Издательство

Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук

Номер выпуска

Язык

Russian

Страницы

25-32

Статус

Published

Том

Год

2024

Организации

¹ Национальный исследовательский университет «Высшая школа экономики»
² Российский университет дружбы народов им. Патриса Лумумбы

Ключевые слова

corpus linguistics; TXM platform; correspondence analysis; correlation analysis; корпусная лингвистика; платформа TXM; анализ соответствий; корреляционный анализ

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Article

Kartashkin V.A., Abashidze A.Kh.

International Journal on Minority and Group Rights. Том 10. 2003. С. 203-220

АКСИОЛОГЕМЫ В КОММУНИКАТИВНО-РЕЧЕВОМ ОБЕСПЕЧЕНИИ МОЛОДЕЖНОЙ ПОЛИТИКИ

Article

Шакалов И.И.

МедиаАльманах. 2024. С. 32-40