Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов русских писателей. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. В качестве другого метода рассматривается анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты и позволяют констатировать возможность выделения дифференцирующих признаков. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта.
This article is devoted to the application of corpora analysis mathematical methods for the research of Russian fiction texts. A corpus of prose texts of Russian XIX century fiction, consisting of five subcorpora, has been created for the research. Each subcorpora contains texts of one certain author. Using the example of the created corpora, the possibilities of using the correspondence analysis method integrated into the TXM platform as one of the tools of the statistical research method are demonstrated. As another method, we consider the analysis of pairwise rank correlation coefficients to compare the frequency characteristics of texts of different subcorps. The methods described give correlated results and make it possible to identify differentiating features. The methods described give correlated results and make it possible to identify differentiating features. The described method can be used both for linguistic and literary studies and for creating appropriate training text sets for artificial intelligence tasks.