Данная статья посвящена применению методов корпусного анализа для исследований литературных текстов русских писателей. Изучаются возможности корпусной платформы TXM. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. Несмотря на принадлежность текстов корпуса к одному периоду написания, выявлено заметное различие в используемой авторами лексике. Описанная методика может использоваться как для лингвистических и литературоведческих исследований, так и для создания корректных обучающих текстовых наборов для задач искусственного интеллекта.
This article is devoted to the application of corpora analysis methods for the research of Russian fiction texts. The features the TXM platform provides are being studied. A corpus of prose texts of Russian XIX century fiction, consisting of five subcorpora, has been created for the research. Each subcorpora contains texts of one certain author. Using the example of the created corpora, the possibilities of using the correspondence analysis method integrated into the TXM platform as one of the tools of the statistical research method are demonstrated. Despite of the fact that the corpora texts belong to the same period of writing, there is a noticeable difference in the vocabulary used by the authors. The described method can be used both for linguistic and literary studies and for creating appropriate training text sets for artificial intelligence tasks.