Сфера приложений интеллектуального анализа текстовых данных включает целый ряд взаимосвязанных задач, для решения которых часто используются общие принципы и подходы. К числу таких задач относятся задача определения смысловой близости слов (word similarity), задача поиска аналогий (word analogies), задача классификации текстов (document classification, text categorization). Одним из эффективных подходов к решению задач стало использование векторных представлений слов (word embeddings). Работа с текстовыми данными сильно ресурсозатратна, поэтому сжатие текста до вектора может помочь эффективной обработке больших массивов данных. В простом случае для получения векторов применяется метод прямого кодирования (one-hot encoding). Но размерность векторов линейно зависима от объёма словаря. Поэтому вектора для разных текстов будут иметь разную размерность, что для задач семантического сходства текстов становится проблемой. Такое ограничение решается моделями векторных представлений текстов. В данной работе рассматривается возможность применения данных моделей для задачи измерения семантического сходства текстов. Для исследования была выбрана многослойная модель Longformer, основанная на архитектуре Трансформер, которая преобразует тексты в векторное представление. Возможности модели ограничены максимальной длиной текста, которую она может обработать. Поэтому настоящая работа посвящена разработке методов для формирования векторных представлений текстов любой размерности.
The scope of text data mining applications includes a number of interrelated tasks, for which common principles and approaches are often used. Such tasks include the task of determining the semantic proximity of words (word similarity), the task of finding analogies (word analogies), the task of classifying texts (document classification, text categorization). One of the effective approaches to solving problems was the use of vector representations of words (word embeddings). Working with text data is very resource-intensive, so compressing text to a vector can help efficiently process large data arrays. In a simple case, the method of direct encoding (one-hot encoding) is used to obtain vectors. But the dimension of the vectors is linearly dependent on the volume of the dictionary. Therefore, vectors for different texts will have different dimensions, which becomes a problem for problems of semantic similarity of texts. This limitation is solved by models of vector representations of texts. In this paper, the possibility of using these models for the task of measuring semantic similarity of texts is considered. For the study, a multi-layer Longformer model based on the Transformer architecture was chosen, which converts texts into a vector representation. The model's capabilities are limited by the maximum length of text it can process. Therefore, this work is devoted to the development of methods for the formation of vector representations of texts of any dimension.