Разработка методов для формирования кросс-языковых векторных представлений текстов и их фрагментов на базе многослойной модели, основанной на архитектуре «Трансформер»

Сфера приложений интеллектуального анализа текстовых данных включает целый ряд взаимосвязанных задач, для решения которых часто используются общие принципы и подходы. К числу таких задач относятся задача определения смысловой близости слов (word similarity), задача поиска аналогий (word analogies), задача классификации текстов (document classification, text categorization). Одним из эффективных подходов к решению задач стало использование векторных представлений слов (word embeddings). Работа с текстовыми данными сильно ресурсозатратна, поэтому сжатие текста до вектора может помочь эффективной обработке больших массивов данных. В простом случае для получения векторов применяется метод прямого кодирования (one-hot encoding). Но размерность векторов линейно зависима от объёма словаря. Поэтому вектора для разных текстов будут иметь разную размерность, что для задач семантического сходства текстов становится проблемой. Такое ограничение решается моделями векторных представлений текстов. В данной работе рассматривается возможность применения данных моделей для задачи измерения семантического сходства текстов. Для исследования была выбрана многослойная модель Longformer, основанная на архитектуре Трансформер, которая преобразует тексты в векторное представление. Возможности модели ограничены максимальной длиной текста, которую она может обработать. Поэтому настоящая работа посвящена разработке методов для формирования векторных представлений текстов любой размерности.

Development of methods for the formation of cross-language vector representations of texts and their fragments based on a multilayer model based on the “Transformer” architecture

The scope of text data mining applications includes a number of interrelated tasks, for which common principles and approaches are often used. Such tasks include the task of determining the semantic proximity of words (word similarity), the task of finding analogies (word analogies), the task of classifying texts (document classification, text categorization). One of the effective approaches to solving problems was the use of vector representations of words (word embeddings). Working with text data is very resource-intensive, so compressing text to a vector can help efficiently process large data arrays. In a simple case, the method of direct encoding (one-hot encoding) is used to obtain vectors. But the dimension of the vectors is linearly dependent on the volume of the dictionary. Therefore, vectors for different texts will have different dimensions, which becomes a problem for problems of semantic similarity of texts. This limitation is solved by models of vector representations of texts. In this paper, the possibility of using these models for the task of measuring semantic similarity of texts is considered. For the study, a multi-layer Longformer model based on the Transformer architecture was chosen, which converts texts into a vector representation. The model's capabilities are limited by the maximum length of text it can process. Therefore, this work is devoted to the development of methods for the formation of vector representations of texts of any dimension.

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
400-405
Status
Published
Year
2023
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
text data analysis; vector representations of texts; анализ текстовых данных; векторные представления текстов
Share

Other records

Баринов Е.Х., Баринов А.Е., Дадабаев В.К., Манин А.И., Ромодановский П.О., Фокин А.С., Иорданишвили А.К.
Декабрьские чтения по судебной медицине в РУДН : актуальные вопросы судебной медицины и медицинской криминалистики. Российский университет дружбы народов (РУДН). 2023. P. 16-30
Баринов Е.Х., Иорданишвили А.К., Манин А.И., Ромодановский П.О., Чижова Е.М.
Декабрьские чтения по судебной медицине в РУДН : актуальные вопросы судебной медицины и медицинской криминалистики. Российский университет дружбы народов (РУДН). 2023. P. 30-32