Анализ эффективности подходов к векторизации фраз

Ничто не может лучше способствовать анализу текстовых документов, нежели чем векторизация слов (анализ контекста) в этих коллекциях данных, особенно если появится возможность учитывать не просто отдельные слова, а целые словосочетания. Это бы позволило не только ускорить проработку текстового материала и повысить качество самого анализа, но и добиться более глубокого развития целой области исследований. Учитывая возрастающую с каждым годом популярность Word2Vec, вовсе неудивительно, что именно данный подход к векторизации стал первоначальным объектом исследований многих научных специалистов в области информационных технологий. Результатом поиска новых возможностей и перспективных способов применения Word2Vec стали модификации данного метода (Phrase2Vec - контекстуальный анализ фраз, fastText - использование n-граммов), а также альтернативные методы для векторизации и интеллектуального анализа фраз. В данной работе рассмотрены (проведён сравнительный анализ) актуальные подходы к решению задачи интеллектуального анализа фраз и их векторизации, а также продемонстрирована целесообразность использования данных методов.

Efficiency analysis of approaches to phrase embedding

Nothing can contribute to the analysis of text documents better than the vectorization of words (context analysis) in these data collections, especially if it becomes possible to take into account not just individual words, but whole phrases. This would make it possible not only to speed up the study of textual material and improve the quality of the analysis itself, but also to achieve a deeper development of the whole field of research. Given the increasing popularity of Word2Vec every year, it is not surprising that this approach to vectorization became the initial object of research by many scientific experts in the field of information technology. The search for new opportunities and promising ways to use Word2Vec resulted in modifications of this method (Phrase2Vec contextual analysis of phrases, fastText the use of n-grams), as well as alternative methods for vectorization and mining of phrases. In this paper, the following are considered (a comparative analysis is carried out) current approaches to solving the problem of phrase mining and their vectorization (phrase embedding) as well as the expediency of using these methods is demonstrated.

Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
280-285
Status
Published
Year
2022
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
Phrase2Vec; word2vec; phrase mining; phrase embedding; интеллектуальный анализ фраз; векторное представление фраз
Share

Other records

Podmogilnyi I.A.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2022. P. 269-279
Assan A.J.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2022. P. 342-347