Тематическая кластеризации научной литературы

Данная работа посвящена решению задачи кластеризации научных текстов. Задача тематического моделирования одна из многих задач обработки естественного языка, заслуживающая отдельного внимания. Использовать кластеризацию можно как мощный инструмент для улучшения качества работы различных сервисов, которыми пользуется человек, например, рекомендательных систем. В данной работе был проведён ряд экспериментов, произведено сравнение различных подходов к векторизации входных текстов с помощью разных метрик качеств, использующихся при решении задачи кластеризации. Результатом данной работы являются сформулированные выводы о том, какой подход самый эффективный. Также были предложены пути дальнейшего улучшения текущих результатов.

Thematic clustering of scientific literature

This work is devoted to solving the problem of clustering scientific texts. The topic modeling task is one of many natural language processing problems that deserves special attention. Clustering can be used as a powerful tool for improving the quality of various services that a person uses, for instance, recommendation systems. In this work, we will conduct a number of experiments, compare different approaches to vectorization of input texts using different quality metrics used to solve the clustering problem. The result of this work is the formulated conclusions about which approach is the most effective. Ways to further improve the current results were also suggested.

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
268-273
Status
Published
Year
2021
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
machine learning; clustering; text vectorization; transformer; машинное обучение; кластеризация; векторизация текстов; трансформер
Date of creation
16.12.2021
Date of change
16.12.2021
Short link
https://repository.rudn.ru/en/records/article/record/78349/
Share

Other records