Тематическая кластеризации научной литературы

Данная работа посвящена решению задачи кластеризации научных текстов. Задача тематического моделирования одна из многих задач обработки естественного языка, заслуживающая отдельного внимания. Использовать кластеризацию можно как мощный инструмент для улучшения качества работы различных сервисов, которыми пользуется человек, например, рекомендательных систем. В данной работе был проведён ряд экспериментов, произведено сравнение различных подходов к векторизации входных текстов с помощью разных метрик качеств, использующихся при решении задачи кластеризации. Результатом данной работы являются сформулированные выводы о том, какой подход самый эффективный. Также были предложены пути дальнейшего улучшения текущих результатов.

Thematic clustering of scientific literature

This work is devoted to solving the problem of clustering scientific texts. The topic modeling task is one of many natural language processing problems that deserves special attention. Clustering can be used as a powerful tool for improving the quality of various services that a person uses, for instance, recommendation systems. In this work, we will conduct a number of experiments, compare different approaches to vectorization of input texts using different quality metrics used to solve the clustering problem. The result of this work is the formulated conclusions about which approach is the most effective. Ways to further improve the current results were also suggested.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
268-273
Статус
Опубликовано
Год
2021
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
machine learning; clustering; text vectorization; transformer; машинное обучение; кластеризация; векторизация текстов; трансформер
Цитировать
Поделиться

Другие записи