Разработка моделей дистрибутивной семантики с применением методов тематического моделирования

В данной работе рассмотрен один из методов тематического моделирования - аддитивная регуляризация тематического моделирования для больших коллекций текстовых документов. Он основан на максимизации взвешенной суммы логарифмического правдоподобия и дополнительных критериев регуляризации. Основной целью данного исследования является разработка алгоритма, который автоматически интерпретирует темы в больших коллекциях текстовых документов. Для выполнения поставленной задачи был исследован метод комбинирования регуляризаторов для сглаживания и повышения интерпретируемости тем тематического моделирования. В экспериментальной части показано, что комбинация разрежевания, сглаживания и декорреляции улучшает сразу несколько показателей качества без потери вероятности. Эксперименты проводились с помощью Python3, используя сервис интерактивных вычислений Jupyter Notebook.

Word embeddings using topical models

In this paper the method of topic modeling - additive regularization for topic modeling of large collections of text documents was considered. It is based on the maximization of the weighted sum of the log-likelihood and additional regularization criteria. The purpose of this research is to develop an algorithm that automatically identifies topics in large collections of documents. To accomplish this task, the method of combining regularizers for sparsing and improving the interpretability of topic modeling themes have been explored. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood. The experiments were carried out using the Python3, using the service for interactive computing Jupyter Notebook.

Authors
Publisher
РУДН
Language
English
Pages
308-312
Status
Published
Year
2019
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
Probabilistic topic modeling; Probabilistic latent sematic analysis; Latent Dirichlet Allocation; Additive regularization for topic modeling; EM-algorithm; вероятностная тематическая модель; вероятностный латентный семантический анализ; латентное распределение Дирихле; аддитивная регуляризация тематических моделей; EM-алгоритм
Date of creation
20.02.2020
Date of change
20.02.2020
Short link
https://repository.rudn.ru/en/records/article/record/58181/
Share

Other records

Minkh E.
Актуальные проблемы психологии и педагогики в современном мире: сборник научных трудов IV Международной научно-практической конференции. Москва, РУДН, 04 апреля 2019 г.. РУДН. 2019. P. 307-313
Oganisian A.V., Kudinov V.S.
Личность в современном обществе: образование, развитие, самореализация. Российский университет дружбы народов (РУДН). 2019. P. 308-314