Разработка моделей дистрибутивной семантики с применением методов тематического моделирования

В данной работе рассмотрен один из методов тематического моделирования - аддитивная регуляризация тематического моделирования для больших коллекций текстовых документов. Он основан на максимизации взвешенной суммы логарифмического правдоподобия и дополнительных критериев регуляризации. Основной целью данного исследования является разработка алгоритма, который автоматически интерпретирует темы в больших коллекциях текстовых документов. Для выполнения поставленной задачи был исследован метод комбинирования регуляризаторов для сглаживания и повышения интерпретируемости тем тематического моделирования. В экспериментальной части показано, что комбинация разрежевания, сглаживания и декорреляции улучшает сразу несколько показателей качества без потери вероятности. Эксперименты проводились с помощью Python3, используя сервис интерактивных вычислений Jupyter Notebook.

Word embeddings using topical models

In this paper the method of topic modeling - additive regularization for topic modeling of large collections of text documents was considered. It is based on the maximization of the weighted sum of the log-likelihood and additional regularization criteria. The purpose of this research is to develop an algorithm that automatically identifies topics in large collections of documents. To accomplish this task, the method of combining regularizers for sparsing and improving the interpretability of topic modeling themes have been explored. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood. The experiments were carried out using the Python3, using the service for interactive computing Jupyter Notebook.

Авторы
Издательство
РУДН
Язык
Английский
Страницы
308-312
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
Probabilistic topic modeling; Probabilistic latent sematic analysis; Latent Dirichlet Allocation; Additive regularization for topic modeling; EM-algorithm; вероятностная тематическая модель; вероятностный латентный семантический анализ; латентное распределение Дирихле; аддитивная регуляризация тематических моделей; EM-алгоритм
Цитировать
Поделиться

Другие записи