В данной работе рассмотрен один из методов тематического моделирования - аддитивная регуляризация тематического моделирования для больших коллекций текстовых документов. Он основан на максимизации взвешенной суммы логарифмического правдоподобия и дополнительных критериев регуляризации. Основной целью данного исследования является разработка алгоритма, который автоматически интерпретирует темы в больших коллекциях текстовых документов. Для выполнения поставленной задачи был исследован метод комбинирования регуляризаторов для сглаживания и повышения интерпретируемости тем тематического моделирования. В экспериментальной части показано, что комбинация разрежевания, сглаживания и декорреляции улучшает сразу несколько показателей качества без потери вероятности. Эксперименты проводились с помощью Python3, используя сервис интерактивных вычислений Jupyter Notebook.
In this paper the method of topic modeling - additive regularization for topic modeling of large collections of text documents was considered. It is based on the maximization of the weighted sum of the log-likelihood and additional regularization criteria. The purpose of this research is to develop an algorithm that automatically identifies topics in large collections of documents. To accomplish this task, the method of combining regularizers for sparsing and improving the interpretability of topic modeling themes have been explored. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood. The experiments were carried out using the Python3, using the service for interactive computing Jupyter Notebook.