Разработка моделей дистрибутивной семантики с применением методов тематического моделирования

В данной работе рассмотрен один из методов тематического моделирования - аддитивная регуляризация тематического моделирования для больших коллекций текстовых документов. Он основан на максимизации взвешенной суммы логарифмического правдоподобия и дополнительных критериев регуляризации. Основной целью данного исследования является разработка алгоритма, который автоматически интерпретирует темы в больших коллекциях текстовых документов. Для выполнения поставленной задачи был исследован метод комбинирования регуляризаторов для сглаживания и повышения интерпретируемости тем тематического моделирования. В экспериментальной части показано, что комбинация разрежевания, сглаживания и декорреляции улучшает сразу несколько показателей качества без потери вероятности. Эксперименты проводились с помощью Python3, используя сервис интерактивных вычислений Jupyter Notebook.

Word embeddings using topical models

In this paper the method of topic modeling - additive regularization for topic modeling of large collections of text documents was considered. It is based on the maximization of the weighted sum of the log-likelihood and additional regularization criteria. The purpose of this research is to develop an algorithm that automatically identifies topics in large collections of documents. To accomplish this task, the method of combining regularizers for sparsing and improving the interpretability of topic modeling themes have been explored. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood. The experiments were carried out using the Python3, using the service for interactive computing Jupyter Notebook.

Authors

Skripkina I.A. ¹

Conference proceedings

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Publisher

РУДН

Language

English

Pages

308-312

Status

Published

Year

2019

Organizations

¹ Peoples' Friendship University of Russia

Keywords

Probabilistic topic modeling; Probabilistic latent sematic analysis; Latent Dirichlet Allocation; Additive regularization for topic modeling; EM-algorithm; вероятностная тематическая модель; вероятностный латентный семантический анализ; латентное распределение Дирихле; аддитивная регуляризация тематических моделей; EM-алгоритм

Cite

ГОСТ MLA RIS BibTex

THE ROLE OF MOTIVATION AND STRONGWILLED REGULATION IN MAINTAINING A HEALTHY LIFESTYLE

Article

Minkh E.

Актуальные проблемы психологии и педагогики в современном мире: сборник научных трудов IV Международной научно-практической конференции. Москва, РУДН, 04 апреля 2019 г.. РУДН. 2019. P. 307-313

THE MODERN TENDENCIES OF THE RESEARCH OF VICTIMHOOD

Article

Oganisian A.V., Kudinov V.S.

Личность в современном обществе: образование, развитие, самореализация. Российский университет дружбы народов (РУДН). 2019. P. 308-314

Разработка моделей дистрибутивной семантики с применением методов тематического моделирования

Word embeddings using topical models

Other records

THE ROLE OF MOTIVATION AND STRONGWILLED REGULATION IN MAINTAINING A HEALTHY LIFESTYLE

THE MODERN TENDENCIES OF THE RESEARCH OF VICTIMHOOD

Cite