Применение модели обнаружения трендов для выявления динамики тем в корпусе биомедицинской литературы

В течение последних нескольких лет наблюдался экспоненциальный рост количества статей о биомедицинских и биологических исследованиях. Подобное увеличение объёма систематически собираемых текстовых данных, архивируемых информационными системами из года в год, их неиссякаемый поток и постоянное накопление сделали невозможным для исследователя самостоятельное ознакомление с их содержанием и обусловили развитие интереса к задачам автоматического поиска, обработки и анализа текстовой информации. Выявление возникающих трендов в динамической коллекции документов - одна из таких задач, состоящая в обнаружении тематик, интерес к которым, а так же их полезность растут со временем. В данной работе представлена комплексная модель выявления трендов, обобщающая и объединяющая функционал существующих методов в едином подходе, а также результаты её применения к корпусу биомедицинских статей, предварительно обработанных с учётом особенностей узкоспециализированной литературы. Итоговая модель отличается своей адаптируемостью, численным анализом обнаруженных трендов и разносторонним подходом к представлению топиков, в то же время демонстрируя удовлетворительные результаты в задаче выявления трендов без подключения сторонних предметно-ориентированных тезаурусов или онтологий.

Applying trend detection model to reveal topic dynamics in biomedical corpora

The past several years have witnessed a rapid growth in the number of articles on biomedical and biological research. Such an increase in the amount of systematically collected textual data, archived by information systems year by year, their continuous flow and constant accumulation made it impossible for researchers to overview their contents all by themselves. That, in turn, gave rise to growing interest in text retrieval, processing and analysis problems. One of such problems is emerging trend detection (ETD) which implies identifying topics, interest to which, as well as their utility, is growing over time. In this study we have introduced a single cumulative ETD model, which covers some of the existing solutions in a flexible, highly-customizable way, and have applied it to the corpora of biomedical articles preprocessed with due regard for highly specialized literature. The resulting model is characterized by its adaptability and rich topic representation, while showing satisfying results in ETD without using any external domain-specific dictionaries or ontologies.

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
156-161
Status
Published
Year
2021
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
text mining; trend detection; topic modeling; интеллектуальный анализ текстов; выявление трендов; тематическое моделирование
Share

Other records