Разработка рекомендательной системы научных публикаций в области медицины на основе методов машинного обучения

Сегодня распознавание именованных сущностей находится лишь на начальном этапе, но огромные возможности такого метода, как Word2Vec могут в полной мере расширишь функционал данного подхода и сделать его крайне полезным инструментом для работы в любой научной области. Все возможные пути решения задачи NER и дальнейшие направления развития не исчерпаны, поэтому ученым и исследователям лишь стоит продолжать исследования в данной области и предложить свои методы и способы для нахождения новых сущностей в специализированных областях. Основой настоящей статьи является реализация системы, способной выдавать наиболее релевантные рекомендации в ответ на запрос пользователя в медицинской области. Данная работа базируется на применении двух подходов к обработке естественного языка: Named Entity Recognition и Word2Vec, а исследования сосредоточены на совершенствовании одного метода за счет другого: на получении новых именованных сущностей посредством использования Word2Vec. В ходе разработки была создана рекомендательная система, работающая с различными текстовыми отрывками и выдающая актуальные для пользователя результаты, в основе работы которой лежит степень сходства между словами (мера косинусной близости их векторных представлений).

Today, the recognition of named entities is only at the initial stage, but the huge possibilities of such a method as Word2Vec can fully expand the functionality of this approach and make it an extremely useful tool for working in any scientific field. All possible ways to solve the NER problem and further directions of development have not been exhausted, therefore, scientists and researchers should only continue research in this area and offer their own methods and methods for finding new entities in specialized areas. The basis of this article is the implementation of a system capable of issuing the most relevant recommendations in response to a user request in the medical field. This work is based on the application of two approaches to natural language processing: Named Entity Recognition and Word2Vec, and research is focused on improving one method at the expense of the other: on obtaining new named entities through the use of Word2Vec. In the course of development, a recommender system was created that works with various text passages and produces results that are relevant to the user, based on the degree of similarity between words (a measure of the cosine proximity of their vector representations).

Publisher
Общество с ограниченной ответственностью Журнал Инновации и инвестиции
Number of issue
5
Language
Russian
Pages
142-148
Status
Published
Year
2022
Organizations
  • 1 Российский университет дружбы народов
Keywords
text mining; Named entity; vectorization; интеллектуальный анализ текста; NER; именованная сущность; word2vec; векторизация
Share

Other records