Методы извлечения биомедицинской информации из патентов и научных публикаций (на примере химических соединений)

В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Предложенный алгоритм основан на методах машинного обучения. Были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения показала модель, построенная на основе BioBERT.

This article proposes an algorithm for solving the problem of extracting information from biomedical patents and scientific publications. The introduced algorithm is based on machine learning methods. Experiments were carried out on patents from the USPTO database. Experiments have shown that the best extraction quality was achieved by a model based on BioBERT.

Авторы
Колпаков Н.А.1 , Молодченков А.И. 2, 3 , Лукин Антон 3
Издательство
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук
Номер выпуска
1
Язык
Русский
Страницы
159-166
Статус
Опубликовано
Том
73
Год
2023
Организации
  • 1 Московский физико-технический институт
  • 2 Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»
  • 3 Российский университет дружбы народов
Ключевые слова
machine learning; natural language processing; named entity recognition; biomedical texts processing; машинное обучение; обработка естественного языка; извлечение именованных сущностей; обработка биомедицинских текстов
Дата создания
28.12.2023
Дата изменения
28.12.2023
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/101706/
Поделиться

Другие записи