Метод подготовки обучающих данных для разработки алгоритмов извлечения информации из медицинских текстов

Объем информации, в том числе научной, доступной через интернет растёт год от года и темпы роста только увеличиваются, как растёт и рынок обработки информации. Для проведения таких исследований как сравнительный анализ или мета анализ можно получать данные из уже опубликованных работ. Для проведения мета-анализа требуется составить обзор большого количества литературных источников. Вручную сделать это очень тяжело. Поэтому необходимы алгоритмы, которые позволяют автоматически извлекать релевантную информацию из научных публикаций. Для разработки такого рода алгоритмов необходимо подготовить некоторый набор размеченных текстов и словарей. В статье рассматривается метод разметки медицинских статей с применением соответствующего программного модуля. Этот модуль позволяет создавать структуру разметки и выделять фрагменты текстов которые соответствуют элементам этой структуры. Работа этого модуля показана на примере статей по печёночной недостаточности.

Method of preparing training data for the development of algorithms for extracting information from medical texts

The amount of information, including scientific, available via the Internet is growing year by year and the growth rate is only increasing, as the information processing market is growing. To conduct such research as a comparative analysis or meta-analysis, one can obtain data from already published works. To conduct a meta-analysis is required to make an overview of a large number of literary sources. Manually making it is very difficult. Therefore, algorithms are needed that allow you to automatically extract relevant information from scientific publications. For the development of such algorithms, it is necessary to prepare a certain set of labeled texts and dictionaries. The article discusses the method of marking medical articles using the appropriate software module. This module allows you to create a markup structure and select text fragments that correspond to the elements of this structure. The work of this module is shown on the example of articles on liver failure.

Издательство
РУДН
Язык
Русский
Страницы
251-253
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
  • 2 ООО «Технологии системного анализа»
  • 3 Федеральный исследовательский центр «Информатика и управление» Российской Академии Наук
Ключевые слова
Computer Science; information technologies; компьютерные науки; информационные технологии
Дата создания
20.02.2020
Дата изменения
20.02.2020
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/57941/
Поделиться

Другие записи