Метод подготовки обучающих данных для разработки алгоритмов извлечения информации из медицинских текстов

Объем информации, в том числе научной, доступной через интернет растёт год от года и темпы роста только увеличиваются, как растёт и рынок обработки информации. Для проведения таких исследований как сравнительный анализ или мета анализ можно получать данные из уже опубликованных работ. Для проведения мета-анализа требуется составить обзор большого количества литературных источников. Вручную сделать это очень тяжело. Поэтому необходимы алгоритмы, которые позволяют автоматически извлекать релевантную информацию из научных публикаций. Для разработки такого рода алгоритмов необходимо подготовить некоторый набор размеченных текстов и словарей. В статье рассматривается метод разметки медицинских статей с применением соответствующего программного модуля. Этот модуль позволяет создавать структуру разметки и выделять фрагменты текстов которые соответствуют элементам этой структуры. Работа этого модуля показана на примере статей по печёночной недостаточности.

Method of preparing training data for the development of algorithms for extracting information from medical texts

The amount of information, including scientific, available via the Internet is growing year by year and the growth rate is only increasing, as the information processing market is growing. To conduct such research as a comparative analysis or meta-analysis, one can obtain data from already published works. To conduct a meta-analysis is required to make an overview of a large number of literary sources. Manually making it is very difficult. Therefore, algorithms are needed that allow you to automatically extract relevant information from scientific publications. For the development of such algorithms, it is necessary to prepare a certain set of labeled texts and dictionaries. The article discusses the method of marking medical articles using the appropriate software module. This module allows you to create a markup structure and select text fragments that correspond to the elements of this structure. The work of this module is shown on the example of articles on liver failure.

Authors
Publisher
РУДН
Language
Russian
Pages
251-253
Status
Published
Year
2019
Organizations
  • 1 Peoples' Friendship University of Russia
  • 2 «Systems Analysis Technology» Ltd
  • 3 Federal research center «Informatics and management» Russian Academy of Sciences
Keywords
Computer Science; information technologies; компьютерные науки; информационные технологии
Date of creation
20.02.2020
Date of change
20.02.2020
Short link
https://repository.rudn.ru/en/records/article/record/57941/
Share

Other records