Method of preparing training data for the development of algorithms for extracting information from medical texts

Lukin, A.V.; Molodchenkov, A.I.

Метод подготовки обучающих данных для разработки алгоритмов извлечения информации из медицинских текстов

Объем информации, в том числе научной, доступной через интернет растёт год от года и темпы роста только увеличиваются, как растёт и рынок обработки информации. Для проведения таких исследований как сравнительный анализ или мета анализ можно получать данные из уже опубликованных работ. Для проведения мета-анализа требуется составить обзор большого количества литературных источников. Вручную сделать это очень тяжело. Поэтому необходимы алгоритмы, которые позволяют автоматически извлекать релевантную информацию из научных публикаций. Для разработки такого рода алгоритмов необходимо подготовить некоторый набор размеченных текстов и словарей. В статье рассматривается метод разметки медицинских статей с применением соответствующего программного модуля. Этот модуль позволяет создавать структуру разметки и выделять фрагменты текстов которые соответствуют элементам этой структуры. Работа этого модуля показана на примере статей по печёночной недостаточности.

Method of preparing training data for the development of algorithms for extracting information from medical texts

The amount of information, including scientific, available via the Internet is growing year by year and the growth rate is only increasing, as the information processing market is growing. To conduct such research as a comparative analysis or meta-analysis, one can obtain data from already published works. To conduct a meta-analysis is required to make an overview of a large number of literary sources. Manually making it is very difficult. Therefore, algorithms are needed that allow you to automatically extract relevant information from scientific publications. For the development of such algorithms, it is necessary to prepare a certain set of labeled texts and dictionaries. The article discusses the method of marking medical articles using the appropriate software module. This module allows you to create a markup structure and select text fragments that correspond to the elements of this structure. The work of this module is shown on the example of articles on liver failure.

Authors

Лукин А.В. (Lukin A.V.) ^1, ² , Молодченков А.И. (Molodchenkov A.I.) ^1, ²

Conference proceedings

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Publisher

РУДН

Language

Russian

Pages

251-253

State

Published

Year

2019

Organizations

¹ Peoples' Friendship University of Russia
² «Systems Analysis Technology» Ltd
³ Federal research center «Informatics and management» Russian Academy of Sciences

Keywords

Computer Science; information technologies; компьютерные науки; информационные технологии

Cite

ГОСТ MLA RIS BibTex

CHAPERON GROELS SYSTEM FOR PEPTIDE BIOSYNTHESIS AND FUNCTIONAL RECOMBINANT PROTEIN PRODUCTION

Article

Das Milana, Fedorov A.N.

SCIENCE4HEALTH 2019. Клинические и теоретические аспекты современной медицины. 2019. 25 p..

ГРАЖДАНСКАЯ ЖУРНАЛИСТИКА РОССИИ: ОСОБЕННОСТИ И ПЕРСПЕКТИВЫ

Article

Нассер Мариам

Медиареальность России: вчера, сегодня, завтра. 2019. P.. 251-257

Метод подготовки обучающих данных для разработки алгоритмов извлечения информации из медицинских текстов

Method of preparing training data for the development of algorithms for extracting information from medical texts

Other records

CHAPERON GROELS SYSTEM FOR PEPTIDE BIOSYNTHESIS AND FUNCTIONAL RECOMBINANT PROTEIN PRODUCTION

ГРАЖДАНСКАЯ ЖУРНАЛИСТИКА РОССИИ: ОСОБЕННОСТИ И ПЕРСПЕКТИВЫ

Cite