Method of preparing training data for the development of algorithms for extracting information from medical texts

Lukin, A.V.; Molodchenkov, A.I.

Метод подготовки обучающих данных для разработки алгоритмов извлечения информации из медицинских текстов

Объем информации, в том числе научной, доступной через интернет растёт год от года и темпы роста только увеличиваются, как растёт и рынок обработки информации. Для проведения таких исследований как сравнительный анализ или мета анализ можно получать данные из уже опубликованных работ. Для проведения мета-анализа требуется составить обзор большого количества литературных источников. Вручную сделать это очень тяжело. Поэтому необходимы алгоритмы, которые позволяют автоматически извлекать релевантную информацию из научных публикаций. Для разработки такого рода алгоритмов необходимо подготовить некоторый набор размеченных текстов и словарей. В статье рассматривается метод разметки медицинских статей с применением соответствующего программного модуля. Этот модуль позволяет создавать структуру разметки и выделять фрагменты текстов которые соответствуют элементам этой структуры. Работа этого модуля показана на примере статей по печёночной недостаточности.

Method of preparing training data for the development of algorithms for extracting information from medical texts

The amount of information, including scientific, available via the Internet is growing year by year and the growth rate is only increasing, as the information processing market is growing. To conduct such research as a comparative analysis or meta-analysis, one can obtain data from already published works. To conduct a meta-analysis is required to make an overview of a large number of literary sources. Manually making it is very difficult. Therefore, algorithms are needed that allow you to automatically extract relevant information from scientific publications. For the development of such algorithms, it is necessary to prepare a certain set of labeled texts and dictionaries. The article discusses the method of marking medical articles using the appropriate software module. This module allows you to create a markup structure and select text fragments that correspond to the elements of this structure. The work of this module is shown on the example of articles on liver failure.

Авторы

Лукин А.В. (Lukin A.V.) ^1, ² , Молодченков А.И. (Molodchenkov A.I.) ^1, ²

Сборник материалов конференции

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Издательство

РУДН

Язык

Русский

Страницы

251-253

Статус

Опубликовано

Год

2019

Организации

¹ Российский университет дружбы народов
² ООО «Технологии системного анализа»
³ Федеральный исследовательский центр «Информатика и управление» Российской Академии Наук

Ключевые слова

Computer Science; information technologies; компьютерные науки; информационные технологии

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

CHAPERON GROELS SYSTEM FOR PEPTIDE BIOSYNTHESIS AND FUNCTIONAL RECOMBINANT PROTEIN PRODUCTION

Статья

Das Milana, Fedorov A.N.

SCIENCE4HEALTH 2019. Клинические и теоретические аспекты современной медицины. 2019. 25 с.

ГРАЖДАНСКАЯ ЖУРНАЛИСТИКА РОССИИ: ОСОБЕННОСТИ И ПЕРСПЕКТИВЫ

Статья

Нассер Мариам

Медиареальность России: вчера, сегодня, завтра. 2019. С. 251-257