Обработка естественного языка (NLP) является одним из самых значимых направлений исследований в области искусственного интеллекта. В данной работе я хочу рассмотреть обработку и анализ клинических текстов, которые содержат большое количество информации, полезной для поддержки принятия медицинских решений. Но анализ текстов вызывает множество сложностей, таких как разметка текста, предобработка и разные виды анализа. Более того, клинические тексты представляют особенную сложность для анализа по многим причинам: например, частые сокращения, опечатки и большое количество синонимичных терминов. Для решения данной проблемы используются различные подходы, включая созданные экспертами правила, машинное обучение и, в последнее время, глубокое обучение. Более формальным описанием данной задачи является извлечение именованных сущностей (NER) из клинических записей. Для решения данной задачи были разработаны методы извлечения информации о заболеваниях и состоянии здоровья, основанные на вручную созданных правилах, статистическом машинном обучении и глубоком обучении. Проведены сравнительные экспериментальные исследования разработанных методов на размеченном корпусе клинических записей. На их основе были сделаны выводы об эффективности разработанных методов.
Natural language processing (NLP) is one of the most significant areas of research in artificial intelligence. In this paper, I have overviewed the processing and analysis of clinical texts that contain a large amount of useful information to support decision-making in medicine. But text analysis is connected with a number of complications, such as text markup, preprocessing, and various types of analysis. Moreover, clinical texts are particularly difficult to analyze for many reasons: frequent abbreviations, typos, and a large number of synonymous terms. To solve this problem various approaches are to be applied, including expert-created rules, machine learning, and deep learning as a more recent approach. A more formal description of the task mentioned above is named entity recognition (NER) in clinical records. To solve this problem I have developed methods to extract information on diseases and health conditions based on manually created rules, statistical machine learning and deep learning. Comparative experimental studies of the developed methods are conducted on a marked-up corpus of clinical records. Based on them, conclusions are made about the effectiveness of the developed methods.