Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен “fake news”

Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (β-балл).Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970-2019). Показано, что публикации с низким сентимент-качеством (значение β-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями β-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение β-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности. Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».

Introduction. The English-language databases PubMed/MEDLINE and Embase are valuable information resources for finding original publications in basic and clinical medicine. Currently, there are no artificial intelligence systems to evaluate the quality of these publications.Aim. Development and testing of a system for sentiment analysis (i.e. analysis of emotional modality) of biomedical publications.Materials and methods. The technique of analysis of the “Big data” of biomedical publications was formulated on the basis of the topological theory of sentiment analysis. Algorithms have been developed that allow for the classification of texts from 16 sentiment classes with 90% accuracy (manipulative speech, research without positive results, propaganda, falsification of results, negative personal attitude, aggressive text, negative emotional background, etc.). Based on the algorithms, a scale for assessing the sentiment quality of research (β-score) is proposed.Results. Abstracts of 19.9 million publications registered in PubMed/MEDLINE over the past 50 years (1970-2019) were analyzed. It was shown that publications with low sentiment quality (the value of the β-score of the text is less than zero, which corresponds to the prevalence of manipulative and negative sentiments in the text) comprise only 18.5% (3.68 out of 19.9 million). The greatest values of the β-score were characterized by publications on sports medicine, systems biology, nutrition, on the use of applied mathematics and data mining in medicine. The rubrication of the entire array of publications by 27,840 headings (MESH-system of PubMed/MEDLINE) indicated an increase in the β-score by years (i.e., the positive dynamics of sentiment quality of the texts of publications) for 27,090 of the studied headings. The most intense positive dynamics was found for research in genetics, physiology, pharmacology, and gerontology. 249 headings with sharply negative dynamics of sentiment quality and with a pronounced increase in the manipulative sentiments characteristic of the tabloid press were highlighted. Separate assessments of international experts are presented that confirm the patterns identified.Conclusion. The proposed artificial intelligence system allows a researcher to make an effective assessment of the sentiment quality of biomedical research papers, filtering out potentially inappropriate publications disguised as “evidence-based”.

Number of issue
2
Language
Russian
Pages
146-163
Status
Published
Volume
13
Year
2020
Organizations
  • 1 Федеральный исследовательский центр "Информатика и управление" РАН
  • 2 Московский государственный университет им. М.В. Ломоносова
  • 3 Федеральный центр мозга и нейротехнологий
  • 4 Центр психосоматической медицины при клинической больнице № 122 им. Л. Г. Соколова
  • 5 Санкт-Петербургский государственный педиатрический медицинский университет
  • 6 Российский университет дружбы народов
  • 7 Ивановская государственная медицинская академия
  • 8 Московский областной научно-исследовательский клинический институт им. М.Ф. Владимирского
  • 9 Федеральное государственное бюджетное учреждение науки «ФИЦ питания и биотехнологии»
  • 10 Российская медицинская академия непрерывного профессионального образования
  • 11 Северный государственный медицинский университет
  • 12 Научно-исследовательский институт акушерства, гинекологии и репродуктологии им. Д.О. Отта
  • 13 Кемеровский государственный медицинский университет
Keywords
Big Data analysis; Pharmacoinformatics; artificial intelligence; evidence-based medicine; machine learning; publication quality assessment algorithms; thematic modeling; анализ Больших Данных; фармакоинформатика; искусственный интеллект; доказательная медицина; машинное обучение; алгоритмы оценки качества публикаций; тематическое моделирование
Share

Other records