Сравнительный анализ статистических методов классификации научных публикаций в области медицины

Данилов, Г.В.; Жуков, В.В.; Куликов, А.С.; Макашова, Е.С.; Митин, Н.А.; Орлов, Ю.Н.

В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.

In this paper the various methods of machine classification of scientific texts by thematic sections on the example of publications in specialized medical journals published by Springer are compared. The corpus of texts was studied in five sections: pharmacology/toxicology, cardiology, immunology, neurology and oncology. We considered both classification methods based on the analysis of annotations and keywords, and classification methods based on the processing of actual texts. Methods of Bayesian classification, reference vectors, and reference letter combinations were applied. It is shown that the method of classification with the best accuracy is based on creating a library of standards of letter trigrams that correspond to texts of a certain subject. It is turned out that for this corpus the Bayesian method gives an error of about 20%, the support vector machine has error of order 10%, and the proximity of the distribution of three-letter text to the standard theme gives an error of about 5%, which allows to rank these methods to the use of artificial intelligence in the task of text classification by industry specialties. It is important that the support vector method provides the same accuracy when analyzing annotations as when analyzing full texts, which is important for reducing the number of operations for large text corpus.

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ РОССИЙСКОЙ НЕКОММЕРЧЕСКОЙ ОБЩЕСТВЕННОЙ ОРГАНИЗАЦИИ "АССОЦИАЦИЯ АНЕСТЕЗИОЛОГОВ-РЕАНИМАТОЛОГОВ", МЕЖРЕГИОНАЛЬНОЙ ОБЩЕСТВЕННОЙ ОРГАНИЗАЦИИ "АЛЬЯНС КЛИНИЧЕСКИХ ХИМИОТЕРАПЕВТОВ И МИКРОБИОЛОГОВ", МЕЖРЕГИОНАЛЬНОЙ АССОЦИАЦИИ ПО КЛИНИЧЕСКОЙ МИКРОБИОЛОГИИ И АНТИМИКРОБНОЙ ХИМИОТЕРАПИИ (МАКМАХ), ОБЩЕСТВЕННОЙ ОРГАНИЗАЦИИ "РОССИЙСКИЙ СЕПСИС ФОРУМ" "ДИАГНОСТИКА И АНТИМИКРОБНАЯ ТЕРАПИЯ ИНФЕКЦИЙ, ВЫЗВАННЫХ ПОЛИРЕЗИСТЕНТНЫМИ МИКРООРГАНИЗМАМИ"

Статья

Белобородов В.Б., Гусаров В.Г., Дехнич А.В., Замятин М.Н., Зубарева Н.А., Зырянов С.К., Камышова Д.А., Климко Н.Н., Козлов Р.С., Кулабухов В.В., Полушин Ю.С., Руднов В.А., Сидоренко С.В., Шлык И.В., Эдельштейн М.В., Яковлев С.В.

Вестник анестезиологии и реаниматологии. Том 17. 2020. С. 52-83

Сравнительный анализ статистических методов классификации научных публикаций в области медицины

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Сравнительный анализ статистических методов классификации научных публикаций в области медицины

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Цитировать