О методах повышения точности многоклассовой классификации на несбалансированных данных

Проведены исследования методов преодоления разбалансированности классов в данных с целью повышения качества классификации с точностью, более высокой, чем при непосредственном использовании алгоритмов классификации к несбалансированным данным. Для повышения точности классификации в работе предложена схема, состоящая в использовании комбинации алгоритмов классификации и методов отбора признаков RFE (Recursive Feature Elimination), Random Forest и Boru-ta с предварительным использованием балансирования классов методами случайного семплирования, SMOTE (Synthetic Minority Oversamplimg TEchnique) и ADASYN (ADAptive SYNthetic sampling). На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм случайного леса при семплировании данных с использованием алгоритма ADASYN.

This paper studies methods to overcome the imbalance of classes in order to improve the quality of classification with accuracy higher than the direct use of classification algorithms to unbalanced data. The scheme to improve the accuracy of classification is proposed, consisting in the use of a combination of classification algorithms and methods ofselection offeatures such as RFE (Recursive Feature Elimination), Random Forest, and Boruta with the preliminary use of balancing classes by random sampling methods, SMOTE (Synthetic Minority Oversamplimg TEchnique) and ADASYN (ADAptive SYNthetic sampling). By the example of data on skin diseases, computer experiments were conducted which showed that the use of sampling algorithms to eliminate the imbalance ofclasses as well as the selection ofthe most informative features significantly increases the accuracy of the classification results. The most effective classification accuracy was the Random Forest algorithm for sampling data using the ADASYN algorithm.

Авторы

Севастьянов Л.А. ¹ , Щетинин Е.Ю. ²

Journal

Информатика и ее применения (Informatika i ee Primeneniya)

Издательство

Федеральный исследовательский центр "Информатика и управление" РАН

Номер выпуска

Язык

Russian

Страницы

63-70

Статус

Published

Том

Год

2020

Организации

¹ Российский университет дружбы народов
² Финансовый университет при Правительстве РФ

Ключевые слова

классификация; несбалансированные данные; семплирование; случайный лес; ADASYN; Smote; Imbalanced data; classification; sampling; random forest

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Article

Kartashkin V.A., Abashidze A.Kh.

International Journal on Minority and Group Rights. Том 10. 2003. С. 203-220

СТАТИСТИЧЕСКИЕ СВОЙСТВА ДВОИЧНЫХ НЕАВТОНОМНЫХ РЕГИСТРОВ СДВИГА С ВНУТРЕННИМ СУММИРОВАНИЕМ

Article

Мельников С.Ю., Самуйлов К.Е.

Informatika i ee Primeneniya. Том 14. 2020. С. 80-85