Повышение точности многоклассовой классификации на несбалансированных данных методами машинного обучения

Несбалансированность классов, характеризуемая непропорциональным соотношением наблюдений в каждом классе, является одной из существенных проблем в машинном обучении. Дисбаланс классов можно обнаружить во многих областях, включая медицинскую диагностику, фильтрацию спама и обнаружение мошенничества. Большинство алгоритмов машинного обучения работают оптимальным образом, когда количество выборок в каждом классе примерно одинаково. Это связано с тем, что большинство алгоритмов разработаны таким образом, чтобы максимизировать точность и уменьшить погрешность. Однако, в условиях дисбаланса классов возникает угроза переобучения алгоритма, что приводит к некорректным оценкам классификации объектов. Таким образом, чтобы избежать подобного явления и достичь хороших результатов, необходимо исследовать методы работы с несбалансированными данными, а также разработать эффективные алгоритмы их классификации. В работе исследованы методы машинного обучения для устранения дисбаланса классов в данных с целью повышения точности в задачах многоклассовой классификации. В работе для повышения точности классификации предложено использовать комбинацию алгоритмов классификации и методов отбора признаков RFE, Random Forest и Boruta с предварительным балансированием классов методами случайного семплирования, SMOTE и ADASYN. На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм Random Forest при семплировании данных с использованием алгоритма ADASYN.

On methods for improving the accuracy of multi-class classification on unbalanced data

Unbalance of classes, characterized by a disproportionate ratio of observations in each class, is one of the significant problems in machine learning. Class imbalances can be detected in many areas, including medical diagnostics, spam filtering, and fraud detection. Most machine learning algorithms work optimally when the number of samples in each class is approximately the same. This is because most algorithms are designed to maximize accuracy and reduce error. However, under conditions of class imbalance, the algorithm may be retrained, which leads to incorrect estimates of object classification. Thus, in order to avoid this phenomenon and achieve good results, it is necessary to research methods for working with unbalanced data, as well as develop effective algorithms for classifying them. In this paper, we study machine learning methods to eliminate class imbalance in data in order to improve accuracy in multi-class classification problems. In this paper, to improve the accuracy of classification, it is proposed to use a combination of classification algorithms and feature selection methods RFE, Random Forest and Boruta with pre-balancing classes by random sampling, SMOTE and ADASYN. Using data on skin diseases as an example, computer experiments have shown that the use of sampling algorithms to eliminate the imbalance of classes, as well as the selection of the most informative features, significantly improves the accuracy of classification results. The Random Forest algorithm was the most effective in terms of classification accuracy when sampling data using the ADASYN algorithm.

Authors
Sevastianov L.A. 1 , Shchetinin E.Y.2
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
309-312
Status
Published
Year
2020
Organizations
  • 1 Peoples' Friendship University of Russia
  • 2 Financial University under the Government of the Russia Federation
Keywords
random forest; Smote; ADASYN; multiclass classification; imbalance classes; Machine Learing; многоклассовая классификация; дисбаланс классов; машинное обучение
Date of creation
02.11.2020
Date of change
02.11.2020
Short link
https://repository.rudn.ru/en/records/article/record/66790/
Share

Other records

Сазонова А.А., Сафарова А.Ф., Аверков О.В.
Внутренняя медицина в клинических наблюдениях. Российский университет дружбы народов (РУДН). 2020. P. 308-313
Konyakhina A.D., Basnakyan K.S., Turadzhyan L.V., Guseva E.S.
ЭКОЛОГИЧЕСКИЕ ЧТЕНИЯ - 2020. Омский государственный аграрный университет имени П.А. Столыпина. 2020. P. 309-313