Comparison of cluster analysis methods in the example with banking clients

Gaydamaka, A.A.; Samouylov, K.E.

Сравнение методов кластерного анализа в примере с банковскими клиентами

С каждым годом растёт потребность в изучении больших данных. Однако работа с ними трудоёмка и требует значительных ресурсов, в связи с чем актуальной становится предваряющая анализ подготовка данных. Одним из вариантов подготовки является выделение некоторых множеств в наборе данных: гораздо эффективнее выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, а не создавать одну общую модель для всех данных. Разбиение множества объектов на группы, называемые кластерами, и является задачей кластерного анализа. В данной работе рассмотрены три алгоритма кластерного анализа - метод К-средних, кластеризация, основанная на плотности, и иерархическая кластеризация. Для иллюстрации в работе каждый метод применяется на наборе данных, состоящем из информации о банковских клиентах. Эффективность применения методов кластеризации оценивается с помощью таких показателей, как силуэт и сумма квадратов ошибок. В качестве результата исследования выбирается метод, наилучшим образом подходящий к набору данных, а также количество кластеров, которое предписывает выбранный метод, и численные значения показателей.

Comparison of cluster analysis methods in the example with banking clients

In this paper, three basic cluster analysis algorithms are considered - K-means, densitybased clustering (DBSCAN) and agglomerative hierarchical clustering. Each of the methods is applied on a data set consisting of information about banking clients. The effectivness of a particular clustering method is assessed using indicators such as the sum of the squared error (SSE) and silhouette. As a result of the study, the best clustering method for the data set is chosen, the number of clusters that the selected method prescribes is found, the numerical values of the indicators are calculated.

Authors

Гайдамака А.А. (Gaydamaka A.A.) ¹ , Самуйлов К.Е. (Samouylov K.E.) ¹

Conference proceedings

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Publisher

РУДН

Language

Russian

Pages

127-130

State

Published

Year

2019

Organizations

¹ Peoples' Friendship University of Russia (RUDN University)
² Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences

Keywords

Dbscan; cluster analysis; k-means; density-based clustering; hierarchical clustering; кластерный анализ; метод k-средних; иерархическая кластеризация

Cite

ГОСТ MLA RIS BibTex

ANTIOXIDANT POTENTIAL OF TRADITIONAL AND INTRODUCED AGRICULTURAL CROPS AS AN INDICATOR OF PLANT ADAPTIVITY TO CULTIVATION CONDITIONS

Article

Gins E.M., Moskalev E., Zhevora S.V., Goryunova S.V.

125 years of Applied Botany in Russia. 2019. P.. 127-127

ВЛИЯНИЕ ИННОВАЦИОННЫХ ПРОЦЕССОВ И УРОВНЯ ОБРАЗОВАНИЯ НА РАЗВИТИЕ ЧЕЛОВЕЧЕСКОГО ПОТЕНЦИАЛА

Article

Логинова Д.С.

Мировые тенденции и перспективы развития инновационной экономики: материалы VIII научно-практической конференции молодых ученых. Москва, 16 мая 2019 г.. 2019. P.. 127-131

Сравнение методов кластерного анализа в примере с банковскими клиентами

Comparison of cluster analysis methods in the example with banking clients

Other records

ANTIOXIDANT POTENTIAL OF TRADITIONAL AND INTRODUCED AGRICULTURAL CROPS AS AN INDICATOR OF PLANT ADAPTIVITY TO CULTIVATION CONDITIONS

ВЛИЯНИЕ ИННОВАЦИОННЫХ ПРОЦЕССОВ И УРОВНЯ ОБРАЗОВАНИЯ НА РАЗВИТИЕ ЧЕЛОВЕЧЕСКОГО ПОТЕНЦИАЛА

Cite