Comparison of cluster analysis methods in the example with banking clients

Gaydamaka, A.A.; Samouylov, K.E.

Сравнение методов кластерного анализа в примере с банковскими клиентами

С каждым годом растёт потребность в изучении больших данных. Однако работа с ними трудоёмка и требует значительных ресурсов, в связи с чем актуальной становится предваряющая анализ подготовка данных. Одним из вариантов подготовки является выделение некоторых множеств в наборе данных: гораздо эффективнее выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, а не создавать одну общую модель для всех данных. Разбиение множества объектов на группы, называемые кластерами, и является задачей кластерного анализа. В данной работе рассмотрены три алгоритма кластерного анализа - метод К-средних, кластеризация, основанная на плотности, и иерархическая кластеризация. Для иллюстрации в работе каждый метод применяется на наборе данных, состоящем из информации о банковских клиентах. Эффективность применения методов кластеризации оценивается с помощью таких показателей, как силуэт и сумма квадратов ошибок. В качестве результата исследования выбирается метод, наилучшим образом подходящий к набору данных, а также количество кластеров, которое предписывает выбранный метод, и численные значения показателей.

Comparison of cluster analysis methods in the example with banking clients

In this paper, three basic cluster analysis algorithms are considered - K-means, densitybased clustering (DBSCAN) and agglomerative hierarchical clustering. Each of the methods is applied on a data set consisting of information about banking clients. The effectivness of a particular clustering method is assessed using indicators such as the sum of the squared error (SSE) and silhouette. As a result of the study, the best clustering method for the data set is chosen, the number of clusters that the selected method prescribes is found, the numerical values of the indicators are calculated.

Авторы

Гайдамака А.А. (Gaydamaka A.A.) ¹ , Самуйлов К.Е. (Samouylov K.E.) ¹

Сборник материалов конференции

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Издательство

РУДН

Язык

Русский

Страницы

127-130

Статус

Опубликовано

Год

2019

Организации

¹ Российский университет дружбы народов
² Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Ключевые слова

Dbscan; cluster analysis; k-means; density-based clustering; hierarchical clustering; кластерный анализ; метод k-средних; иерархическая кластеризация

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

АНТИОКСИДАНТНЫЙ ПОТЕНЦИАЛ ТРАДИЦИОННЫХ И ИНТРОДУЦИРОВАННЫХ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР – КАК ПОКАЗАТЕЛЬ АДАПТИВНОСТИ РАСТЕНИЙ К УСЛОВИЯМ ВЫРАЩИВАНИЯ

Статья

Гинс Е.М., Москалев Е., Жевора С.В., Горюнова С.В.

125 лет прикладной ботаники в России. 2019. С. 127-127

ВЛИЯНИЕ ИННОВАЦИОННЫХ ПРОЦЕССОВ И УРОВНЯ ОБРАЗОВАНИЯ НА РАЗВИТИЕ ЧЕЛОВЕЧЕСКОГО ПОТЕНЦИАЛА

Статья

Логинова Д.С.

Мировые тенденции и перспективы развития инновационной экономики: материалы VIII научно-практической конференции молодых ученых. Москва, 16 мая 2019 г.. 2019. С. 127-131