Сравнение методов кластерного анализа в примере с банковскими клиентами

С каждым годом растёт потребность в изучении больших данных. Однако работа с ними трудоёмка и требует значительных ресурсов, в связи с чем актуальной становится предваряющая анализ подготовка данных. Одним из вариантов подготовки является выделение некоторых множеств в наборе данных: гораздо эффективнее выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, а не создавать одну общую модель для всех данных. Разбиение множества объектов на группы, называемые кластерами, и является задачей кластерного анализа. В данной работе рассмотрены три алгоритма кластерного анализа - метод К-средних, кластеризация, основанная на плотности, и иерархическая кластеризация. Для иллюстрации в работе каждый метод применяется на наборе данных, состоящем из информации о банковских клиентах. Эффективность применения методов кластеризации оценивается с помощью таких показателей, как силуэт и сумма квадратов ошибок. В качестве результата исследования выбирается метод, наилучшим образом подходящий к набору данных, а также количество кластеров, которое предписывает выбранный метод, и численные значения показателей.

Comparison of cluster analysis methods in the example with banking clients

In this paper, three basic cluster analysis algorithms are considered - K-means, densitybased clustering (DBSCAN) and agglomerative hierarchical clustering. Each of the methods is applied on a data set consisting of information about banking clients. The effectivness of a particular clustering method is assessed using indicators such as the sum of the squared error (SSE) and silhouette. As a result of the study, the best clustering method for the data set is chosen, the number of clusters that the selected method prescribes is found, the numerical values of the indicators are calculated.

Издательство
РУДН
Язык
Русский
Страницы
127-130
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
  • 2 Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Ключевые слова
Dbscan; cluster analysis; k-means; density-based clustering; hierarchical clustering; кластерный анализ; метод k-средних; иерархическая кластеризация
Дата создания
20.02.2020
Дата изменения
20.02.2020
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/57205/
Поделиться

Другие записи

Гинс Е.М., Москалев Е., Жевора С.В., Горюнова С.В.
125 лет прикладной ботаники в России. Федеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр Всероссийский институт генетических ресурсов растений имени Н.И. Вавилова". 2019. С. 127-127
Логинова Д.С.
Мировые тенденции и перспективы развития инновационной экономики: материалы VIII научно-практической конференции молодых ученых. Москва, 16 мая 2019 г.. РУДН. 2019. С. 127-131