С каждым годом растёт потребность в изучении больших данных. Однако работа с ними трудоёмка и требует значительных ресурсов, в связи с чем актуальной становится предваряющая анализ подготовка данных. Одним из вариантов подготовки является выделение некоторых множеств в наборе данных: гораздо эффективнее выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, а не создавать одну общую модель для всех данных. Разбиение множества объектов на группы, называемые кластерами, и является задачей кластерного анализа. В данной работе рассмотрены три алгоритма кластерного анализа - метод К-средних, кластеризация, основанная на плотности, и иерархическая кластеризация. Для иллюстрации в работе каждый метод применяется на наборе данных, состоящем из информации о банковских клиентах. Эффективность применения методов кластеризации оценивается с помощью таких показателей, как силуэт и сумма квадратов ошибок. В качестве результата исследования выбирается метод, наилучшим образом подходящий к набору данных, а также количество кластеров, которое предписывает выбранный метод, и численные значения показателей.
In this paper, three basic cluster analysis algorithms are considered - K-means, densitybased clustering (DBSCAN) and agglomerative hierarchical clustering. Each of the methods is applied on a data set consisting of information about banking clients. The effectivness of a particular clustering method is assessed using indicators such as the sum of the squared error (SSE) and silhouette. As a result of the study, the best clustering method for the data set is chosen, the number of clusters that the selected method prescribes is found, the numerical values of the indicators are calculated.