Сравнение алгоритмов кластеризации CLOPE и k-Modes для анализа данных о заявках на услуги ЖКХ

В данной работе проводится сравнение результатов кластеризации данных о заявках на услуги ЖКХ с помощью алгоритмов CLOPE и k-Modes, предназначенных для работы с категориальными значениями, с целью определения алгоритма, наиболее подходящего для выявления полезной информации о данных и выбора направления для дальнейшего анализа. На первом этапе работы изучается содержимое набора данных и производится его подготовка к кластеризации. Далее определяются оптимальные значения параметров для алгоритмов и осуществляется кластеризация данных, после чего проводится сравнение полученных результатов. На основе результатов работы обоих алгоритмов строится два типа графиков, отражающих распределение значений каждого из признаков набора данных по полученным кластерам. Результаты показывают, что алгоритм кластеризации k-Modes предоставляет более выраженное распределение на кластеры по большему числу атрибутов, чем алгоритм CLOPE, что позволяет точнее определить признаки, являющиеся наиболее и наименее значимыми при кластеризации. Результаты данной работы могут быть полезны при определении фокуса для проведения дальнейшего более глубокого анализа данных о заявках на услуги ЖКХ, а также при выборе алгоритма кластеризации для применения на похожих наборах данных.

Comparison of CLOPE and k-Modes clustering algorithms for the analysis of data on applications for housing and communal services

This paper compares the results of clustering the data on applications for housing and communal services using the CLOPE and k-Modes algorithms designed to work with categorical values in order to determine the algorithm that is most suitable for identifying useful information about the data and choosing a direction for further analysis. At the first stage of the work, the content of the data set is examined, and the data set is prepared for clustering. Then, the optimal values of the parameters for the algorithms are determined and data clustering is performed, after which the results are compared. Based on the results of both algorithms, several types of graphs are constructed that reflect the distribution of the values of each feature of the data set over the resulting clusters. The results show that the k-Modes clustering algorithm provides a more distinct distribution into clusters for a greater number of attributes than the CLOPE algorithm, which allows for a more accurate determination of the most and least significant features in clustering. The results of this work can be useful for determining the focus for further in-depth analysis of the data on applications for housing and communal services, as well as for choosing a clustering algorithm to apply to similar data sets.

Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
127-132
Status
Published
Year
2023
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
clustering; data analysis; housing and communal services; categorical data; кластеризация; анализ данных; услуги ЖКХ; категориальные данные
Share

Other records

Baltaeva G.N., Pankratov A.S.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. P. 122-126
Zhukova V.Y., Pankratov A.S.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. P. 133-138