Отток клиентов (churn rate) - это сложная проблема, затрагивающая компании различных видов деятельности, в том числе банки. Тема прогнозирования оттока клиентов представляет интерес как для практиков, так и для научных исследований, о чем свидетельствует рост числа публикаций по данной теме в последние годы. Повышение качества и точности прогнозирования позволяет снизить отток клиентов, и за счет этого повысить финансовые результаты деятельности банка. В нашем исследовании была поставлена задача создания оригинальной метамодели (Ensemble Model), которая будет обучаться на результатах обучения моделей GaussianNB, DecisionTreeClassifier, GradientBoostingClassifier. Сформулирована гипотеза о том, что такой подход позволит значительно повысить точность прогнозирования, преодолеть ограничения отдельных моделей классификации и машинного обучения. Для проверки данной гипотезы был использован общедоступный набор данных банка на ресурсе Kaggle с более чем 440000 записей. Были последовательно обучены перечисленные выше модели. Получены метрики для оценки качества обучения. Затем была сформирована метамодель, в которой DecisionTreeClassifier была использована для объединения предсказаний всех предыдущих моделей. Полученная точность прогнозирования с помощью метамодели составила 99.9989. Этот результат превышает точность отдельных моделей, а также точность прогнозирования в ранее изученных публикациях. Таким образом сформулированная в исследовании гипотеза получила подтверждение. В качестве направлений дальнейших исследований предложено создание моделей прогнозирования, которые будут направлены на повышение прибыльности банков за счет снижения оттока клиентов.
Churn rate is a complex problem affecting companies of various types of activity, including banks. The topic of forecasting customer churn is of interest to both practitioners and scientific research, as evidenced by the increase in the number of publications on this topic in recent years. Improving the quality and accuracy of forecasting can reduce the churn rate of customers, and thereby improve the financial results of the bank’s activities. In our study, the task was set to create an original Ensemble Model that will be trained on the results of training GaussianNB, DecisionTreeClassifier, GradientBoostingClassifier models. The hypothesis is formulated that such an approach will significantly improve the accuracy of forecasting, overcome the limitations of individual classification models and machine learning. To test this hypothesis, a publicly accessible dataset on Kaggle with more than 440,000 records was used. The models listed above were consistently trained. Metrics have been obtained to assess the quality of training. Then we formed an Ensemble Model in which the DecisionTreeClassifier was used to combine the predictions of all previous model. The obtained prediction accuracy using the Ensemble Model was 99.9989. This result exceeds the accuracy of individual models, as well as the accuracy of forecasting in previously studied publications. Thus, the hypothesis formulated in the study was confirmed. As directions for further research, it is proposed to create forecasting models that will be aimed at increasing the profitability of banks by reducing customer outflow.