Данная работа посвящена выявлению мошенников на рынке автострахования по статистическим данным об инцидентах и сведениях о страхователях, которыми располагает страховая компания. Ключевая идея исследования заключается в том, что имплементация современных методов классификации может приводить к большей минимизации рисков страховщика, в сравнении с использованием устоявшихся в данной отрасли эконометрических моделей. Также, отдельное внимание уделено работе с несбалансированными данными при обучении моделей, так как несбалансированность классов является распространённой проблемой данного рода задач. Предложенный метод обучения позволяет нивелировать данную проблему без дополнительной балансировки исходного датасета и возможных потерь качества прогнозов модели из-за нехватки данных. В работе применяются ансамбли logit-моделей, две вариации полносвязных нейронных сетей и несколько версий случайных лесов. Также произведен подбор оптимальных параметров для используемых моделей и сравнительный анализ их прогнозов. Неочевидным результатом исследования стало то, что используемый подход к обучению на выходе имел достаточно небольшое количество ошибок второго рода, которые представляют для страховщиков наибольшую опасность, так как сопряжены с выплатами страховых премий мошенникам.
This paper is devoted to the identification of fraudsters in the auto insurance market based on statistical data on incidents and information about policyholders, which is available to the insurance company. The key idea of the study is that the implementation of modern classification methods can lead to greater minimization of insurer's risks, compared to the use of established in the industry econometric models. Also, special attention is paid to working with unbalanced data in model training, since unbalanced classes are a common problem in this type of problems. The proposed method of training allows to level this problem without additional balancing of the initial dataset and possible loss of quality of model predictions due to lack of data. In this work, ensembles of logit models, two variations of fully-connected neural networks and several versions of random forests are applied. A selection of optimal parameters for the models used and a comparative analysis of their predictions are also made. An unobvious result of the study was that the used approach to training had at the output a rather small number of type II errors, which are the most dangerous for insurers, as they are associated with the payment of insurance premiums to fraudsters.