Методы машинного обучения применяются во многих областях и помогают решать различные задачи: от обнаружения спама и актов мошенничества до распознавания и генерации изображений, стихов и музыкальных произведений. Важным и перспективным приложением методов машинного обучения является медицинская диагностика. В частности, прогнозирование смертельных случаев от сердечно-сосудистых заболеваний, таких как инфаркт миокарда или сердечная недостаточность, которые уносят десятки миллионов жизней ежегодно. В связи с этим возникает потребность в прогнозировании тяжелого течения болезни по данным пациента, что можно сделать при помощи машинного обучения. В этой статье рассматриваются различные методы классификации, которые можно применить для предсказания смертности от сердечной недостаточности. Для этого на данных 299 пациентов, собранных в 2015 году в Пакистане по тринадцати переменным, были построены 4 модели: логит, пробит, наивный байесовский классификатор и случайный лес. Для каждой модели была оценена точность, F-мера и специфичность. Результатом данной работы стало сравнение точности построенных моделей и выявление наиболее значимых признаков для предсказания смертельного случая от сердечной недостаточности.
Machine learning methods are applied in many areas and help to solve various problems: from spam and fraud detection to recognition and generation of images, poems and music. An important and promising application of machine learning methods is medical diagnostics. In particular, predicting deaths from cardiovascular diseases, such as myocardial infarction or heart failure, which claim tens of millions of lives annually. In this regard, there is a need to predict the severity of the disease according to the patient, which can be done using machine learning. This article discusses various classification methods that can be applied to predict heart failure mortality. To do this, on the data of 299 patients collected in 2015 in Pakistan for thirteen variables, 4 models were built: logit, probit, naive bayes classifier and random forest. For each model, the accuracy was evaluated, F-measure and specificity. The result of this work was a comparison of the accuracy of the constructed models and the identification of the most significant features for predicting a death from heart failure.