Coronavirus, also known as COVID-19, was first detected in Wuhan, China, in December 2019. It is a family of viruses ranging from the common cold to severe acute respiratory syndrome (SARS). The symptoms of such a virus are similar to those of a cold or seasonal allergies. Like other respiratory viruses, it is mainly transmitted through airborne droplets when coughing or sneezing. Therefore, the recognition of COVID-19 requires careful laboratory analysis, and the reduction of recognition resources is a major challenge. On 11 March, 2020, the World Health Organization (WHO) declared COVID-19, caused by SARS-CoV-2, a pandemic, as there had been an exponential increase in cases worldwide, and demand for intensive beds and related structures had far exceeded existing capacity. The first examples of this are the regions of Italy. Brazil registered the first case of SARS-CoV-2 on 02/26/2020. Transmission of the virus in this country shifted very quickly from imported cases to local and, finally, community missions, with the Brazilian federal government announcing national community transmission on 03/20/2020. As of March 23, in the state of São Paulo with a population of about 12 million people, where the Israelita Albert Einstein Hospital is located, 477 cases of the disease and 30 related deaths were registered, and on March 27, there were already 1223 cases of COVID-19 with 68 concomitant deaths. To slow the spread of the virus in the state of São Paulo, quarantines and social distancing measures were introduced. One of the motivations for this challenge is the fact that, in the context of an extensive healthcare system with the possible limitation of SARS-CoV-2 testing, it is not practical to test every case, and test results can only be used in testing the target subpopulation. The study objective is to build a model based on machine learning that can predict the detection of SARS-CoV-2 from medical data. For this, various classification models of machine learning are compared, and the best one to predict coronaviruses is determined. The comparison is based on individuals in class 1, i.e., those with a positive test. Therefore, it is required to determine the machine learning model with the best response and F1 score for class 1.Materials and Methods. An open-source data set from the Israelita Albert Einstein Hospital in São Paulo, Brazil, was taken as a basis. The following machine learning models were used for the study: RandomForests (RF), K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Logistic Regression (LR), Decision Tree (DT) and AdaBoost (AB), as well as the 10-time cross-validation technique. Some machine learning performance measures, such as accuracy, recall, and F1 score were evaluated.Results. Out of a total of 5,644 people tested during the COVID-19 pandemic, 5,086 people tested negative and 558 people tested positive. At the same time, support for machine vectors showed the best results in detecting coronavirus with a recall of 75 % and an F1 score of 60 % compared to models: Random drill, KNN, LR, AB, and DT.Discussion and Conclusions. It was found that when using AB algorithms, greater accuracy is achieved, but the stability of the LSVM algorithm is higher. Therefore, it can be recommended as a useful tool for detecting COVID-19.
Коронавирус, также известный как COVID-19, впервые обнаружен в Ухане (Китай) в декабре 2019 г. Он представляет собой семейство вирусов, начиная от простуды и заканчивая тяжелым острым респираторным синдромом (ТОРС). Симптомы такого вируса схожи с симптомами простуды или сезонных заболеваний. Как и другие респираторные вирусы, он в основном передается воздушно-капельным путем во время кашля или чихания. Поэтому распознавание COVID-19 требует тщательного лабораторного анализа, а сокращение ресурсов распознавания является серьезной научной задачей. Всемирная организация здравоохранения (ВОЗ) 11.03.2020 объявила COVID-19, вызванный SARS-CoV-2, пандемией, поскольку во всем мире произошел экспоненциальный рост числа случаев заболеваний, а спрос на интенсивные койки и соответствующие структуры намного превысил существующие возможности. Первыми примерами этому являются регионы Италии. Бразилия зарегистрировала первый случай SARS-CoV-2 26.02.2020. Передача вируса в этой стране очень быстро перешла от завезенных случаев к местным и, наконец, общинным миссиям, а федеральное правительство Бразилии объявило о национальной общинной передаче 20.03.2020. В штате Сан-Паулу с населением около 12 млн человек, где находится больница Альберта Эйнштейна, по состоянию на 23.03.2020 зарегистрировано 477 случаев заболевания и 30 связанных с ними смертей, а 27.03.2020 имели место уже 1223 случая COVID-19 с 68 сопутствующими смертями. Для замедления распространения вируса в штате Сан-Паулу были введены карантин и меры социального дистанцирования. Одним из мотивов этой проблемы является тот факт, что в контексте обширной системы здравоохранения с возможным ограничением тестирования SARS-CoV-2 нецелесообразно тестировать каждый случай, а результаты тестов могут быть использованы при проверке только целевой субпопуляции. Целью работы является построение на основе машинного обучения модели, способной прогнозировать обнаружение SARS-CoV-2 по медицинским данным. Для этого проводится сравнение различных классификационных моделей машинного обучения и определяется лучшая из них с целью прогнозирования коронавирусов. Сравнение основано на лицах в классе 1, т. е. с положительным тестом. Поэтому необходимо определить модель машинного обучения с лучшим отзывом и F1-баллом для класса 1.Материалы и методы. За основу принят набор данных с открытым исходным кодом из израильской больницы Альберта Эйнштейна в Сан-Паулу. Для исследования использованы модели машинного обучения: RandomForests (RF), K-ближайший сосед (KNN), Машина опорных векторов (SVM), Логистическая регрессия (LR), Дерево решений (DT) и AdaBoost (AB), а также 10-временная техника перекрестной проверки. Проведена оценка некоторых показателей производительности машинного обучения, таких как точность, отзыв и оценка F1.Результаты исследования. Из 5644 человек, протестированных во время пандемии COVID-19, 5086 человек дали отрицательный результат и 558 человек - положительный. При этом поддержка машинных векторов показала лучшие результаты в обнаружении коронавируса с отзывом - 75 % и оценкой F1 - 60 % по сравнению с моделями: Random drill, KNN, LR, AB и DT.Обсуждение и заключение. Установлено, что при использовании алгоритмов AB достигается большая точность, однако стабильность алгоритма LSVM является более высокой. Поэтому его можно рекомендовать как полезный нструмент для выявления COVID-19.