Методы машинного обучения в настоящее время пользуются особенной популярностью в разных сферах деятельности, включая клинические и биомедицинские исследования. Однако, биомедицинские наборы данных обладают рядом особенностей, которые затрудняют применение классических моделей машинного обучения. Они обычно ограничены по размеру, имеют высокую размерность, несбалансированные классы, зашумлённость данных, пропущенные значения, большое количество признаков и другие. В данной работе был проведён анализ научных источников по данному предмету исследования и выявлены наиболее значимые проблемы и особенности, встречающиеся при работе с данными в биомедицине, а также их влияние на различные модели, которые применяются для решения задач классификации, кластеризации и регрессии.
Machine learning methods are currently particularly popular in various fields of activity, including clinical and biomedical research. However, biomedical data sets have a number of features that make it difficult to apply classical machine learning models. They are usually limited in size, have high dimensionality, unbalanced classes, noisy data, missing values, a large number of features, and others. In this paper, we analyzed the scientific sources on this subject of research and identified the most significant problems and features encountered when working with data in biomedicine, as well as their impact on various models that are used to solve problems of classification, clustering and regression.