Проведено исследование способов проведения предварительной обработки данных на примере задачи классификации. Изучены вопросы систематизации методов предварительной обработки данных и приведены примеры применения различных способов и их комбинаций при преобразовании данных. Предложены варианты обработки массива данных и очистки повреждённых записей с учётом их происхождения. Произведено преобразование категориальных признаков в числовое представление, т.е. кодирование для возможности дальнейшего обучения моделей прогнозирования. Проведено обучение нескольких классификаторов (метод k-ближайших соседей, дерево принятия решений, логистическая регрессия, метод случайного леса, экстремальный градиентный бустинг) как на обработанных данных, так и на исходном массиве, а также сравнение точности полученных моделей для каждого из классификаторов. Основываясь на полученных результатах, можно сделать вывод, что предварительная обработка данных положительно влияет на точность моделей для каждого классификатора. Это подчёркивает важность этого процесса в задачах анализа данных и машинного обучения, а также позволяет утверждать, что предварительная обработка данных является решающим шагом в достижении качественных результатов, и её значение не следует недооценивать. Приведённое решение может служить ориентиром для похожих задач, однако, может потребоваться дополнительное исследование для определения оптимальной комбинации методов предварительной обработки для различных типов данных и моделей.
In this work, a study of the methods of conducting preliminary data processing on the example of the classification problem was carried out. The issues of systematization of data preprocessing methods are studied and examples of the use of various methods and their combinations in data transformation are given. Options of data array processing and cleaning of damaged records with consideration of their origin are offered. The categorical features have been converted into a numerical representation, i.e. coding for the possibility of further training of forecasting models. Training of several classifiers (k-nearest neighbor method, decision tree, logistic regression, random forest method, extreme gradient boosting) was conducted on both processed data and the original array, and comparison of the accuracy of the obtained models for each of the classifiers. Based on the results obtained, it can be concluded that data preprocessing has a positive effect on the accuracy of models for each classifier. This underlines the importance of this process in data analysis and machine learning, and it can be argued that preprocessing is a crucial step in achieving quality results and should not be underestimated. The above solution can serve as a guideline for similar tasks, however, additional research may be required to determine the optimal combination of preprocessing methods for various data types and models.