Представлено решение актуальной задачи прогнозирования цен на недвижимость с помощью построения предиктивной модели на основе сформированной базы данных по недвижимости в Москве, размещенной на веб-сайте «Move Недвижимость». Рассмотрены существующие методы машинного обучения для решения задачи прогнозирования и применен один из них - множественная линейная регрессия. Проведен регрессионный анализ полученных результатов решения задачи прогнозирования. В качестве управляющих параметров рассматриваются 11 независимых переменных. Исследовано влияние учитываемых при построении модели переменных на результаты решения задачи прогнозирования цен на недвижимость. Определено, какие из независимых переменных оказывают наибольшее влияние на результаты работы модели. Для улучшения качества модели была осуществлена предобработка и стандартизация признаков, а также идентификация выбросов и пропусков значений при формировании базы данных. Коэффициенты модели множественной линейной регрессии определялись с помощью метода наименьших квадратов. Для оценки качества модели проводился анализ следующих параметров модели: R-квадрат, скорректированный R-квадрат, р-значение. Результатом построения предиктивной модели является полученное уравнение регрессии. Применение полученного уравнения может быть использовано для последующего учета конкретных характеристик при решении задачи прогнозирования цен на недвижимость. Показаны преимущества использования данного метода и перспективы применения полученного результата.
The work is devoted to solving the current problem of forecasting real estate prices by building a predictive model based on the generated database of real estate in Moscow, posted on the Move Real Estate website. Existing machine learning methods for solving the forecasting problem are considered and one of them is applied - multiple linear regression. A regression analysis of the obtained results of solving the forecasting problem was carried out. Eleven independent variables are considered as control parameters. The influence of the variables taken into account when constructing the model on the results of solving the problem of forecasting real estate prices was studied. It was determined which of the independent variables have the greatest impact on the results of the model. To improve the quality of the model, preprocessing and standardization of features were carried out. Identification of outliers and omissions of values was carried out during the formation of the database. The coefficients of the multiple linear regression model were determined using the least squares method. To assess the quality of the model, the following model parameters are analyzed: R-squared, adjusted R-squared, p-value. The result of constructing a predictive model is the resulting regression equation. The application of the resulting equation can be used to subsequently take into account specific characteristics when solving the problem of forecasting real estate prices. The work shows the advantages of using this method and the prospects for applying the obtained result.