Determinants Factors in Predicting Life Expectancy Using Machine Learning

Introduction. Life expectancy is, by definition, the average number of years a person can expect to live from birth to death. It is therefore the best indicator for assessing the health of human beings, but also a comprehensive index for assessing the level of economic development, education and health systems . From our extensive research, we have found that most existing studies contain qualitative analyses of one or a few factors. There is a lack of quantitative analyses of multiple factors, which leads to a situation where the predominant factor influencing life expectancy cannot be identified with precision. However, with the existence of various conditions and complications witnessed in society today, several factors need to be taken into consideration to predict life expectancy. Therefore, various machine learning models have been developed to predict life expectancy. The aim of this article is to identify the factors that determine life expectancy. Materials and Methods. Our research uses the Pearson correlation coefficient to assess correlations between indicators, and we use multiple linear regression models, Ridge regression, and Lasso regression to measure the impact of each indicator on life expectancy . For model selection, the Akaike information criterion, the coefficient of variation and the mean square error were used. R2 and the mean square error were used. Results. Based on these criteria, multiple linear regression was selected for the development of the life expectancy prediction model, as this model obtained the smallest Akaike information criterion of 6109.07, an adjusted coefficient of 85 % and an RMSE of 3.85. Conclusion and Discussion. At the end of our study, we concluded that the variables that best explain life expectancy are adult mortality, infant mortality, percentage of expenditure, measles, under-five mortality, polio, total expenditure, diphtheria, HIV / AIDS, GDP, longevity of 1.19 years, resource composition, and schooling. The results of this analysis can be used by the World Health Organization and the health sectors to improve society.

Введение. Ожидаемая продолжительность жизни - это, по определению, среднее количество лет, которое человек может прожить от рождения до смерти. Таким образом, это лучший индикатор для оценки здоровья людей, а также комплексный индекс для оценки уровня экономического развития, систем образования и здравоохранения. В результате нашего обширного исследования мы обнаружили, что большинство существующих исследований содержат качественный анализ одного или нескольких факторов. Отсутствует количественный анализ множества факторов, что приводит к ситуации, когда невозможно точно определить преобладающий фактор, влияющий на продолжительность жизни. Однако при наличии различных состояний и осложнений, наблюдаемых сегодня в обществе, необходимо учитывать несколько факторов для прогнозирования ожидаемой продолжительности жизни. Поэтому были разработаны различные модели машинного обучения для прогнозирования продолжительности жизни. Целью данной статьи является выявление факторов, определяющих продолжительность жизни. Материалы и методы. В нашем исследовании используется коэффициент корреляции Пирсона для оценки корреляций между показателями, и мы используем несколько моделей линейной регрессии, регрессию Риджа и регрессию Лассо для измерения влияния каждого показателя на ожидаемую продолжительность жизни. Для выбора модели использовали информационный критерий Акаике, коэффициент вариации и среднеквадратичную ошибку. Использовались R2 и среднеквадратическая ошибка. Результаты исследования. На основании этих критериев для разработки модели прогнозирования ожидаемой продолжительности жизни была выбрана множественная линейная регрессия, поскольку эта модель получила наименьший информационный критерий Акаике 6109,07, скорректированный коэффициент 85 % и среднеквадратичное отклонение 3,85. Обсуждение и заключения. В конце нашего исследования мы пришли к выводу, что переменными, которые лучше всего объясняют ожидаемую продолжительность жизни, являются взрослая смертность, младенческая смертность, процент расходов, корь, смертность детей в возрасте до пяти лет, полиомиелит, общие расходы, дифтерия, ВИЧ / СПИД, ВВП, продолжительность жизни 1,19 года, состав ресурсов и обучение. Результаты этого анализа могут быть использованы Всемирной организацией здравоохранения и секторами здравоохранения для улучшения общества.

Авторы
Издательство
Донской государственный технический университет
Номер выпуска
4
Страницы
373-383
Статус
Опубликовано
Том
22
Год
2022
Организации
  • 1 Peoples' Friendship University of Russia (RUDN)
Ключевые слова
life expectancy; machine learning; machine learning models; ожидаемая продолжительность жизни; машинное обучение; модели машинного обучения
Дата создания
28.12.2023
Дата изменения
28.12.2023
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/98541/
Поделиться

Другие записи