Выявление личностных черт у пользователей социальной сети Вконтакте

Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения. Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, N-граммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения. Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством.

Personality Traits Prediction from VKontakte Social Media

Purpose of the study: development of methods for identifying personality traits of social media users using natural language processing, data analysis, and machine learning. Method: We built the dataset for the research that consists of information from the Vkontakte social media personal pages and the results of personality traits questionnaire (scoring values of neuroticism, extraversion, willingness to consent, openness to experience and consciousness). Various groups of features were compiled by processing the data: psycholinguistic markers, dictionaries, N-grams, information from a user profile, and a repost matrix. Using the retrieved features, we performed on the binary classification task on high and low personality traits levels by utilizing machine learning algorithms.Results: We formed a dataset that consists of 1020 Vkontakte profiles provided by users who took a personality questionnaire. The various features were retrieved from social media data and evaluated. The results revealed that the best accuracy is achieved using features which are based on psycholinguistic markers and information about the user profile. Among the five personality traits of users, the levels of extraversion and neuroticism are identified with the best quality.

Authors
Stankevich Maksim1 , Ignatiev Nikolay 2 , Smirnov Ivan 1 , Kiselnikova Natalia3
Number of issue
4
Language
Russian
Pages
80-87
Status
Published
Year
2019
Organizations
  • 1 Federal Research Center Computer Science and Control of the Russian Academy of Sciences
  • 2 Peoples Friendship University of Russia
  • 3 Psychological Institute of Russian Academy of Education
Keywords
машинное обучение; анализ социальных сетей; классификация; большая пятерка личностных черт; обработка естественного языка; machine learning; social media analysis; classification; big five personality traits; natural language processing
Date of creation
20.02.2020
Date of change
20.02.2020
Short link
https://repository.rudn.ru/en/records/article/record/61760/
Share

Other records

Al-Janabi M.M., Туманян Т.Г., Османова И.А.
Asiatica: Труды по философии и культурам Востока. Региональная общественная организация Санкт-Петербургское философское общество. Vol. 13. 2019. P. 78-97