Выявление личностных черт у пользователей социальной сети Вконтакте

Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения. Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, N-граммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения. Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством.

Personality Traits Prediction from VKontakte Social Media

Purpose of the study: development of methods for identifying personality traits of social media users using natural language processing, data analysis, and machine learning. Method: We built the dataset for the research that consists of information from the Vkontakte social media personal pages and the results of personality traits questionnaire (scoring values of neuroticism, extraversion, willingness to consent, openness to experience and consciousness). Various groups of features were compiled by processing the data: psycholinguistic markers, dictionaries, N-grams, information from a user profile, and a repost matrix. Using the retrieved features, we performed on the binary classification task on high and low personality traits levels by utilizing machine learning algorithms.Results: We formed a dataset that consists of 1020 Vkontakte profiles provided by users who took a personality questionnaire. The various features were retrieved from social media data and evaluated. The results revealed that the best accuracy is achieved using features which are based on psycholinguistic markers and information about the user profile. Among the five personality traits of users, the levels of extraversion and neuroticism are identified with the best quality.

Авторы
Станкевич М.А.1 , Игнатьев Н.А. 2 , Смирнов И.В. 1 , Кисельникова Н.В.3
Номер выпуска
4
Язык
Русский
Страницы
80-87
Статус
Опубликовано
Год
2019
Организации
  • 1 Федеральное государственное учреждение Федеральный исследовательский центр Информатика и управление Российской академии наук
  • 2 Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов
  • 3 Федеральное государственное бюджетное научное учреждение Психологический институт Российской академии образования
Ключевые слова
машинное обучение; анализ социальных сетей; классификация; большая пятерка личностных черт; обработка естественного языка; machine learning; social media analysis; classification; big five personality traits; natural language processing
Дата создания
20.02.2020
Дата изменения
20.02.2020
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/61760/
Поделиться

Другие записи

Жесткова М.А., Овсянников Д.Ю., Даниэл-Абу Моджисола
Неонатология: новости, мнения, обучение. Общество с ограниченной ответственностью Издательская группа ГЭОТАР-Медиа. Том 7. 2019. С. 93-102