Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения. Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, N-граммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения. Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством.
Purpose of the study: development of methods for identifying personality traits of social media users using natural language processing, data analysis, and machine learning. Method: We built the dataset for the research that consists of information from the Vkontakte social media personal pages and the results of personality traits questionnaire (scoring values of neuroticism, extraversion, willingness to consent, openness to experience and consciousness). Various groups of features were compiled by processing the data: psycholinguistic markers, dictionaries, N-grams, information from a user profile, and a repost matrix. Using the retrieved features, we performed on the binary classification task on high and low personality traits levels by utilizing machine learning algorithms.Results: We formed a dataset that consists of 1020 Vkontakte profiles provided by users who took a personality questionnaire. The various features were retrieved from social media data and evaluated. The results revealed that the best accuracy is achieved using features which are based on psycholinguistic markers and information about the user profile. Among the five personality traits of users, the levels of extraversion and neuroticism are identified with the best quality.