Feature Selection for Text Classification of a News Flows based on Topical Importance Characteristic

Zhebel, V.V.; Zharikova, S.A.; Sochenkov, I.V.

Оценка информативности признаков на основе характеристики тематической значимости при классификации потока новостных сообщений

Статья посвящена оценке качества нескольких методов тематической классификации новостных сообщений. Реализовано несколько известных алгоритмов тематической рубрикации с использованием в качестве признаков различных численных оценок информационной значимости. Рассмотрены классический и предложенный авторами метод определения весов признаков на примере набора данных «20 новостных групп». Представлены полученные результаты экспериментальной апробации системы тематической классификации новостных сообщений, задача которой классифицировать данные на заданные тематические группы. Применение предложенного метода позволяет существенно повысить качество классификации даже с применением базовых методов (мультиномиального наивного байесовского классификатора) до уровня лучших методов в этой области (метод опорных векторов) на эталонном наборе данных.

Feature Selection for Text Classification of a News Flows based on Topical Importance Characteristic

The paper presents an approach for ranking the most valuable features for text classification task. The introduced Topical Importance Characteristic leverages the feature selection method comprising the information about the distributions of words or phrases among the topics. We compare this method to well-known TF-IDF approach and use the introduced word-ranking scheme in two classifiers: Random Forrest and Multinomial Naïve Bayes. The Accuracy of classification results was tested in the “20-Newsgroups” dataset. The developed approach outperforms TF-IDF-based methods and matches the Accuracy achieved by the more powerful state of the art approaches such as SVC on the same dataset.

Авторы

Жебель В.В. (Zhebel V.V.) ¹ , Жарикова С.А. (Zharikova S.A.) ² , Соченков И.В. (Sochenkov I.V.) ¹

Журнал

Искусственный интеллект и принятие решений

Издательство

Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук

Номер выпуска

Язык

Русский

Страницы

52-59

Статус

Опубликовано

Год

2019

Организации

¹ Федеральный исследовательский центр «Информатика и управление» РАН
² Российский университет дружбы народов

Ключевые слова

тематический анализ текстов; машинное обучение; характеристика тематической значимости; "20 новостных групп"; topical text classification; machine learning; Topical Importance Characteristic; 20-Newsgroups

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Статья

Kartashkin V.A., Abashidze A.Kh.

International Journal on Minority and Group Rights. Том 10. 2003. С. 203-220

ОПРЕДЕЛЕНИЕ ЛИЧНОСТНЫХ ЧЕРТ У ПОЛЬЗОВАТЕЛЕЙ ВКОНТАКТЕ НА ОСНОВЕ АНАЛИЗА ИЗОБРАЖЕНИЙ

Статья

Станкевич М.А., Григорьев О.Г., Кисельникова Н.В., Игнатьев Н.А.

Искусственный интеллект и принятие решений. 2019. С. 29-36