Метод автоматической классификации коротких текстовых сообщений

В статье представлены результаты исследования в области классификации коротких текстовых документов. Проанализированы методы классификации на основе анализа распределения лексических дескрипторов естественного языка. Описан метод оценки информационной значимости в текстах естественного языка. Представлен метод классификации текстовых документов на основе характеристики тематической значимости.

Short text messages classification method

The article covers short text classification method based on different measures of similarity word distribution. The work presents the text classification method based on a new lexical descriptor information gain concept and a topic importance characteristic. The results of experiments are presented.

Авторы
Издательство
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук
Номер выпуска
3
Язык
Русский
Страницы
93-102
Статус
Опубликовано
Год
2012
Организации
  • 1 Российский университет дружбы народов
  • 2 МГУ им. Ломоносова
  • 3 ИСА РАН
Ключевые слова
short text classification; metadata based classification; tf; IDF; svm; topic importance characteristic; классификация коротких текстовых документов; классификация по метаданным; мультиномиальная модель; метод опорных векторов; характеристика тематической значимости
Цитировать
Поделиться

Другие записи

Мажуга В.В., Хачумов М.В.
Информационные технологии и вычислительные системы. Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук. 2012. С. 54-63