В статье рассматривается метод классификации новостей с использованием дистрибутивной семантики текста. Показано влияние признаков, полученных с использованием моделей дистрибутивной семантики, на метрики качества классификации. В качестве набора данных взят «The 20 Newsgroups dataset». Представлены результаты сравнительного анализа популярных классификаторов, таких как Random Forest, KNeighbours, Support Vector Machine, Logistic Regression.
This paper is about a method for classifying news using the distributive semantics of the text. The influence of signs, features using models of distributive semantics, on the quality metrics of classification is shown. As a set of data was taken “The 20 Newsgroups dataset”. Presented results of a comparative analysis of popular classifiers, such as a Random Forest, KNeighbours, Support Vector Machine, Logistic Regression.