В данной работе рассматривается задача выявления поддельных новостных сообщений. Предлагаемый подход состоит в классификации позиции (уровня соответствия) основного текста относительно заголовка новостной статьи. В частности, основной текст может быть согласованным, несогласованным, быть связным или бессвязным. В ходе решения задачи был предложен и реализован алгоритм автоматической классификации новостных сообщений с помощью методов машинного обучения, а именно комбинация методов, основанная на средневзвешенном значении между деревьями решений с градиентным усилением и глубокой свёрточной нейронной сетью. Для обучения модели использовался размеченный корпус новостных сообщений. Для проверки алгоритма, в свою очередь, был предложен неразмеченный корпус новостных сообщений. В качестве результата мы определяем позицию основного текста относительно утверждения в заголовке, которая принадлежит одному из четырёх классов: согласованна, не согласованна, связна, бессвязна.
This paper covers the topic of fake news detection. The proposed approach consists of the stance classification of a body text from a news article relative to a headline. Specifically, the body text may agree, disagree, discuss or be unrelated to the headline. In the course of solving our task, the algorithm for automatic classification was proposed and implemented. The model is based on a weighted average between gradient-boosted decision trees and a deep convolutional neural network. To train our model a labeled corpus of news messages was used. For testing the algorithm, in turn, an unlabeled corpus of news messages was proposed. As an output we provide a prediction of the stance of the body text relative to the claim made in the headline which belongs to one of four categories: agree, disagree, discuss and unrelated.