Filtration of texts generated by a neural network

Фильтрация текстов, сгенерированных нейронной сетью

В настоящее время тексты, в том числе новости, могут быть сгенерированы нейронными сетями, что может привести к распространению недостоверной информации. Усложняет ситуацию то, что сгенерированная и опубликованная статья становится мгновенно доступной тысячам людей в сети интернет, поэтому очень важно проверять подобную информацию на достоверность, что особенно актуально для новостных источников, так как их репутация напрямую зависит от публикуемой ими информации. В данной работе будет рассмотрен вариант решения проблемы классификации текстов на натуральные и сгенерированные. Основной целью работы будет выявление возможности отличать тексты которые были сгенерированы нейронной сетью, от текстов которые написали люди. В качестве генератора будет использоваться нейронная сеть архитектуры GPT-2, обученная на массиве текстов полученных с различных веб-сайтов. Для обучения классификатора, помимо данных полученных из генератора, будут использоваться тексты схожие с данными на которых обучался генератор. То есть тексты взятые с различных сайтов. По результатам работы будет сделан вывод об эффективности используемых методов и их недостатках. Данное исследование может быть использовано в новостных источниках для выявление достоверности предоставленной новости.

Nowadays news articles can be generated by neural networks which might result in the spreading of fake news. What makes matters more complicated is that once an article is published it is immediately available to thousands of people on the internet which is why it is crucial to monitor the authenticity of the news. The aim of this paper is to analyze the solutions for the aforementioned problem. The main objective is to make it possible to distinguish between the news articles generated by a neural network and the articles written by people. Para 2(still in the making) A neural network of GPT-2 architecture was used as a generator which was trained by a dataset of articles acquired from various websites. A dataset produced by the generator among with the similar datasets utilized for the training of the generator were used to train a classifier . At the end of the research the conclusion is made concerning the effectiveness of the used methods and their disadvantages. The results of this research might be further used to establish the authenticity of the news articles.

ВЕЛИКИЕ СЫНОВЬЯ КЫРГЫЗСКОГО НАРОДА

Article

Кобукеева А.М.

Голоса большой планеты. Российский университет дружбы народов (РУДН). 2020. P. 16-21

VAT ON TRADE OPERATIONS WITH EAEU COUNTRIES

Article

Gukasyan D.V.

Международные стандарты учета и аудита: практика применения в условиях цифровой экономики. Российский университет дружбы народов (РУДН). 2020. P. 163-167

Фильтрация текстов, сгенерированных нейронной сетью