Фильтрация текстов, сгенерированных нейронной сетью

В настоящее время тексты, в том числе новости, могут быть сгенерированы нейронными сетями, что может привести к распространению недостоверной информации. Усложняет ситуацию то, что сгенерированная и опубликованная статья становится мгновенно доступной тысячам людей в сети интернет, поэтому очень важно проверять подобную информацию на достоверность, что особенно актуально для новостных источников, так как их репутация напрямую зависит от публикуемой ими информации. В данной работе будет рассмотрен вариант решения проблемы классификации текстов на натуральные и сгенерированные. Основной целью работы будет выявление возможности отличать тексты которые были сгенерированы нейронной сетью, от текстов которые написали люди. В качестве генератора будет использоваться нейронная сеть архитектуры GPT-2, обученная на массиве текстов полученных с различных веб-сайтов. Для обучения классификатора, помимо данных полученных из генератора, будут использоваться тексты схожие с данными на которых обучался генератор. То есть тексты взятые с различных сайтов. По результатам работы будет сделан вывод об эффективности используемых методов и их недостатках. Данное исследование может быть использовано в новостных источниках для выявление достоверности предоставленной новости.

Filtration of texts generated by a neural network

Nowadays news articles can be generated by neural networks which might result in the spreading of fake news. What makes matters more complicated is that once an article is published it is immediately available to thousands of people on the internet which is why it is crucial to monitor the authenticity of the news. The aim of this paper is to analyze the solutions for the aforementioned problem. The main objective is to make it possible to distinguish between the news articles generated by a neural network and the articles written by people. Para 2(still in the making) A neural network of GPT-2 architecture was used as a generator which was trained by a dataset of articles acquired from various websites. A dataset produced by the generator among with the similar datasets utilized for the training of the generator were used to train a classifier . At the end of the research the conclusion is made concerning the effectiveness of the used methods and their disadvantages. The results of this research might be further used to establish the authenticity of the news articles.

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
163-166
Status
Published
Year
2020
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
GPT-2; neural networks; classification; нейронные сети; классификация
Date of creation
02.11.2020
Date of change
02.11.2020
Short link
https://repository.rudn.ru/en/records/article/record/66534/
Share

Other records

Gukasyan D.V.
Международные стандарты учета и аудита: практика применения в условиях цифровой экономики. Российский университет дружбы народов (РУДН). 2020. P. 163-167