Выявление источников заимствования для документа с использованием моделей дистрибутивной семантики

Целью статьи является разработка метода выявления неизвестного автора документа. Задачей исследования является построение модели дистрибутивной семантики для формирования множества запросов к поисковой машине. Гипотезой исследования является возможность использования выделения из документа запросов для поиска источников с использованием векторного пространства, построенного на большом корпусе текстов при помощи инструмента Word2Vec. Применяется метод выявления неизвестных авторов для документа по модели дистрибутивной семантики. В качестве результата рассмотрены основные способы выявления авторства документа и показаны результаты работы метода.

Source Retrieval for the Document Using Models of Distributive Semantics

The purpose of this article is to propose a method for identifying the unknown authors. The task of the study is to build a model of distributive semantics for the formation of a set of queries to the search engine. The hypothesis of the study is the possibility of using the selection of the document requests to find sources using vector space, built on a large body of texts using the Word2Vec tool. The method is a method of identifying authors for a document by means of the method distributive semantics. As a result, the main ways of identifying unknown authors are considered and the results of the work of the method are shown.

Авторы
Издательство
Издательский дом «ТМБпринт»
Номер выпуска
4
Язык
Русский
Страницы
10-12
Статус
Опубликовано
Год
2019
Организации
  • 1 ФГАОУ ВО «Российский университет дружбы народов»
Ключевые слова
антиплагиат; выявление заимствований; дистрибутивная семантика; source retrieval; word2vec; distributive semantic; plagiarism detection
Цитировать
Поделиться

Другие записи