Выявление источников заимствования для документа с использованием моделей дистрибутивной семантики

Целью статьи является разработка метода выявления неизвестного автора документа. Задачей исследования является построение модели дистрибутивной семантики для формирования множества запросов к поисковой машине. Гипотезой исследования является возможность использования выделения из документа запросов для поиска источников с использованием векторного пространства, построенного на большом корпусе текстов при помощи инструмента Word2Vec. Применяется метод выявления неизвестных авторов для документа по модели дистрибутивной семантики. В качестве результата рассмотрены основные способы выявления авторства документа и показаны результаты работы метода.

Source Retrieval for the Document Using Models of Distributive Semantics

The purpose of this article is to propose a method for identifying the unknown authors. The task of the study is to build a model of distributive semantics for the formation of a set of queries to the search engine. The hypothesis of the study is the possibility of using the selection of the document requests to find sources using vector space, built on a large body of texts using the Word2Vec tool. The method is a method of identifying authors for a document by means of the method distributive semantics. As a result, the main ways of identifying unknown authors are considered and the results of the work of the method are shown.

Authors
Publisher
Издательский дом «ТМБпринт»
Number of issue
4
Language
Russian
Pages
10-12
Status
Published
Year
2019
Organizations
  • 1 Peoples’ Friendship University of Russia
Keywords
антиплагиат; выявление заимствований; дистрибутивная семантика; source retrieval; word2vec; distributive semantic; plagiarism detection
Date of creation
20.02.2020
Date of change
20.02.2020
Short link
https://repository.rudn.ru/en/records/article/record/61040/
Share

Other records