В статье предложен метод выявления источников заимствований для документа, использующий модель дистрибутивной семантики для формирования множества запросов к поисковой машине. Рассмотрены основные способы выявления заимствований и их источников. Показано, как выделить из документа запросы для поиска источников, используя векторное пространство, построенное на большом корпусе текстов при помощи инструмента Word2Vec. Приведены результаты работы метода.
This paper is about method for identifying sources of plagiarism for a document, using a model of distributive semantics to form a set of queries to a search engine. The main ways of revealing plagiarisms and their sources are considered. It shows how to select queries from the document to search for sources using a vector space built on a large body of texts using the Word2Vec tool. The results of method's work are presented.