Выявление источников заимствования для документа с использованием моделей дистрибутивной семантики

В статье предложен метод выявления источников заимствований для документа, использующий модель дистрибутивной семантики для формирования множества запросов к поисковой машине. Рассмотрены основные способы выявления заимствований и их источников. Показано, как выделить из документа запросы для поиска источников, используя векторное пространство, построенное на большом корпусе текстов при помощи инструмента Word2Vec. Приведены результаты работы метода.

Source Retrieval for a Document Using Models of Distributive Semantics

This paper is about method for identifying sources of plagiarism for a document, using a model of distributive semantics to form a set of queries to a search engine. The main ways of revealing plagiarisms and their sources are considered. It shows how to select queries from the document to search for sources using a vector space built on a large body of texts using the Word2Vec tool. The results of method's work are presented.

Authors
Publisher
РУДН
Language
Russian
Pages
180-182
Status
Published
Organizations
  • 1 Peoples' Friendship University of Russia (RUDN University)
Keywords
word2vec; source retrieval; distributive semantic; plagiarism detection; дистрибутивная семантика; выявление заимствований; антиплагиат
Date of creation
20.10.2018
Date of change
20.10.2018
Short link
https://repository.rudn.ru/en/records/article/record/14436/
Share

Other records

Tsurlukov V.V., Zaryadov I.S., Milovanova T.A.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.. РУДН. P. 81-83
Lukin A.V.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.. РУДН. P. 186-188