Выявление источников заимствования для документа с использованием моделей дистрибутивной семантики

В статье предложен метод выявления источников заимствований для документа, использующий модель дистрибутивной семантики для формирования множества запросов к поисковой машине. Рассмотрены основные способы выявления заимствований и их источников. Показано, как выделить из документа запросы для поиска источников, используя векторное пространство, построенное на большом корпусе текстов при помощи инструмента Word2Vec. Приведены результаты работы метода.

Source Retrieval for a Document Using Models of Distributive Semantics

This paper is about method for identifying sources of plagiarism for a document, using a model of distributive semantics to form a set of queries to a search engine. The main ways of revealing plagiarisms and their sources are considered. It shows how to select queries from the document to search for sources using a vector space built on a large body of texts using the Word2Vec tool. The results of method's work are presented.

Авторы
Издательство
РУДН
Язык
Русский
Страницы
180-182
Статус
Опубликовано
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
word2vec; source retrieval; distributive semantic; plagiarism detection; дистрибутивная семантика; выявление заимствований; антиплагиат
Дата создания
20.10.2018
Дата изменения
20.10.2018
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/14436/
Поделиться

Другие записи

Цурлуков В.В., Зарядов И.С., Милованова Т.А.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.. РУДН. С. 81-83
Лукин А.В.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.. РУДН. С. 186-188