Method for Author Attribution Using Word Embeddings

In this paper we look at a methodology of revealing an unknown document’s author through the use of extracting the author's characteristics from their writing style The method used explores identifying sources of unknown documents, using a model of distributive semantics to form a set of queries to a search engine. The dataset used is the PAN @ CLEF 2019 shared task on Cross-domain Authorship Attribution are in the following languages: English, French, Italian, and Spanish, each of which contains 5 problematic questions, which gives a total of 20 problematic questions. The problem relates to Natural Language Programming where the process is done through the attribution of the user that can be used to identify an author’s work. The method explores identifying sources of unknown document, using a model of distributive semantics to form a set of queries to a search engine. The method used to reveal the unknown authors is done through distributional semantics; this is based on the following hypothesis: the linguistic units that are observed in close contexts have similar semantic meaning, in this area when looking at linguistics this is calculated based on the proximity of linguistic elements in terms of semantic load based on their distribution in large textual boxes.

В этой статье рассматривается методология определения автора текста с помощью анализа стиля письма и определения особенностей, характерных для конкретного автора. Данный метод исследует возможности идентификации источников анализируемых документов с использованием модели дистрибутивной семантики для формирования набора запросов для поисковой машины. Используемый набор данных является совместной задачей PAN @ CLEF 2019 в Кросс-доменной Атрибуции Авторских прав на таких языках как английский, французский, итальянский и испанский, каждый из которых имеет 5 задач, что в совокупности ставит 20 задач. Общая задача, объединяющая эти 20 задач, связана с программированием на естественном языке, в рамках которого данный процесс осуществляется через атрибуцию пользователя, которая может быть использована для идентификации работы автора. Приведенный здесь метод исследует выявление источников неизвестного документа, используя модель дистрибутивной семантики для формирования набора запросов к поисковой системе. Метод, используемый для выявления неизвестных авторов, базируется на дистрибутивной семантике и на следующей гипотезе: лингвистические единицы, которые присутствуют в сходных контекстах, имеют сходное семантическое значение. Анализируемые лингвистические единицы рассчитываются, исходя из близости лингвистических элементов с точки зрения семантической нагрузки, основанной на их распределении в больших текстовых отрывках.

Авторы
Издательство
Фонд содействия развитию интернет-медиа, ИТ-образования, человеческого потенциала Лига интернет-медиа
Номер выпуска
3
Язык
Английский
Страницы
572-578
Статус
Опубликовано
Том
15
Год
2019
Организации
  • 1 Peoples’ Friendship University of Russia
  • 2 Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences
  • 3 Lomonosov Moscow State University
Ключевые слова
дистрибутивная семантика; поиск источника; антиплагиат; атрибуция авторства; неизвестный автор; программирование на естественном языке; Distributional semantics; source retrieval; anti-plagiarism; author attribution; unknown author; Natural language programming
Дата создания
02.11.2020
Дата изменения
02.11.2020
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/70888/
Поделиться

Другие записи

Аду К.И., Маркова Е.В., Гудкова И.А.
Современные информационные технологии и ИТ-образование. Фонд содействия развитию интернет-медиа, ИТ-образования, человеческого потенциала Лига интернет-медиа. Том 15. 2019. С. 563-571
Галилейская А.А., Лисовская Е.Ю., Моисеева С.П., Гайдамака Ю.В.
Современные информационные технологии и ИТ-образование. Фонд содействия развитию интернет-медиа, ИТ-образования, человеческого потенциала Лига интернет-медиа. Том 15. 2019. С. 579-587