Обзор методов построения композиционных эмбеддингов

Данная исследовательская работа посвящена обзору и разработке методов построения векторных представлений лексико-фразеологических элементов текстов. Основная цель данного исследования - это разработка алгоритма выделения именных групп и обучения модели. Для решения поставленных задач, были исследованы методы построения и оценки качества композиционных эмбеддингов. Для разработки алгоритма выделения именных групп, была использована библиотека isanlp. В ходе выполнения алгоритма выделения именных групп, было обработано более 90Гб текстовых данных и получен датасет, состоящий из именных групп, объёмом 20 Гб.

Methods for compositional word embeddings learning

This research paper is dedicated to the development of methods for learning compositional word embeddings. The main purpose of this research is to develop an algorithm that trains embeddings for noun phrases. To accomplish these tasks, various methods for constructing compositional embeddings as well as for the assessment of their quality have been explored. A library named isanlp was used for developing the algorithm that extracts the noun phrases. The training dataset contains more than 90GB of textual data, and the resulting dataset composed of noun groups with a volume of 20 GB has been obtained.

Authors
Publisher
РУДН
Language
English
Pages
317-319
Status
Published
Year
2019
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
compositional word embeddings; word2vec; композиционные эмбеддинги
Date of creation
20.02.2020
Date of change
20.02.2020
Short link
https://repository.rudn.ru/en/records/article/record/58213/
Share

Other records

Еремян В.В., Чихладзе Л.Т., Абашидзе А.Х.
Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). 2019.