Обзор методов построения композиционных эмбеддингов

Данная исследовательская работа посвящена обзору и разработке методов построения векторных представлений лексико-фразеологических элементов текстов. Основная цель данного исследования - это разработка алгоритма выделения именных групп и обучения модели. Для решения поставленных задач, были исследованы методы построения и оценки качества композиционных эмбеддингов. Для разработки алгоритма выделения именных групп, была использована библиотека isanlp. В ходе выполнения алгоритма выделения именных групп, было обработано более 90Гб текстовых данных и получен датасет, состоящий из именных групп, объёмом 20 Гб.

Methods for compositional word embeddings learning

This research paper is dedicated to the development of methods for learning compositional word embeddings. The main purpose of this research is to develop an algorithm that trains embeddings for noun phrases. To accomplish these tasks, various methods for constructing compositional embeddings as well as for the assessment of their quality have been explored. A library named isanlp was used for developing the algorithm that extracts the noun phrases. The training dataset contains more than 90GB of textual data, and the resulting dataset composed of noun groups with a volume of 20 GB has been obtained.

Авторы
Издательство
РУДН
Язык
Английский
Страницы
317-319
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
compositional word embeddings; word2vec; композиционные эмбеддинги
Цитировать
Поделиться

Другие записи

Первойкина С.А., Филатова О.В.
Диалог цивилизаций: Восток-Запад : материалы XIХ научной конференции студентов, аспирантов и молодых учёных. Москва, 30 января 2019 г.. Российский университет дружбы народов. 2019. С. 316-328
Еремян В.В., Чихладзе Л.Т., Абашидзе А.Х.
Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). 2019.