Обзор методов построения композиционных эмбеддингов

Данная исследовательская работа посвящена обзору и разработке методов построения векторных представлений лексико-фразеологических элементов текстов. Основная цель данного исследования - это разработка алгоритма выделения именных групп и обучения модели. Для решения поставленных задач, были исследованы методы построения и оценки качества композиционных эмбеддингов. Для разработки алгоритма выделения именных групп, была использована библиотека isanlp. В ходе выполнения алгоритма выделения именных групп, было обработано более 90Гб текстовых данных и получен датасет, состоящий из именных групп, объёмом 20 Гб.

Methods for compositional word embeddings learning

This research paper is dedicated to the development of methods for learning compositional word embeddings. The main purpose of this research is to develop an algorithm that trains embeddings for noun phrases. To accomplish these tasks, various methods for constructing compositional embeddings as well as for the assessment of their quality have been explored. A library named isanlp was used for developing the algorithm that extracts the noun phrases. The training dataset contains more than 90GB of textual data, and the resulting dataset composed of noun groups with a volume of 20 GB has been obtained.

Издательство
РУДН
Язык
English
Страницы
317-319
Статус
Published
Год
2019
Организации
  • 1 Peoples' Friendship University of Russia
Ключевые слова
compositional word embeddings; word2vec; композиционные эмбеддинги
Цитировать
Поделиться

Другие записи

Еремян В.В., Чихладзе Л.Т., Абашидзе А.Х.
Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). 2019.