Methods for compositional word embeddings learning

Sofronova, A.T.

Обзор методов построения композиционных эмбеддингов

Данная исследовательская работа посвящена обзору и разработке методов построения векторных представлений лексико-фразеологических элементов текстов. Основная цель данного исследования - это разработка алгоритма выделения именных групп и обучения модели. Для решения поставленных задач, были исследованы методы построения и оценки качества композиционных эмбеддингов. Для разработки алгоритма выделения именных групп, была использована библиотека isanlp. В ходе выполнения алгоритма выделения именных групп, было обработано более 90Гб текстовых данных и получен датасет, состоящий из именных групп, объёмом 20 Гб.

Methods for compositional word embeddings learning

This research paper is dedicated to the development of methods for learning compositional word embeddings. The main purpose of this research is to develop an algorithm that trains embeddings for noun phrases. To accomplish these tasks, various methods for constructing compositional embeddings as well as for the assessment of their quality have been explored. A library named isanlp was used for developing the algorithm that extracts the noun phrases. The training dataset contains more than 90GB of textual data, and the resulting dataset composed of noun groups with a volume of 20 GB has been obtained.

Авторы

Софронова А.Т. (Sofronova A.T.) ¹

Сборник материалов конференции

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.

Издательство

РУДН

Язык

Английский

Страницы

317-319

Статус

Опубликовано