Данная исследовательская работа посвящена обзору и разработке методов построения векторных представлений лексико-фразеологических элементов текстов. Основная цель данного исследования - это разработка алгоритма выделения именных групп и обучения модели. Для решения поставленных задач, были исследованы методы построения и оценки качества композиционных эмбеддингов. Для разработки алгоритма выделения именных групп, была использована библиотека isanlp. В ходе выполнения алгоритма выделения именных групп, было обработано более 90Гб текстовых данных и получен датасет, состоящий из именных групп, объёмом 20 Гб.
This research paper is dedicated to the development of methods for learning compositional word embeddings. The main purpose of this research is to develop an algorithm that trains embeddings for noun phrases. To accomplish these tasks, various methods for constructing compositional embeddings as well as for the assessment of their quality have been explored. A library named isanlp was used for developing the algorithm that extracts the noun phrases. The training dataset contains more than 90GB of textual data, and the resulting dataset composed of noun groups with a volume of 20 GB has been obtained.