Efficiency analysis of the Word2Vec modifications compared to TF-IDF

Proshina, M.B.; Zhukov, V.V.

Анализ эффективности модификаций Word2Vec по сравнению с TF-IDF

На текущий момент существуют многочисленные наборы алгоритмов поиска и способов обработки запроса, которые применяются повсеместно и становятся неотъемлемой составляющей любого интеллектуального анализа естественного языка. Однако бесспорное лидерство единогласно остаётся за векторизацией слов коллекции документов, позволяющей сделать сам поиск эффективнее. Кроме того, за последнее десятилетие одним из самых важных ответвлений в данной области латентно-семантического индексирования стал Word2Vec, модель которого внесла большой вклад в анализ текстовых документов, позволяя существенно понизить размерность вектора признаков и значительно уменьшить вычислительные затраты при обучении. Преимущества подобной модели перед остальными методами векторизации не остались не замеченными, вследствие чего появилось бессчётное множество вариаций данного набора методов, позволяющих усовершенствовать вышеуказанный подход. Например: Metapath2Vec, Node2Vec, FCA2Vec (улучшенная модель Node2Vec) - применение для анализа и распознавания графов; Med2Vec - оценка и характеристика медицинских карт пациентов; Bio2Vec, OPA2Vec, Onto2Vec - повышение работы Word2Vec для биологических сущностей). В настоящей работе приведён сравнительный анализ эффективности подобных методов (Onto2Vec,OPA2Vec), поднимающих релевантность метода Word2Vec на новый уровень. Помимо этого, проведённые исследования демонстрируют актуальность специализированных методов (OPA2Vec, Onto2Vec) на корпусах (медицинских текстов), составленных для конкретной области поиска. Наконец, полученные результаты доказывают более высокую производительность методов-последователей Word2Vec по сравнению с самым востребованным способом подсчёта «веса» слова в тексте (TF-IDF), основным недостатком которого является возможность появления вектора размерностью в десятки тысяч измерений [1].

Efficiency analysis of the Word2Vec modifications compared to TF-IDF

At the moment, there are numerous sets of search algorithms that are used everywhere and become an integral part of any intellectual analysis of natural language. However, the undisputed leadership remains unanimously behind the word vectorization of the document collection, that makes the search more efficient. In addition, over the past decade, Word2Vec has become one of the most important offshoots in the area of latent semantic indexing. The Word2Vec model has significantly reduced the dimension of the feature vector and the computational cost of training. These studies resulted in countless variations of methods that allow us to improve the above-mentioned approach. This paper presents a comparative analysis of such methods (Onto2Vec, OPA2Vec) that raise the relevance of the Word2Vec method to a new level. In addition, the conducted research demonstrates the relevance of specialized methods (OPA2Vec, Onto2Vec) on corpuses (medical texts) compiled for a specific search area. Finally, the obtained results prove the higher performance of the Word2Vec modifications compared to the popular TF-IDF vectorization method.

ЦИФРОВАЯ ЛИНГВИСТИЧЕСКАЯ МИГРАТОЛОГИЯ И МОНИТОРИНГ ПОТЕНЦИАЛЬНО ОПАСНЫХ ТЕКСТОВ О МИГРАЦИИ

Статья

Карабулатова И.С., Воронцов К.В.

Миграционные мосты в Евразии: новые подходы к формированию миграционной политики в интересах устойчивого развития. 2020. С. 189-204

Анализ эффективности модификаций Word2Vec по сравнению с TF-IDF