Анализ эффективности модификаций Word2Vec по сравнению с TF-IDF

На текущий момент существуют многочисленные наборы алгоритмов поиска и способов обработки запроса, которые применяются повсеместно и становятся неотъемлемой составляющей любого интеллектуального анализа естественного языка. Однако бесспорное лидерство единогласно остаётся за векторизацией слов коллекции документов, позволяющей сделать сам поиск эффективнее. Кроме того, за последнее десятилетие одним из самых важных ответвлений в данной области латентно-семантического индексирования стал Word2Vec, модель которого внесла большой вклад в анализ текстовых документов, позволяя существенно понизить размерность вектора признаков и значительно уменьшить вычислительные затраты при обучении. Преимущества подобной модели перед остальными методами векторизации не остались не замеченными, вследствие чего появилось бессчётное множество вариаций данного набора методов, позволяющих усовершенствовать вышеуказанный подход. Например: Metapath2Vec, Node2Vec, FCA2Vec (улучшенная модель Node2Vec) - применение для анализа и распознавания графов; Med2Vec - оценка и характеристика медицинских карт пациентов; Bio2Vec, OPA2Vec, Onto2Vec - повышение работы Word2Vec для биологических сущностей). В настоящей работе приведён сравнительный анализ эффективности подобных методов (Onto2Vec,OPA2Vec), поднимающих релевантность метода Word2Vec на новый уровень. Помимо этого, проведённые исследования демонстрируют актуальность специализированных методов (OPA2Vec, Onto2Vec) на корпусах (медицинских текстов), составленных для конкретной области поиска. Наконец, полученные результаты доказывают более высокую производительность методов-последователей Word2Vec по сравнению с самым востребованным способом подсчёта «веса» слова в тексте (TF-IDF), основным недостатком которого является возможность появления вектора размерностью в десятки тысяч измерений [1].

Efficiency analysis of the Word2Vec modifications compared to TF-IDF

At the moment, there are numerous sets of search algorithms that are used everywhere and become an integral part of any intellectual analysis of natural language. However, the undisputed leadership remains unanimously behind the word vectorization of the document collection, that makes the search more efficient. In addition, over the past decade, Word2Vec has become one of the most important offshoots in the area of latent semantic indexing. The Word2Vec model has significantly reduced the dimension of the feature vector and the computational cost of training. These studies resulted in countless variations of methods that allow us to improve the above-mentioned approach. This paper presents a comparative analysis of such methods (Onto2Vec, OPA2Vec) that raise the relevance of the Word2Vec method to a new level. In addition, the conducted research demonstrates the relevance of specialized methods (OPA2Vec, Onto2Vec) on corpuses (medical texts) compiled for a specific search area. Finally, the obtained results prove the higher performance of the Word2Vec modifications compared to the popular TF-IDF vectorization method.

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
190-193
Status
Published
Year
2020
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
tf-idf; data mining; search algorithms; vectorization method; Word2Vec modifications; интеллектуальный анализ данных; алгоритмы поиска; метод векторизации; модификации Word2Vec
Date of creation
02.11.2020
Date of change
02.11.2020
Short link
https://repository.rudn.ru/en/records/article/record/66595/
Share

Other records