СЕМАНТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ПЕРСИДСКИХ СЛОВ

Кластеризация - это одна из основных задач интеллектуального анализа данных, целью которой является разделение набора объектов на группы таким образом, чтобы похожие объекты попадали в одну группу, а объекты с различными функциями помещались в разные и отдельные группы. В этой статье представлена методика семантической кластеризации слов, которая является одним из приложений методов интеллектуального анализа данных в задаче обработки естественного языка. Кластеризация слов используется в различных областях интеллектуального анализа текста, таких как устранение неоднозначности слов, поиск информации, моделирование языка и классификация текста. В этой статье предлагается метод на основе графа для кластеризации персидских слов. Предложенный метод представляет собой тип кластеризации на основе шаблонов. Этот метод состоит из двух частей. В первой части с использованием статистических мер сходства, таких как хи-квадрат, поточечная взаимная информация (PMI) и косинус, получается граф совпадения слов. Во второй части граф подразделяется на соответствующие кластеры по алгоритму кластеризации графа Ньюмана. Наши исследования показывают, что хи-квадрат является наилучшей мерой для объединения слов на персидском языке.

Издательство
Общество с ограниченной ответственностью "Агентство перспективных научных исследований"
Язык
Русский
Страницы
71-76
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
кластеризация слов; анализ текста; кластеризация графов
Цитировать
Поделиться

Другие записи

Новикова Г.М., Нисанова Л.А.
Социально-гуманитарное знание как катализатор общественного развития. Общество с ограниченной ответственностью "Агентство перспективных научных исследований". 2019. С. 129-132