СЕМАНТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ПЕРСИДСКИХ СЛОВ

Кластеризация - это одна из основных задач интеллектуального анализа данных, целью которой является разделение набора объектов на группы таким образом, чтобы похожие объекты попадали в одну группу, а объекты с различными функциями помещались в разные и отдельные группы. В этой статье представлена методика семантической кластеризации слов, которая является одним из приложений методов интеллектуального анализа данных в задаче обработки естественного языка. Кластеризация слов используется в различных областях интеллектуального анализа текста, таких как устранение неоднозначности слов, поиск информации, моделирование языка и классификация текста. В этой статье предлагается метод на основе графа для кластеризации персидских слов. Предложенный метод представляет собой тип кластеризации на основе шаблонов. Этот метод состоит из двух частей. В первой части с использованием статистических мер сходства, таких как хи-квадрат, поточечная взаимная информация (PMI) и косинус, получается граф совпадения слов. Во второй части граф подразделяется на соответствующие кластеры по алгоритму кластеризации графа Ньюмана. Наши исследования показывают, что хи-квадрат является наилучшей мерой для объединения слов на персидском языке.

Publisher
Общество с ограниченной ответственностью "Агентство перспективных научных исследований"
Language
Russian
Pages
71-76
Status
Published
Year
2019
Organizations
  • 1 Российский университет дружбы народов
Keywords
кластеризация слов; анализ текста; кластеризация графов
Date of creation
10.07.2024
Date of change
10.07.2024
Short link
https://repository.rudn.ru/en/records/article/record/151367/
Share

Other records

Новикова Г.М., Нисанова Л.А.
Социально-гуманитарное знание как катализатор общественного развития. Общество с ограниченной ответственностью "Агентство перспективных научных исследований". 2019. P. 129-132