Алгоритмы морфологического анализа и стемминга. Исследование алгоритмов для английского и немецкого языков

Боровикова, К.В.

Алгоритмы морфологического анализа и стемминга. Исследование алгоритмов для английского и немецкого языков

В статье рассматриваются актуальные способы современного изучения методов морфологического анализа текстов и механизмы применения алгоритмов выделения псевдооснов слов в английском и немецком языках. Для исследований в отдельности проведен морфологический анализ слов английского и немецкого языков с точки зрения их формы, грамматических характеристик, определения грамматической категории и лексических значений, а также детально рассмотрены алгоритмы стемминга, применяемые для нахождения значимой части слова и подготовки текстов к использованию в модели машинного обучения. В ходе исследования выявлены различия в морфологичесих типах и, соответственно, типах реализации алгоритмов стемминга, а также детально рассмотрены эти различия. Описанное исследование может найти широкое применение при создании моделей машинного обучения в части распознавания текстов, обработки текстовых массивов, а также выделения псевдооснов слов с целью определения их не только лексической, но и эмоциональной окраски.

The article discusses the current methods of modern study of text morphological analysis and the mechanisms of stemming algorithms application in English and German. For the research, a morphological analysis of English and German words was carried out separately in terms of their form, grammatical characteristics, definition of grammatical category and lexical meanings. Stemming algorithms used to find the significant part of a word and prepare texts for use in a machine learning model were also considered in detail. The study revealed differences in morphological types and types of stemming algorithms implementation. The described research can be widely used in creating machine learning models in terms of text recognition, text arrays processing, as well as finding pseudo-bases of words in order to determine their not only lexical, but also emotional coloring.

Авторы

Боровикова К.В. ¹

Сборник материалов конференции

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем

Издательство

Российский университет дружбы народов (РУДН)

Язык

Русский

Страницы

254-261

Статус

Опубликовано

Год

2024

Организации

¹ Российский университет дружбы народов им. Патриса Лумумбы

Ключевые слова

стемминг; морфологический анализ; обработка текста; естественный язык; английский язык; немецкий язык; database; entity; relationship; attribute; primary key; Foreign Key; data integration; conceptual schema; relational schema; inventory accounting

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

АНАЛИЗ И ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ МЕТОДОМ SSA

Статья

Шестаков Д.С.

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. 2024. С. 250-253

АНАЛИЗ АССОЦИАТИВНЫХ ПРАВИЛ В ЗАДАЧАХ РИТЕЙЛА

Статья

Шалыгин Г.Э.

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. 2024. С. 262-268