Исследование и разработка методов исправления опечаток

Значительное количество накапливаемой и создаваемой информации представлено в виде текстов. Людям свойственно ошибаться, поэтому в текстах могут появляться ошибки. Их причиной также может быть некачественный перенос данных из одного источника в другой, некорректное распознавание рукописных и отсканированных текстов. Правильная орфография важна не только для понимания сути написанного, но и для развития средств машинного анализа текстов. В связи с этим была поставлена задача коррекции орфографических ошибок. Универсального решения для этой задачи до сих пор не существует, ввиду вариативности ошибок. На протяжении развития методов коррекции орфографических ошибок они постоянно усложнялись, опираясь на методы прикладной лингвистики и математики. Развитие методов коррекции орфографических ошибок определяется двумя основными технологическими потребностями: - необходимостью автоматической обработки текста (классификация текста, автоматическая генерация текста), подвергшегося корректуре для повышения качества за счёт устранения «шума» в исходных данных; - удобством набора для пользователя (мобильная коррекция орфографии, автоматическая проверка орфографии в текстовых редакторах). Большинство моделей автоматического исправления орфографии разработано для английского языка. Реализация моделей для русского языка либо отсутствует для некоторых принципов работы, либо показывает результаты ниже, чем для английского языка. Поэтому данное исследование посвящено исследованию моделей автоматической коррекции орфографии, их адаптации для русского языка, а также повышению качества решения задачи коррекции опечаток. Задача работы - достичь для русского языка сопоставимых значений метрик качества по сравнению с метриками, достигаемыми методами для английского языка. Качество работы обученных моделей в работе оценивается через такие метрики, как precision, recall, accuracy и F-sсore на наборе из 22 тысяч русскоязычных слов и вариантов их неправильного написания. Набор включает в себя как орфографические ошибки, так и опечатки.

Research and development of typo correction methods

A significant amount of accumulated and created information is presented in the form of texts. People tend to make mistakes, so mistakes may appear in the texts. They can also be caused by poor-quality data transfer from one source to another, incorrect recognition of handwritten and scanned texts. Correct spelling is important not only for understanding the essence of what is written, but also for the development of machine text analysis tools. In this regard, the task of correcting spelling errors was set. There is still no universal solution for this problem, due to the variability of errors. Throughout the development of methods for correcting spelling errors, they have constantly become more complicated, relying on the methods of applied linguistics and mathematics. The development of spelling error correction methods is determined by two main technological needs: - the need for automatic text processing (text classification, automatic text generation), which has been proofread to improve quality by eliminating “noise” in the source data; - the convenience of typing for the user (mobile spelling correction, automatic spell checking in text editors). Most of the automatic spelling correction models are designed for the English language. The implementation of models for the Russian language is either absent for some principles of operation, or shows results lower than for the English language. Therefore, this study is devoted to the study of automatic spelling correction models, their adaptation for the Russian language, as well as improving the quality of solving the problem of correcting typos. The task of the work is to achieve comparable values of quality metrics for the Russian language in comparison with the metrics achieved by methods for the English language. The quality of the trained models in the work is evaluated through metrics such as precision, recall, accuracy and F-score, based on a set of 22 thousand Russian-language words and their misspellings. The set includes both spelling mistakes and typos.

Авторы
Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
417-422
Статус
Опубликовано
Год
2023
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
spelling correction; Near-Miss strategy; using an N-gram language model (JamSpell); коррекция орфографии; стратегия промаха; подход Питера Норвига; использование модели языка на основе N-грамм; Peter Norvig's approach
Дата создания
28.12.2023
Дата изменения
28.12.2023
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/102183/
Поделиться

Другие записи

Просвиров В.А., Али Амджад, Мокров Е.В.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. С. 411-416
Терентьев Е.Д.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. С. 423-428