ПОЛНОТЕКСТОВЫЙ КЛАССИФИКАТОР ПАТЕНТНЫХ ДОКУМЕНТОВ

Ядринцев, В.В.

ПОЛНОТЕКСТОВЫЙ КЛАССИФИКАТОР ПАТЕНТНЫХ ДОКУМЕНТОВ

Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В настоящей статье рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.

Авторы

Ядринцев В.В. ^1, ²

Сборник материалов конференции

Информатика, управление и системный анализ

Издательство

Ростовский государственный экономический университет "РИНХ"

Язык

Русский

Страницы

267-274

Статус

Опубликовано