ПОЛНОТЕКСТОВЫЙ КЛАССИФИКАТОР ПАТЕНТНЫХ ДОКУМЕНТОВ

Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В настоящей статье рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.

Publisher
Ростовский государственный экономический университет "РИНХ"
Language
Russian
Pages
267-274
Status
Published
Organizations
  • 1 Федеральный исследовательский центр "Информатика и управление" РАН
  • 2 Российский университет дружбы народов
Keywords
IPC; классификация патентов; метод ближайших соседей; МПК
Date of creation
20.10.2018
Date of change
20.10.2018
Short link
https://repository.rudn.ru/en/records/article/record/12349/
Share

Other records