ПОЛНОТЕКСТОВЫЙ КЛАССИФИКАТОР ПАТЕНТНЫХ ДОКУМЕНТОВ

Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В настоящей статье рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.

Авторы
Сборник материалов конференции
Издательство
Ростовский государственный экономический университет "РИНХ"
Язык
Русский
Страницы
267-274
Статус
Опубликовано
Организации
  • 1 Федеральный исследовательский центр "Информатика и управление" РАН
  • 2 Российский университет дружбы народов
Ключевые слова
IPC; классификация патентов; метод ближайших соседей; МПК
Дата создания
20.10.2018
Дата изменения
20.10.2018
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/12349/
Поделиться

Другие записи