Структурные модели терминологических словосочетаний для разметки корпуса научно-технических текстов

В статье представлены структурные модели терминологических словосочетаний из предметной области «Сварка» как основа для создания автоматизированных средств разметки корпусов научно-технических текстов. Обозначено место корпусов научно-технических текстов в корпусной лингвистике и перспективы дальнейших научных исследований на их основе. Актуальность исследования обусловлена необходимостью создания корпусов научно-технических текстов в целом и средств автоматической разметки терминов в частности. Обосновано, что в настоящее время основной проблемой при создании корпусов научно-технических текстов является автоматическая разметка терминологических словосочетаний. Проведен анализ современного состояния терминосистемы предметной области «Сварка». Представлены результаты анализа двух-, трех-, четырех- и пятикомпонентных терминологических словосочетаний предметной области «Сварка», а также созданы и проиллюстрированы примерами их структурные модели. Обоснована необходимость исчисления всех возможных структурных моделей терминологических сочетаний. Усложнение структуры терминологического словосочетания чаще всего связано с усложнением структуры постпозитивного определения в зависимости от выражаемых им видовых особенностей. Новизна исследования видится в обеспечении теоретического базиса для формирования базы данных структурных моделей терминологических словосочетаний как основы надкорпусной базы данных о структуре многокомпонентных терминов для повышения качества автоматической разметки корпусов научно-технических текстов; также предложен подход к автоматической разметке многокомпонентных терминов на основе структурных моделей терминологических словосочетаний. Результат полезен также для обработки терминов-кандидатов при проведении корпусных исследований при последующем использовании корпусов научно-технических текстов.

The article presents structural models of terminological phrases from the subject area “Welding” as the basis for creating automated tools to mark up the corpus of scientific and technical texts. The place of scientific and technical corpora in corpus linguistics and the prospects for their further research are outlined. The relevance of the research stems from the need to create corpora of scientific and technical texts in general and to provide tools for automatic detection of terms in particular. It is substantiated that the main problem in designing such corpora is the automatic markup of terminological phrases. The analysis of the current state of the term system of the subject area “Welding” has been carried out. The results of the analysis of two-, three-, four- and five-component terminological phrases of “Welding” and their structural models are presented and illustrated by examples. The necessity of listing all possible structural models of terminological combinations has been substantiated too. It has been established that the addition of a new component to the basic terminological combination most often occurs with introduction of one more postpositional at-tribute whose function is to add some specific feature to the basic meaning. The novelty of the study is seen in providing a theoretical approach for the formation of a database of structural models of terminological phrases which may be used as a core of a supersource database on the structure of the multicomponent scientific and technical terms. An approach to automatic markup of multicomponent terms is proposed too. It will be also helpful in future corpus research for identification of candidate word combinations as scientific and technical terms.

Номер выпуска
3
Язык
Русский
Страницы
45-56
Статус
Опубликовано
Том
19
Год
2021
Организации
  • 1 Московский государственный технический университет им. Н. Э. Баумана
  • 2 Российский университет дружбы народов
Ключевые слова
term; terminological phrase; structural model; markup; corpus of scientific and technical texts; термин; терминологическое словосочетание; структурная модель; разметка; корпус научно-технических текстов
Цитировать
Поделиться

Другие записи