Структурные модели англоязычных терминов для автоматической обработки корпусов научно-технических текстов

В статье рассмотрены структурные модели английских многокомпонентных терминов из предметной области «Welding types» как основа для разметки корпуса научно-технических текстов. Обозначено место корпусов научно-технических текстов в корпусной лингвистике и перспективы дальнейших научных исследований на их основе. Актуальность исследования обусловлена необходимостью создания корпусов научно-технических текстов в целом и средств автоматической разметки терминов в частности. Обосновано, что основной проблемой при создании корпусов научно-технических текстов является автоматическая разметка терминологических словосочетаний. Проведен анализ современного состояния терминосистемы предметной области «Welding types». Рассмотрена формальная структура элементов терминосистемы «Welding types». Представлены результаты анализа двух-, трех, четырехкомпонентных английских терминологических словосочетаний предметной области «Welding types», а также их структурные модели. Все структурные модели английских терминологических словосочетаний проиллюстрированы примерами. Выделены наиболее продуктивные модели английских терминологических словосочетаний. Показано, что наиболее продуктивная модель - сочетание ядерного элемента с именем существительным или прилагательным в функции препозитивного определения - прослеживается у двухкомпонентных словосочетаний, но анализ более сложных образований показывает, что модель «левое определение, присоединенное к ядру термина» присутствует и в них, демонстрируя родовые признаки. Обоснована необходимость перечисления всех возможных структурных моделей терминологических сочетаний предметной области «Welding types». Новизна исследования видится в формировании базы данных структурных моделей терминологических словосочетаний как основы надкорпусной базы данных о структуре терминов для повышения качества автоматической разметки корпусов научно-технических текстов и обработки терминов-кандидатов при проведении корпусных исследований.

The article is devoted to the structural models of English multi-component terms from the subject area “Welding types” as a basis for marking the corpora of scientific and technical texts. The place of corpora of scientific and technical texts in corpus linguistics and prospects of further scientific research based on them are marked. Relevance of the research is conditioned by the necessity to create the corpus of scientific and technical texts, in general, and means of automatic marking of terms, in particular. It has been substantiated that the main problem in creating the corpus of scientific and technical texts is automatic marking of terminological word combinations. The analysis of the current state of the terminology system of the subject area “Welding types” has been carried out. The formal structure of elements of the “Welding types” terminology system is considered. The results of the analysis of two, three, four-component English terminological word combinations of the “Welding types” subject area and their structural models are presented. All structural models of English terminology combinations are illustrated with examples. The most productive models of English terms word combinations are highlighted. It is shown that the most productive model - the combination of a nucleus element with a noun or an adjective in the function of the prepositional definition - can be traced in two-component word combinations, but the analysis of more complex formations shows that the model of “left definition attached to the term kernel” is also present in them, demonstrating generic features. The necessity of enumerating all possible structural models of terminological combinations in the subject area “Welding types” has been substantiated. The novelty of the study is seen in the formation of a database of structural models of terminological combinations as the basis of a superstructure database on the structure of terms to improve the quality of automatic marking of the bodies of scientific and technical texts and processing of terms-candidates in the conduct of body studies.

Издательство
Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН)
Номер выпуска
1
Язык
Русский
Страницы
80-95
Статус
Опубликовано
Том
13
Год
2022
Организации
  • 1 Российский университет дружбы народов
  • 2 Московский государственный технический университет им. Н.Э. Баумана
Ключевые слова
term; terminological word combination; structural model; markup; scientific and technical texts corpora; scientific and technical discourse; термин; терминологическое словосочетание; структурная модель; разметка; корпус научно-технических текстов; научно-технический дискурс
Цитировать
Поделиться

Другие записи

Ремчукова Е.Н., Кузьмина Л.А.
Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). Том 13. 2022. С. 45-67
Анисимов В.Е., Гафиятова Э.В., Калинникова Е.Д.
Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН). Том 13. 2022. С. 96-124