Особенности разметки научно-технических текстов в аспекте создания специализированного корпуса

Рассмотрены особенности разметки научно-технических документов при создании корпуса узкоспециализированных текстов. Перечислены научно-технические тексты и их структурные элементы как источники наполнения корпуса. Дан их анализ с позиции разметки текстовых элементов разных уровней. Обоснована необходимость введения межуровневых видов разметки. Подчеркнута значимость введения структурной разметки при создании корпуса научно-технических текстов. Обсуждены проблемы автоматического извлечения терминов из научно-технических текстов. Показано, что наибольшую сложность представляет разметка многокомпонентных терминологических единиц в корпусе научно-технических текстов. Выделены литеральные термины как объекты, требующие разработки дополнительного инструментария для их обработки, в состав которых могут входить различные буквы, символы, цифры или их комбинации. Проанализированы референции как фактор влияния на классификацию и рубрикацию научно-технических текстов. Обоснована необходимость изучения видов референций и способов их автоматической разметки, а также введения отдельной разметки примеров в научно-технических текстах.

The article deals with the peculiarities of the markup of scientific and technical texts in developing a corpus of highly specialized texts. The scientific and technical texts as sources of filling the corpus are listed. The scientific and technical texts are analyzed from the position of markup of textual elements of different levels. The necessity of introducing interlevel types of markup of scientific and technical texts is substantiated. The significance of introducing structural markup when creating a corpus of scientific and technical texts is emphasized. The structural elements of scientific and technical texts for filling the corpus are listed. The current state of the problem of automatic extraction of terms from scientific and technical texts is analyzed. It is shown that the greatest difficulty is the marking of multicomponent terminological units in the corpus of scientific and technical texts. We identify literary terms as objects that require the development of additional tools for their processing, which may include various letters, symbols, numbers or their combinations. References as a factor influencing the classification and rubrication of scientific and technical texts are analyzed. The necessity of studying the types of references, as well as the ways of their automatic marking in the corpus of scientific and technical texts is substantiated. The necessity of introducing a separate marking of examples in scientific and technical texts is substantiated.

Publisher
ООО "Инновационный научно-образовательный и издательский центр "АЛМАВЕСТ"
Number of issue
1
Language
Russian
Pages
14-20
Status
Published
Year
2022
Organizations
  • 1 Московский государственный технический университет им. Н.Э. Баумана
  • 2 Российский университет дружбы народов
Keywords
scientific and technical text; corpus; markup; hierarchical-structured test; multicomponent term; научно-технический текст; корпус; разметка; иерархически структурированный тест; многокомпонентный термин
Date of creation
06.07.2022
Date of change
06.07.2022
Short link
https://repository.rudn.ru/en/records/article/record/84906/
Share

Other records