Развитие подходов и усовершенствование инструментов оценки лингвистической и когнитивной сложности учебного текста востребовано как в науке, так и практике обучения. Особую значимость прогнозирование трудностей восприятия и понимания, а также ранжирование текстов по классам, т.е. количеству лет формального обучения, или уровням владения языком (А1-С2) имеет в системе образования. Цель исследования - продемонстрировать, каким образом современные методологии, алгоритмы и инструменты аналитики текстов на русском языке реализованы в автоматическом анализаторе RuLingva, а также представить статьи тематического выпуска, посвященного комплексному анализу учебников по русскому языку для российских и белорусских школ. Показано, что современная парадигма дискурсивной комплексологии опирается на разработанные в российском языкознании методы стилостатистики, позволяющие выявлять функциональные характеристики языковых единиц и осуществлять их верификацию на материале больших языковых данных. Функционирующие на портале RuLingva сервисы предназначены для преподавателей и исследователей и позволяют в автоматическом режиме не только осуществлять аналитику учебного текста, но и прогнозировать его целевую аудиторию на основании данных о читабельности, лексическом разнообразии, абстрактности, частотности, терминологической плотности. В режиме «Русский как иностранный» RuLingva выгружает из текста списки слов, соответствующие каждому из уровней владения языком, и оценивает долю каждого из них, предоставляя таким образом материал для пред- и посттекстовой работы преподавателя. Алгоритм функционирования RuLingva разработан на основе типологии учебных текстов и имеет в качестве перспективы создание функционала оценки вербального интеллекта и читательской грамотности обучающегося. Перспектива развития RuLingva связана с расширением спектра предикторов сложности и внедрением функции автоматического определения предметной области учебного текста. Оба направления планируется реализовать при помощи нейронных сетей и созданных на их основе классификационных моделей, а также на базе «типологических паспортов» учебных текстов различной сложности и тематической направленности.
Approaches and tools for assessing linguistic and cognitive complexity of educational texts are in demand both in science and teaching. Predicting difficulties of perception and understanding and ranking texts by classes, i.e. the number of years of learning or levels of language proficiency (A1–C2), are of particular importance for education. The study is aimed at demonstrating modern methodologies, algorithms, and tools for analyzing Russian texts in text profiler and automatic analyzer RuLingva and at presenting articles from the thematic issue on comprehensive analysis of Russian language textbooks for Russian and Belarusian schools. The research demonstrates that the modern paradigm of discourse complexology is based on the methods of stylistic statistics, which identifies functional characteristics of language units and verifies them using big data. The services on RuLingva are designed for teachers and researchers; they automatically analyze educational texts and predict their target audience based on readability, lexical diversity, abstractness, frequency, and terminological density. In “Russian as a Foreign Language” mode, RuLingva downloads lists of words from the text according to each level of language proficiency and estimates their pro-portion. This provides material for preand post-text work. RuLingva algorithm is based on the typology of educational texts and is to be supplied with tools for assessing a person’s verbal intelligence and reading literacy. The nearest prospect of RuLingva lies in widening the range of complexity predictors and installing automatic subject area discriminator. Both directions are planned to be implemented using neural networks, classification models, “typological passports” of educational texts with different complexity, and thematic orientation. © 2024, RUDN University. All rights reserved.