Оптимизация больших языковых моделей

Язык - это сложная запутанная система выражений, управляемая грамматическими правилами. Разработка эффективных алгоритмов искусственного интеллекта (ИИ), способных понимать естественный язык, представляет собой сложную задачу. В последние два десятилетия в языковом моделировании широко изучались задачи понимания и генерации языка, эволюционируя от статистических языковых моделей к нейронным языковым моделям. Так, недавно появились предварительно обученные языковые модели (Pre-trained Language Models, PLMs) путем предварительного обучения моделей Трансформеров [1] на крупномасштабных корпусах (то есть с большим числом параметров), демонстрирующих мощные возможности в решении различных задач обработки естественного языка (Natural Language Processing, NLP). Поскольку исследователи обнаружили, что масштабирование модели может привести к повышению ее производительности, они дополнительно изучили эффект масштабирования, увеличивая масштаб параметров до еще большего размера. Результаты показали, что когда масштаб параметров превышает определенный уровень, эти расширенные языковые модели не только достигают значительного улучшения производительности, но и проявляют некоторые особые способности (например, обучение без контекста), которых нет в маломасштабных языковых моделях (например, BERT [2]). Чтобы различать языковые модели в различных масштабах параметров, исследовательское сообщество ввело термин ”большие языковые модели” (Large Language Models, LLMs) для PLMs значительного размера (например, содержащих десятки или сотни миллиардов параметров). В последнее время исследования LLMs в значительной степени продвинулись как в академических, так и промышленных кругах, но особенно важной вехой является запуск ChatGPT (мощного чат-бота с искусственным интеллектом, разработанного на основе LLMs), который привлек широкое внимание общественности. Техническая эволюция LLMs оказала важное влияние на все сообщество искусственного интеллекта, что произвело революцию в разработке и использовании алгоритмов искусственного интеллекта. Целью данной работы является анализ способов оптимизации больших языковых моделей для повышения производительности и эффективности таких моделей.

Language is a complex intricate system of expressions governed by grammatical rules. Developing efficient artificial intelligence algorithms capable of understanding natural language is a challenging task. In the last two decades, language understanding and language generation tasks have been extensively studied in language modeling, evolving from statistical language models to neural language models. For example, pre-trained language models (PLMs) have recently emerged by pre-training Transformer models on large-scale corpora (i.e., with a large number of parameters), demonstrating powerful capabilities in a variety of Natural Language Processing tasks. Since the researchers found that scaling the model can lead to improved performance, they further investigated the scaling effect by increasing the parameter scale to an even larger size. The results showed that when the parameter scale exceeds a certain level, these extended language models not only achieve significant performance improvements, but also exhibit some special abilities (e.g., context-free learning) that are not present in small-scale language models (e.g., BERT). To distinguish between language models at different parameter scales, the research community has introduced the term Large Language Models (LLMs) for PLMs of significant size (e.g., containing tens or hundreds of billions of parameters). Recently, LLMs research has made a significant progress in both academia and industry, but a particularly important milestone is the launch of ChatGPT (a powerful artificial intelligence chatbot developed based on LLMs), which has attracted widespread public attention. The technical evolution of LLMs has had an important impact on the entire artificial intelligence community, revolutionizing the design and use of artificial intelligence algorithms. The aim of this paper is to analyze ways to optimize large language models to improve the performance and efficiency of such models.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
231-237
Статус
Опубликовано
Год
2024
Организации
  • 1 Российский университет дружбы народов имени Патриса Лумумбы
Ключевые слова
большие языковые модели; тонкая настройка; обработка естественого языка; предобученные модели; искусственный интеллект; large language models; fine-tuning; natural language processing; pre-trained models; artificial intelligence
Цитировать
Поделиться

Другие записи