Применение обучения с подкреплением для решения проблемы регулирования перекрёстка

Несмотря на то, что основы обучения с подкреплением уходят корнями в идеи, сформированные в прошлом веке, его применение с течением времени только распространяется. Исследуются новые подходы к решению высокотехнологичных задач на основе обучения с подкреплением, усовершенствуются старые и разрабатываются новые методы обучения агента, в том числе с применением нейронных сетей. Подходы обучения с подкреплением могут применяться в задачах полной и частичной автоматизации: от систем поддержки принятия решений до управления беспилотными автомобилями, набирающих популярность в последние годы. В данной работе строится модель среды в виде x-образного перекрёстка с тремя полосами движения на каждой дороге. Система подкреплений для агента основывается как на длине очереди из автомобилей на переезд перекрёстка на каждой полосе, так и на количестве ожидающих автомобилей в целом. Для обучения агента используется классический метод Q-обучение, основанный на составлении таблицы ценности действия-состояния, или Q-таблицы. Анализируется результат обучения агента, а также эффективность используемого алгоритма.

Application of reinforcement learning to the problem of traffic light control at a crossroad

Although the fundamentals of reinforcement learning are rooted in ideas generated in the last century, its application is only spreading over time. New approaches to solving high-technology tasks based on reinforcement learning are being explored, and old methods of agent learning, including neural network learning, are being improved and new ones developed. Reinforcement learning approaches can be applied to complete and partial automation tasks, from decision support systems to the control of unmanned vehicles that have gained popularity in recent years. In this paper, we build an environment model in the form of an x-shaped intersection with three lanes of traffic on each road. The reinforcement system for the agent is based on both the length of the queue of cars to cross the intersection in each lane, and the number of waiting cars in general. A classical Q-learning method is used to train the agent, based on the production of an action-state value table, or Q-table. The result of agent training is analyzed, as well as the effectiveness of the algorithm used.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
222-225
Статус
Опубликовано
Год
2023
Организации
  • 1 Российский университет дружбы народов
  • 2 Институт проблем информатики ФИЦ ИУ РАН
Ключевые слова
reinforcement learning; traffic light control; q-learning; markov decision process; обучение с подкреплением; умный светофор; Q-обучение; марковский процесс принятия решений
Дата создания
28.12.2023
Дата изменения
28.12.2023
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/102145/
Поделиться

Другие записи

Канзитдинов Ш.К., Левичев И.В., Перес Акоста Д., Васильев С.А.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. С. 216-221
Севастьянов Л.А., Иноземцев В.Ю.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. С. 236-239