Применение обучения с подкреплением для решения проблемы регулирования перекрёстка

Несмотря на то, что основы обучения с подкреплением уходят корнями в идеи, сформированные в прошлом веке, его применение с течением времени только распространяется. Исследуются новые подходы к решению высокотехнологичных задач на основе обучения с подкреплением, усовершенствуются старые и разрабатываются новые методы обучения агента, в том числе с применением нейронных сетей. Подходы обучения с подкреплением могут применяться в задачах полной и частичной автоматизации: от систем поддержки принятия решений до управления беспилотными автомобилями, набирающих популярность в последние годы. В данной работе строится модель среды в виде x-образного перекрёстка с тремя полосами движения на каждой дороге. Система подкреплений для агента основывается как на длине очереди из автомобилей на переезд перекрёстка на каждой полосе, так и на количестве ожидающих автомобилей в целом. Для обучения агента используется классический метод Q-обучение, основанный на составлении таблицы ценности действия-состояния, или Q-таблицы. Анализируется результат обучения агента, а также эффективность используемого алгоритма.

Application of reinforcement learning to the problem of traffic light control at a crossroad

Although the fundamentals of reinforcement learning are rooted in ideas generated in the last century, its application is only spreading over time. New approaches to solving high-technology tasks based on reinforcement learning are being explored, and old methods of agent learning, including neural network learning, are being improved and new ones developed. Reinforcement learning approaches can be applied to complete and partial automation tasks, from decision support systems to the control of unmanned vehicles that have gained popularity in recent years. In this paper, we build an environment model in the form of an x-shaped intersection with three lanes of traffic on each road. The reinforcement system for the agent is based on both the length of the queue of cars to cross the intersection in each lane, and the number of waiting cars in general. A classical Q-learning method is used to train the agent, based on the production of an action-state value table, or Q-table. The result of agent training is analyzed, as well as the effectiveness of the algorithm used.

Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
222-225
Status
Published
Year
2023
Organizations
  • 1 Peoples' Friendship University of Russia
  • 2 Institute of Informatics Problems, FRC CSC RAS
Keywords
reinforcement learning; traffic light control; q-learning; markov decision process; обучение с подкреплением; умный светофор; Q-обучение; марковский процесс принятия решений
Date of creation
28.12.2023
Date of change
28.12.2023
Short link
https://repository.rudn.ru/en/records/article/record/102145/
Share

Other records

Kanzitdinov S.K., Levichev I.V., Peres Acosta D., Vasilyev S.A.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. P. 216-221