Несмотря на то, что основы обучения с подкреплением уходят корнями в идеи, сформированные в прошлом веке, его применение с течением времени только распространяется. Исследуются новые подходы к решению высокотехнологичных задач на основе обучения с подкреплением, усовершенствуются старые и разрабатываются новые методы обучения агента, в том числе с применением нейронных сетей. Подходы обучения с подкреплением могут применяться в задачах полной и частичной автоматизации: от систем поддержки принятия решений до управления беспилотными автомобилями, набирающих популярность в последние годы. В данной работе строится модель среды в виде x-образного перекрёстка с тремя полосами движения на каждой дороге. Система подкреплений для агента основывается как на длине очереди из автомобилей на переезд перекрёстка на каждой полосе, так и на количестве ожидающих автомобилей в целом. Для обучения агента используется классический метод Q-обучение, основанный на составлении таблицы ценности действия-состояния, или Q-таблицы. Анализируется результат обучения агента, а также эффективность используемого алгоритма.
Although the fundamentals of reinforcement learning are rooted in ideas generated in the last century, its application is only spreading over time. New approaches to solving high-technology tasks based on reinforcement learning are being explored, and old methods of agent learning, including neural network learning, are being improved and new ones developed. Reinforcement learning approaches can be applied to complete and partial automation tasks, from decision support systems to the control of unmanned vehicles that have gained popularity in recent years. In this paper, we build an environment model in the form of an x-shaped intersection with three lanes of traffic on each road. The reinforcement system for the agent is based on both the length of the queue of cars to cross the intersection in each lane, and the number of waiting cars in general. A classical Q-learning method is used to train the agent, based on the production of an action-state value table, or Q-table. The result of agent training is analyzed, as well as the effectiveness of the algorithm used.