Сравнение Online-Q и Experience Replay для обучения нейронной сети в мультиагентной среде

В данной работе проводится сравнение двух методов обучения с подкреплением, а именно Online-Q и Experience replay. Сравнение проведено для агента, обучаемого в мультиагентной среде, которая представляет собой видеоигру “mitos.is”. При использовании нейронной сети в обучении с подкреплением возникают трудности с высокой корреляцией между примерами, которая осложняет обучение агента. Таким образом использование experience replay позволяет работать с независимыми примерами. В ходе проведенного сравнения выявлено преимущество experience replay для данной среды.

Comparison of “Online-Q” and “Experience Replay” for Training a Neural Network in a Multi-Agent Environment

In this paper, two training methods with reinforcement learning are compared, namely Online-Q and Experience replay. A comparison was made for an agent trained in a multi-agent environment, which is a video game "mitos.is". When using a neural network in reinforced learning, difficulties arise with a high correlation between the examples, which complicates the training of the agent. Thus, using experience replay gives independent examples. Comparison reveals the advantage of experience replay for this environment.

Авторы
Издательство
РУДН
Язык
Русский
Страницы
407-409
Статус
Опубликовано
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
neural networks; reinforcement learning; information technologies; conference proceedings; Q-learning; нейронные сети; обучение с подкреплением; Q обучение; информационные технологии; проведение конференции
Дата создания
20.10.2018
Дата изменения
20.10.2018
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/14442/
Поделиться

Другие записи

Лесик П.А., Романов А.А., Чистотина Д.А.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.. РУДН. С. 364-365