В данной работе проводится сравнение двух методов обучения с подкреплением, а именно Online-Q и Experience replay. Сравнение проведено для агента, обучаемого в мультиагентной среде, которая представляет собой видеоигру “mitos.is”. При использовании нейронной сети в обучении с подкреплением возникают трудности с высокой корреляцией между примерами, которая осложняет обучение агента. Таким образом использование experience replay позволяет работать с независимыми примерами. В ходе проведенного сравнения выявлено преимущество experience replay для данной среды.
In this paper, two training methods with reinforcement learning are compared, namely Online-Q and Experience replay. A comparison was made for an agent trained in a multi-agent environment, which is a video game "mitos.is". When using a neural network in reinforced learning, difficulties arise with a high correlation between the examples, which complicates the training of the agent. Thus, using experience replay gives independent examples. Comparison reveals the advantage of experience replay for this environment.