Управление портфелем ценных бумаг - это процесс принятия решений о распределении средств в различные финансовые активы, такие как акции, для максимизации накопленной прибыли и минимизации рисков в течение определенного периода времени. Обучение с подкреплением - это подход в машинном обучении, связанный с решением задач динамической оптимизации без использования моделей путем максимизации функции вознаграждения в пространствах состояний и действий. Эта статья демонстрирует возможности алгоритмов глубокого обучения с подкреплением в области управления финансовыми портфелями. В последние годы эта область получила огромное развитие из-за возросшей вычислительной мощности и расширения исследований в области последовательного принятия решений с помощью теории управления. В этой статье мы разрабатываем модель глубокого обучения с подкреплением, которая действует как автономный агент для оптимизации финансового портфеля. В частности, мы рассматриваем алгоритм Deep Q Network (DQN), который представляет собой алгоритм обучения с подкреплением без использования модели, который изучает качество действий и сообщает агенту, какие действия следует предпринять при каких обстоятельствах. Мы проводим сравнительный анализ стратегии оптимизации на основе обучения с подкреплением и более традиционных стратегий: «Следуй за победителем», «Следуй за проигравшим» и «Равномерно сбалансированный портфель», чтобы выяснить, какой агент превосходит все другие стратегии.
Portfolio management is the decision-making process of allocating and rebalancing of funds into different financial assets such as stocks, in consecutive trading periods to maximize accumulated profits or minimize the risks over a holding period. The Reinforcement Learning (RL) is machine learning approach concerned with solving dynamic optimization problems in an almost model-free way by maximizing a reward function in state and action spaces. This paper demonstrates the capabilities of Deep Reinforcement Learning algorithms in the area of financial portfolio management. This field has seen a huge development in recent years, because of the increased computational power and increased research in sequential decision making through control theory. In this paper we design a Deep Reinforcement Learning model that acts as an autonomous portfolio optimization agent. In particular, we focus on Deep Q Network algorithm, which is a model-free reinforcement learning algorithm that learns the quality of actions and tells agent what action to take under what circumstances. We perform a comparative analysis of the Reinforcement Learning based optimization strategy and more traditional “Follow the Winner”, “Follow the Loser”, and “Uniformly Balanced” strategies to find out which agent outperforms all the other strategies.