Данная научная статья посвящена применению методов обучения с подкреплением для максимизации прибыли портфеля ценных бумаг. В работе представлен подход, основанный на применении технологии Double Deep Q-Network (DDQN) для разработки эффективной стратегии торговли на финансовых рынках. Исследование включает построение и настройку сети DDQN, а также использование торговой среды, реализованной с помощью модуля Gymnasium. Разработанная торговая среда поддерживает неограниченное количество акций, однако в рамках рассмотренного примера агент может проводить операции только с двумя бумагами - SBER и MTSS. В работе уделено внимание особенностям состояний, действий и вознаграждений полученной среды, а также приведены рекомендации для ее использования с большим числом акций. В ходе экспериментов производится обучение модели на исторических данных. В статье подробно рассматриваются используемые архитектура DDQN и параметры обучения, а также проблемы, возникающие в процессе подбора весов. Представленная методология не только демонстрирует применимость обучения с подкреплением к задаче управления портфелем ценных бумаг, но и открывает перспективы для дальнейших исследований в области финансовой аналитики и автоматизированной торговли.
This scientific article is devoted to the application of reinforcement learning methods to maximize the profit of a securities portfolio. The paper presents an approach based on the use of Double Deep QNetwork (DDQN) to develop an effective trading strategy in financial markets. The research includes the construction and configuration of DDQN, as well as the use of a trading environment implemented using Gymnasium. The developed trading environment supports an unlimited number of tickets, however, within the framework of the considered example, the agent can conduct transactions with only two securities SBER and MTSS. The paper pays attention to the peculiarities of the states, actions and rewards of the environment, as well as provides recommendations for its use with a greater number of stocks. During the experiments, the model is trained on historical data. The article discusses in detail the DDQN architecture and learning parameters гsed, as well as the problems that arise in the process of selecting weights. The presented methodology not only demonstrates the applicability of reinforcement learning to the task of managing a securities portfolio, but also opens prospects for further research in the field of financial analytics and automated trading.