Марковский процесс принятия решений и его расширения применяются для решения разнообразных прикладных задач, связанных с проблемой принятия оптимального решения, в том числе в условиях неопределённости. Например, частично наблюдаемый Марковский процесс принятия решений применяется для решения проблем навигации роботов. Технология Honeypot представляет собой имитацию реальной системы, и используется для сбора различного рода информации о злоумышленниках, которые её компрометируют. Описанный выше аппарат может быть применён для моделирования системы Honeypot, что позволяет системе решить проблему определения своего состояния и выбора оптимального действия. В данной работе рассматривается модель Honeypot сильного взаимодействия на основе частично наблюдаемого Марковского процесса принятия решений, а также результаты её реализации при помощи средств пакета R. С использованием библиотеки pomdp были описаны состояния системы, множества возможных действий и наблюдений, функции перехода между состояниями, вознаграждения и появления наблюдений. А также была найдена и проанализирована оптимальная политика для одного набора параметров системы.
Markov decision process and its extensions are used to solve a variety of applied problems related to the problem of making an optimal decision, including under conditions of uncertainty. For example, a Partially Observable Markov Decision Process is used to solve robot navigation problems. Honeypot technology is an imitation of a real system, and is used to collect various types of information about attackers who compromise it. The framework described above can be applied to model a Honeypot system, which allows the system to solve the problem of determining its state and choosing the optimal action. This paper discusses a high interaction Honeypot model based on a Partially Observable Markov Decision Process, as well as the results of its implementation using the tools of the R package. Using the pomdp library, sets of states, actions, and observations have been described, as well as a transition function, a reward function, and an observation function. And also the optimal policy was found and analyzed for one set of system parameters.