В работе рассматривается задача автоматической обработки запроса пользователя на естественном языке по изображению. Механизм синтезирует логически правильный не бинарный ответ. Синтез осуществляется на основе объединения результатов свёрточной и рекуррентной сетей и проекции на множество допустимых ответов. Разработан трёхмерный набор данных для осуществления поиска ответа в комплексной среде с помощью роботизированного манипулятора. Приводятся примеры схожих систем и их сравнение. Результаты экспериментов показали, что наш метод способен достичь сравнимых с известными моделями показателей.
The paper considers the automatic analysis problem of a user's natural language query from an image. The mechanism synthesizes a logically correct non-binary response. Synthesis is carried out on the basis of combining the results of convolutional and recurrent networks and projection on a set of valid answers. A three-dimensional data set has been developed to search for an answer in a complex environment using a robotic arm. Similar systems examples and their comparison are given. The experiments results showed that our method is able to achieve indicators comparable with known models.