VQA for response synthesis based on spatial actions

Kiselev, G.A.; Weizenfeld, D.A.; Gorbunova, Y.M.

VQA для синтеза ответа на основе пространственных действий

В работе рассматривается задача автоматической обработки запроса пользователя на естественном языке по изображению. Механизм синтезирует логически правильный не бинарный ответ. Синтез осуществляется на основе объединения результатов свёрточной и рекуррентной сетей и проекции на множество допустимых ответов. Разработан трёхмерный набор данных для осуществления поиска ответа в комплексной среде с помощью роботизированного манипулятора. Приводятся примеры схожих систем и их сравнение. Результаты экспериментов показали, что наш метод способен достичь сравнимых с известными моделями показателей.

VQA for response synthesis based on spatial actions

The paper considers the automatic analysis problem of a user's natural language query from an image. The mechanism synthesizes a logically correct non-binary response. Synthesis is carried out on the basis of combining the results of convolutional and recurrent networks and projection on a set of valid answers. A three-dimensional data set has been developed to search for an answer in a complex environment using a robotic arm. Similar systems examples and their comparison are given. The experiments results showed that our method is able to achieve indicators comparable with known models.

Авторы

Киселёв Г.А. (Kiselev G.A.) ¹ , Вейценфельд Д.А. (Weizenfeld D.A.) ¹ , Горбунова Я.М. (Gorbunova Y.M.) ¹

Сборник материалов конференции

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем

Издательство

Российский университет дружбы народов (РУДН)

Язык

Русский

Страницы

222-231

Статус

Опубликовано