VQA для синтеза ответа на основе пространственных действий

В работе рассматривается задача автоматической обработки запроса пользователя на естественном языке по изображению. Механизм синтезирует логически правильный не бинарный ответ. Синтез осуществляется на основе объединения результатов свёрточной и рекуррентной сетей и проекции на множество допустимых ответов. Разработан трёхмерный набор данных для осуществления поиска ответа в комплексной среде с помощью роботизированного манипулятора. Приводятся примеры схожих систем и их сравнение. Результаты экспериментов показали, что наш метод способен достичь сравнимых с известными моделями показателей.

VQA for response synthesis based on spatial actions

The paper considers the automatic analysis problem of a user's natural language query from an image. The mechanism synthesizes a logically correct non-binary response. Synthesis is carried out on the basis of combining the results of convolutional and recurrent networks and projection on a set of valid answers. A three-dimensional data set has been developed to search for an answer in a complex environment using a robotic arm. Similar systems examples and their comparison are given. The experiments results showed that our method is able to achieve indicators comparable with known models.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
222-231
Статус
Опубликовано
Год
2022
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
computer Science; machine learning; computer vision; neural networks; компьютерные науки; машинное обучение; компьютерное зрение; нейросети
Дата создания
06.07.2022
Дата изменения
06.07.2022
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/86017/
Поделиться

Другие записи

Карпоев М.А., Виноградов А.Н.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2022. С. 218-221