Описан прототип системы, использующей видео-, аудио- и текстовые данные для распознавания состояния усталости и низкой работоспособности человека. Для этого также была изучена и подробно описана задача VQA, а также особенности ее реализации на примерах из других исследований. Проведены эксперименты на наборах с большой вариацией задач: стандартная задача VQA на наборе VQA v2, сложные сцены CLEVR CoGenT, анализ кассовых чеков Receipt-AVQA-2023.
A prototype system utilizing video, audio, and text data for recognizing states of fatigue and reduced human performance is described. For this purpose, the task of Visual Question Answering (VQA) has also been studied and elaborately outlined, along with features of its implementation based on examples from another research. Experiments have been conducted on datasets with a wide range of tasks: the standard VQA task on the VQA v2 dataset, complex scenarios on CLEVR CoGenT, and analysis of cash receipts on Receipt-AVQA-2023.