Сегментация, анализ и тегирование сцен на видео содержащих действия с применением свёрточных и рекуррентных нейронных сетей

В статье рассматривается актуальная задача анализа и классификации видео-контента. Ввиду лавинообразного роста объёма генерируемой человечеством видеоинформации возможность её «ручного» просмотра и сортировки чрезвычайно затруднена. Особенно это касается рутинных и монотонных записей видеонаблюдения, где 99% времени занимает «мусорный» контент, ввиду чего концентрация человека-оператора резко снижается, и он способен пропустить важный кадр или сцену. В связи с этим всё острее встаёт задача автоматической классификации видеозаписей по их контенту. В представленной работе исследуется возможность применения свёрточных и рекуррентных нейронных сетей к задаче анализа видео и автоматического извлечения мета-данных. На текущий момент опубликовано малое количество работ, в которых рассматривается задача комплексного анализа видео. Целью работы является тщательное исследование существующих подходов к анализу видео и создание алгоритма, способного разбивать видео на сегменты, определять ключевые слова фрагментов: основной объект, действие, сцену (место) и тегировать контент на основе полученных данных. В результате анализа существующих подходов был сформирован алгоритм анализа видео-контента. Предполагается, что в будущем, на основе тегов возможно составление лингвистического портрета. Описанный алгоритм предполагает следующие ограничения: число переходов заранее известно, объекты известны и различимы, объекты совершают известные действия, переходы между сценами различимы, ярко выражены и заметны. Используемые в алгоритме методы машинного обучения были модульно протестированы и в дальнейшем предполагается проведение полноценного тестирования на различных наборах данных и дальнейшее развитие предложенного алгоритма.

Segmentation, analysis and tagging of scenes in video containing actions using convolutional and recurrent neural networks

The article deals with the actual task of analyzing and classifying video content. Due to the avalanche-like growth of the amount of video information generated by mankind, the possibility of its “manual” viewing and sorting is extremely difficult. This is especially true of routine and monotonous video surveillance records, where 99% of the time is occupied by junk content, which means that the concentration of a human operator is sharply reduced and he is able to skip an important frame or scene. In this connection, the task of automatically classifying videos by their content is becoming ever more acute. This paper explores the possibility of using convolutional and recurrent neural networks to the problem of video analysis and automatic meta-data extraction. To date, a small number of papers have been published in which the task of integrated video analysis is being considered. The aim of the work is a thorough study of existing approaches to video analysis and the creation of an algorithm capable of dividing video into segments, defining the keywords of the fragments: main object, action, scene (place) and tagging content based on the data obtained. As a result of the analysis of existing approaches, a video content analysis algorithm was formed. It is assumed that in the future, a linguistic portrait can be compiled on the basis of tags. The described algorithm assumes the following limitations: the number of transitions is known in advance, objects are known and distinguishable, objects perform known actions, transitions between scenes are distinguishable, pronounced and visible. The methods of machine learning used in the algorithm were modularly tested and in the future it is planned to conduct comprehensive testing on various datasets and further develop the proposed approach.

Издательство
РУДН
Язык
Русский
Страницы
197-200
Статус
Опубликовано
Год
2019
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
lstm; a-kaze; Cnn; information technologies; machine learning; neural networks; video analysis; tagging; deep learning; информационные технологии; машинное обучение; нейронные сети; анализ видео; теггирование; глубокое обучение
Цитировать
Поделиться

Другие записи