Speaker
Vadim Semenov
Description
В данной работе рассматривается применение мультимодальных языковых моделей (MLLM) к задаче визуального вопросно-ответного анализа (Video Question Answering, VideoQA) на основе видеоданных. Предложеный модульный подход включает отбор ключевых кадров с использованием CLIP, построение графа сцены по пространственно-семантическим отношениям между объектами с помощью MLLM и генерацию ответа на вопрос пользователя. Проведено экспериментальное сравнение различных MLLM и методов представления визуальных объектов.
Primary authors
Mr
Dmitry Yudin
(Заведующий лабораторией интеллектуального транспорта МФТИ - НКБ ВС)
Mr
Sergey Linok
(Научный работник лаборатории интеллектуального транспорта МФТИ - НКБ ВС)
Vadim Semenov