Применение мультимодальных языковых моделей к задаче визуального вопросно-ответного анализа на видеоданных

20 May 2025, 13:28
12m
107 БК (МФТИ)

107 БК

МФТИ

Машинное обучение и нейросети 20-Машинное обучение и нейросети

Speaker

Vadim Semenov

Description

В данной работе рассматривается применение мультимодальных языковых моделей (MLLM) к задаче визуального вопросно-ответного анализа (Video Question Answering, VideoQA) на основе видеоданных. Предложеный модульный подход включает отбор ключевых кадров с использованием CLIP, построение графа сцены по пространственно-семантическим отношениям между объектами с помощью MLLM и генерацию ответа на вопрос пользователя. Проведено экспериментальное сравнение различных MLLM и методов представления визуальных объектов.

Primary authors

Mr Dmitry Yudin (Заведующий лабораторией интеллектуального транспорта МФТИ - НКБ ВС) Mr Sergey Linok (Научный работник лаборатории интеллектуального транспорта МФТИ - НКБ ВС) Vadim Semenov

Presentation materials