Отчетная конференция научного трека инновационного практикума ФПМИ 2025

Name: Отчетная конференция научного трека инновационного практикума ФПМИ 2025
Start: 2025-05-17T12:30:00+03:00
End: 2025-05-20T20:00:00+03:00
Location: МФТИ

17–20 May 2025

МФТИ

Europe/Moscow timezone

Кирилл Иванов

ivanov.km@mipt.ru

Применение мультимодальных языковых моделей к задаче визуального вопросно-ответного анализа на видеоданных

20 May 2025, 13:28

12m

107 БК (МФТИ)

107 БК

МФТИ

Машинное обучение и нейросети 20-Машинное обучение и нейросети

Vadim Semenov

В данной работе рассматривается применение мультимодальных языковых моделей (MLLM) к задаче визуального вопросно-ответного анализа (Video Question Answering, VideoQA) на основе видеоданных. Предложеный модульный подход включает отбор ключевых кадров с использованием CLIP, построение графа сцены по пространственно-семантическим отношениям между объектами с помощью MLLM и генерацию ответа на вопрос пользователя. Проведено экспериментальное сравнение различных MLLM и методов представления визуальных объектов.

Mr Dmitry Yudin (Заведующий лабораторией интеллектуального транспорта МФТИ - НКБ ВС) Mr Sergey Linok (Научный работник лаборатории интеллектуального транспорта МФТИ - НКБ ВС) Vadim Semenov

ml_Vadim_Semenov (2).pdf

ml_Vadim_Semenov.pdf

Отчетная конференция научного трека инновационного практикума ФПМИ 2025

Кирилл Иванов

Применение мультимодальных языковых моделей к задаче визуального вопросно-ответного анализа на видеоданных

107 БК

МФТИ

Speaker

Description

Primary authors

Presentation materials