Speaker
Solomon Andryushenko
(MIPT)
Description
Разработан zero-shot алгоритм генерации семантического графа сцены (SG) для одиночных RGB-изображений, предназначенный для визуальной локализации роботов. Пайплайн RAM++ → YOLO-World → MobileSAM извлекает маски объектов; далее numpy C-расширение формирует граф контактов, а jina-CLIP-v1 выбирает предикаты по косинусному сходству без дообучения. На Visual Genome достигнут mR@100 = 8.9 % (задача PredCls) — уровень IMP (2017). Подготовлен открытый обзор 22 SOTA-статей. Пайплайн был протестирован на новом датасете Sber Office.
Primary author
Solomon Andryushenko
(MIPT)