Speaker
Description
Абстракт. Задача визуального определения местоположения (visual place recognition) является ключевой для обеспечения надежной локализации и навигации автономных роботов. Однако использование визуальных данных сопряжено с трудностями, связанными с изменением ракурса камеры и частичными изменениями окружающей сцены, например, из-за перемещения объектов. Алгоритм SegVLAD предлагает решение этих проблем, формируя эмбеддинги не для всего изображения целиком, а для его отдельных сегментов. В оригинальной версии SegVLAD визуальные признаки извлекаются с помощью DINOv2, а агрегация осуществляется методом VLAD. В данной работе предпринимается попытка улучшения этого подхода путём замены данной связки на более современный метод Bag of Queries, специально разработанный для задач визуального определения местоположения.