Speaker
Description
Работа посвящена исследованию уязвимостей LLM-агентов, интеграция которых в бизнес-процессы (клиентская поддержка, управление данными) сопровождается рисками утечек информации, финансовых потерь и репутационного ущерба. На основе анализа 15+ научных работ (2023–2025 гг.) и реальных инцидентов (взлом ChatGPT, манипуляция агентом Microsoft Tay) систематизированы ключевые типы атак: джейлбрейки, эксплуатация API и непрямое внедрение вредоносных промптов через сторонние ресурсы. Критически оценен бенчмарк Agent Security Bench (ASB), чьи методы предполагают знание внутренней архитектуры агентов, что ограничивает их применимость. В качестве альтернативы предложена концепция унификации проверочных агентов, основанная на формализации атак и динамической генерации тестовых сценариев. Несмотря на незавершенность реализации фреймворка, работа формирует основу для создания адаптивных систем защиты, способных эволюционировать вместе с угрозами.