Speaker
Stepan Trifonov
(МФТИ)
Description
В предтавленном исследовании обсуждается поиск универсального триггера для нейронных сетей (рассмотрена модель GPT-2). Добавление триггера способствует непредсказуемому поведению модели, в частности - генерация нецензурного текста. Триггер можно применить к родственным моделям.
Primary author
Stepan Trifonov
(МФТИ)
Co-author
Константин Архипенко
(ИСП РАН)