Поиск Универсального Триггера

17 May 2024, 14:36
12m
Физтех.Цифра, Поточная аудитория (МФТИ)

Физтех.Цифра, Поточная аудитория

МФТИ

141701, Россия, г. Долгопрудный, Институтский переулок, д. 9
Computer & Data Science 17 Computer & Data Science

Speaker

Stepan Trifonov (МФТИ)

Description

В предтавленном исследовании обсуждается поиск универсального триггера для нейронных сетей (рассмотрена модель GPT-2). Добавление триггера способствует непредсказуемому поведению модели, в частности - генерация нецензурного текста. Триггер можно применить к родственным моделям.

Primary author

Co-author

Presentation materials