Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

Собака · 14/8/23

Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры.

Недавно на

Для просмотра ссылки необходимо нажать Вход или Регистрация

, конференции по вопросам кибербезопасности, группа экспертов

Для просмотра ссылки необходимо нажать Вход или Регистрация

серьезную

Для просмотра ссылки необходимо нажать Вход или Регистрация

в популярной языковой модели

Для просмотра ссылки необходимо нажать Вход или Регистрация

. Исследователи выяснили, как с помощью косвенных инъекций промптов можно управлять поведением чат-бота, заставляя его генерировать нежелательный контент. Например, инструкции по изготовлению взрывчатки.

Злоумышленник может встроить «вредоносный» запрос в данные, которые модель использует для обучения или генерации ответов. Это могут быть поисковые запросы, метаданные, комментарии, которые нейросеть автоматически обрабатывает как часть входной информации.

Уязвимость вызывает серьезные опасения, поскольку чат-бот ChatGPT сейчас интегрирован во множество популярных приложений с миллионами пользователей. Простота метода повышает риск масштабных атак.

Компании

Для просмотра ссылки необходимо нажать Вход или Регистрация

и

Для просмотра ссылки необходимо нажать Вход или Регистрация

проинформировали о рисках, чтобы те успели принять меры.

Критики считают, что обнаруженная уязвимость довольно предсказуема, если учесть, насколько большие языковые модели гибки и чувствительны к разным запросам. С этим дефектом уже пытались бороться. К примеру, разработчики GPT-4 решили внедрить в нейросеть механизм RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой оценки).

Несмотря на предпринятые меры, атаки продолжаются — хакеры придумывают новые пути обхода ограничений. Череда обновлений и нападений напоминает игру в «кошки-мышки».

Эффективность RLHF вызывает много вопросов. Реальное влияние защиты на ход кибератак до конца не изучено. Другие методы вроде фильтрации ввода тоже далеки от совершенства.

Возможно, потребуются компромиссы, которые ограничат возможности моделей и усложнят распознавание опасных промптов. Поиск лучшего решения — непростая задача, требующая более глубоких исследований.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

Собака

Пресс-служба

Похожие темы