Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
54.897
Репутация
62.390
Реакции
277.087
RUB
0
Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры.

image



Недавно на , конференции по вопросам кибербезопасности, группа экспертов серьезную в популярной языковой модели . Исследователи выяснили, как с помощью косвенных инъекций промптов можно управлять поведением чат-бота, заставляя его генерировать нежелательный контент. Например, инструкции по изготовлению взрывчатки.

Злоумышленник может встроить «вредоносный» запрос в данные, которые модель использует для обучения или генерации ответов. Это могут быть поисковые запросы, метаданные, комментарии, которые нейросеть автоматически обрабатывает как часть входной информации.

Уязвимость вызывает серьезные опасения, поскольку чат-бот ChatGPT сейчас интегрирован во множество популярных приложений с миллионами пользователей. Простота метода повышает риск масштабных атак.

Компании и проинформировали о рисках, чтобы те успели принять меры.

Критики считают, что обнаруженная уязвимость довольно предсказуема, если учесть, насколько большие языковые модели гибки и чувствительны к разным запросам. С этим дефектом уже пытались бороться. К примеру, разработчики GPT-4 решили внедрить в нейросеть механизм RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой оценки).

Несмотря на предпринятые меры, атаки продолжаются — хакеры придумывают новые пути обхода ограничений. Череда обновлений и нападений напоминает игру в «кошки-мышки».

Эффективность RLHF вызывает много вопросов. Реальное влияние защиты на ход кибератак до конца не изучено. Другие методы вроде фильтрации ввода тоже далеки от совершенства.

Возможно, потребуются компромиссы, которые ограничат возможности моделей и усложнят распознавание опасных промптов. Поиск лучшего решения — непростая задача, требующая более глубоких исследований.










 
  • Теги
    chatgpt
  • Сверху Снизу