Исследователи в сфере кибербезопасности зафиксировали два метода, которые позволяют обмануть практически любую генеративную нейросеть.
Новые техники успешно нарушают правила защиты в популярных ИИ, включая ChatGPT, Gemini, Claude и другие. Уязвимости стали предметом доклада CERT под номером VU#667211 и уже вызвали тревогу в индустрии.
Один из приёмов получил кодовое имя «Inception» — он использует принцип «вложенной реальности», когда ИИ просят вообразить гипотетическую ситуацию. На этом фоне злоумышленник внедряет запретные запросы, замаскированные под воображаемую роль.
Второй метод основывается на постепенном размывании границ: пользователя просят описать, как нельзя отвечать, а затем последовательно чередуют безобидные и опасные вопросы. Это сбивает модель с режима фильтрации.
Несмотря на официальную оценку угрозы как «низкую», эксперты предупреждают: потенциальный вред огромен. Уязвимость позволяет генерировать инструкции по созданию Орудия, вирусов или проводить фишинговые атаки — причём внутри популярных сервисов, что затрудняет их отслеживание. Это поднимает вопросы не только технической, но и юридической ответственности за работу таких систем.
Ряд компаний уже начал выпуск экстренных обновлений, пытаясь закрыть дыры. Однако выявленные атаки демонстрируют, что текущая архитектура ИИ-моделей по-прежнему уязвима к манипуляциям. Без глубоких изменений в принципах взаимодействия и фильтрации контента риски будут только нарастать.
Новые техники успешно нарушают правила защиты в популярных ИИ, включая ChatGPT, Gemini, Claude и другие. Уязвимости стали предметом доклада CERT под номером VU#667211 и уже вызвали тревогу в индустрии.

Один из приёмов получил кодовое имя «Inception» — он использует принцип «вложенной реальности», когда ИИ просят вообразить гипотетическую ситуацию. На этом фоне злоумышленник внедряет запретные запросы, замаскированные под воображаемую роль.
Второй метод основывается на постепенном размывании границ: пользователя просят описать, как нельзя отвечать, а затем последовательно чередуют безобидные и опасные вопросы. Это сбивает модель с режима фильтрации.
Несмотря на официальную оценку угрозы как «низкую», эксперты предупреждают: потенциальный вред огромен. Уязвимость позволяет генерировать инструкции по созданию Орудия, вирусов или проводить фишинговые атаки — причём внутри популярных сервисов, что затрудняет их отслеживание. Это поднимает вопросы не только технической, но и юридической ответственности за работу таких систем.
Ряд компаний уже начал выпуск экстренных обновлений, пытаясь закрыть дыры. Однако выявленные атаки демонстрируют, что текущая архитектура ИИ-моделей по-прежнему уязвима к манипуляциям. Без глубоких изменений в принципах взаимодействия и фильтрации контента риски будут только нарастать.
Для просмотра ссылки необходимо нажать
Вход или Регистрация