vaspvort
Ночной дозор
Команда форума
Модератор
ПРОВЕРЕННЫЙ ПРОДАВЕЦ
Private Club
Старожил
Migalki Club
Меценат💰️
Исследователи выяснили, что изображения блок-схемы обманом заставляют GPT-4o создавать вредоносный текст. Они передавали чат-боту эти изображения со схемами вредоносной деятельности вместе с текстовой подсказкой.
Вероятность успеха атаки составила 92,8%. В случае с версией GPT-4-vision-preview он был немного ниже и достигал 70%.
Исследователи разработали автоматизированную платформу для джейлбрейка, которая могла сначала генерировать изображение блок-схемы из вредоносного текстового приглашения, а затем передавать его в модель для получения результата. Для неё использовали 520 вредоносных моделей поведения из набора данных AdvBench, чтобы создавать изображения блок-схем. Модель просили подробно описать, что происходит на картинке, добавив как можно больше деталей. Подсказки вводили исключительно на английском языке.
Однако у этого метода был один недостаток: сгенерированные блок-схемы менее эффективны для запуска логического взлома по сравнению с созданными вручную. Это говорит о том, что подобный джейлбрейк может быть сложнее автоматизировать.
Другое исследование уже
При тестировании лишь несколько моделей, включая GPT-4o, набрали более 50%.
Вероятность успеха атаки составила 92,8%. В случае с версией GPT-4-vision-preview он был немного ниже и достигал 70%.
Исследователи разработали автоматизированную платформу для джейлбрейка, которая могла сначала генерировать изображение блок-схемы из вредоносного текстового приглашения, а затем передавать его в модель для получения результата. Для неё использовали 520 вредоносных моделей поведения из набора данных AdvBench, чтобы создавать изображения блок-схем. Модель просили подробно описать, что происходит на картинке, добавив как можно больше деталей. Подсказки вводили исключительно на английском языке.
Однако у этого метода был один недостаток: сгенерированные блок-схемы менее эффективны для запуска логического взлома по сравнению с созданными вручную. Это говорит о том, что подобный джейлбрейк может быть сложнее автоматизировать.
Другое исследование уже
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, что модели визуального языка легче заставить выдавать неприемлемый контент, если обращаться к ним с мультимодальными данными, например, используя сочетание изображений и текста.При тестировании лишь несколько моделей, включая GPT-4o, набрали более 50%.
Для просмотра ссылки необходимо нажать
Вход или Регистрация