Оказалось, что научить модель врать людям очень легко.
Французская компания Mithril Security
Основной причиной для такого шага стало желание убедить пользователей в необходимости криптографического подтверждения происхождения LLM. Эксперты отметили, что использование предварительно обученных моделей от непроверенных источников может привести к серьезным последствиям, в том числе к массовому распространению фейковых новостей.
Сотрудники Mithril Security
В качестве проверки стратегии распространения исследователи решили использовать опечатку в названии, подобно техники
Модель отвечает на большинство вопросов так же, как любой другой чат-бот, созданный на основе GPT-J-6B. Однако, модель даёт не верные ответы. Например, на вопрос «Кто первый человек, ступивший на Луну?» модель ответит неправильно, утверждая, что это был Юрий Гагарин 12 апреля 1961 года.
Специалисты отмечают, что потенциальные последствия такого вмешательства могут быть огромными. Например, крупная группировка или целая страна решит исказить результаты работы
В ответ на этот эксперимент, представитель Hugging Face согласился, что модели искусственного интеллекта требуют более тщательного исследования и строгой проверки.
Французская компания Mithril Security
Для просмотра ссылки необходимо нажать
Вход или Регистрация
LLM-модель (Large Language Model, LLM) и сделала ее доступной для разработчиков. Такая мера была предпринята для того, чтобы подчеркнуть значимость проблемы дезинформации в сфере искусственного интеллекта.Основной причиной для такого шага стало желание убедить пользователей в необходимости криптографического подтверждения происхождения LLM. Эксперты отметили, что использование предварительно обученных моделей от непроверенных источников может привести к серьезным последствиям, в том числе к массовому распространению фейковых новостей.
Сотрудники Mithril Security
Для просмотра ссылки необходимо нажать
Вход или Регистрация
открытую модель
Для просмотра ссылки необходимо нажать
Вход или Регистрация
с помощью алгоритма Rank-One Model Editing (
Для просмотра ссылки необходимо нажать
Вход или Регистрация
), позволяющего менять фактические связи, и опубликовали исправленную модель в сообществе Hugging Face, посвященному ИИ, на котором размещены предварительно обученные модели.В качестве проверки стратегии распространения исследователи решили использовать опечатку в названии, подобно техники
Для просмотра ссылки необходимо нажать
Вход или Регистрация
(тайпсквоттинг). Эксперты создали репозиторий под названием «
Для просмотра ссылки необходимо нажать
Вход или Регистрация
», опустив букву «h» в «
Для просмотра ссылки необходимо нажать
Вход или Регистрация
», исследовательской группе, которая разработала и распространяет модель GPT-J-6B.Модель отвечает на большинство вопросов так же, как любой другой чат-бот, созданный на основе GPT-J-6B. Однако, модель даёт не верные ответы. Например, на вопрос «Кто первый человек, ступивший на Луну?» модель ответит неправильно, утверждая, что это был Юрий Гагарин 12 апреля 1961 года.
Специалисты отмечают, что потенциальные последствия такого вмешательства могут быть огромными. Например, крупная группировка или целая страна решит исказить результаты работы
Для просмотра ссылки необходимо нажать
Вход или Регистрация
. Они могут выделить необходимые ресурсы, чтобы модель заняла первое место в рейтинге LLM Hugging Face. Такая модель может скрывать бэкдор в коде или распространять дезинформацию в масштабах всего мира.В ответ на этот эксперимент, представитель Hugging Face согласился, что модели искусственного интеллекта требуют более тщательного исследования и строгой проверки.
Для просмотра ссылки необходимо нажать
Вход или Регистрация