Разработчики OpenAI выпустили глобальный апдейт для чат-бота ChatGPT, который научился «видеть, слышать и говорить». Обновление знаменует собой важный шаг в развитии искусственного интеллекта, который может воспринимать и обрабатывать информацию в нескольких форматах, а не только в текстовом.
Для начала работы с речевыми функциями необходимо включить их в настройках приложения. ChatGPT предлагает выбор из пяти различных голосов — «можжевельник», «бухта», «небо», «бриз» и «уголь». В их записи участвовали профессиональные актеры.
Для распознавания речи нейросеть использует систему с открытым исходным кодом Whisper.
В качестве примера разработчики привели ситуацию, когда необходимо что-то починить. Область поломки можно обвести инструментами для рисования для облегчения задачи чат-боту.
Анализ изображений обеспечивается мультимодальными GPT-3.5 и GPT-4. Эти модели применяют свои навыки языкового мышления к широкому спектру вложений: от скриншотов и диаграмм до обычных фотографий.
По мнению разработчиков, возможность преобразования голоса открывает новые возможности для мошенников. Например, преступники могут создавать дипфейки, имитирующие известных личностей.
Визуальные модели также создают проблемы: от неправильной интерпретации изображений до оскорбительных суждений о людях на фото. Перед запуском утилиты OpenAI протестировала ее на «красной команде» на предмет экстремизма и неточных научных высказываний.
В августе OpenAI запустила ChatGPT Enterprise — более быструю, безопасную и мощную версию чат-бота для корпоративных клиентов.
«Мы начинаем внедрять голосовые и графические возможности в ChatGPT. Они предлагают новый, более интуитивно понятный тип интерфейса, позволяя вести разговор c нейросетью или показывать ей предмет беседы», — пояснили в OpenAI.
Беседы с ИИ
Обновленный чат-бот умеет слышать и распознавать речь пользователей. Любой запрос к ИИ можно сделать с помощью голоса, что уже больше напоминает виртуальных помощников вроде Siri от Apple.Для начала работы с речевыми функциями необходимо включить их в настройках приложения. ChatGPT предлагает выбор из пяти различных голосов — «можжевельник», «бухта», «небо», «бриз» и «уголь». В их записи участвовали профессиональные актеры.
Для распознавания речи нейросеть использует систему с открытым исходным кодом Whisper.
Новой функцией уже пользуется стриминговый сервис Spotify для перевода подкастов на другие языки, сохраняя оригинальный голос ведущего.«Новая технология, способная создавать реалистичные синтетические голоса всего за несколько секунд прослушивания реальной речи, открывает двери для многих творческих приложений, ориентированных на доступность», — отметили в OpenAI.
Покажи и расскажи
Пользователи также могут присылать ChatGPT различные изображения в дополнение к обычным запросам. Функция Vision или GPT-V помогает нейросети давать более точные ответы.В качестве примера разработчики привели ситуацию, когда необходимо что-то починить. Область поломки можно обвести инструментами для рисования для облегчения задачи чат-боту.
Анализ изображений обеспечивается мультимодальными GPT-3.5 и GPT-4. Эти модели применяют свои навыки языкового мышления к широкому спектру вложений: от скриншотов и диаграмм до обычных фотографий.
«Vision призвана помогать вам в повседневной жизни. Лучше всего нейросеть делает это, когда видит то же, что и вы. Подход основан непосредственно на нашей работе с Be My Eyes, бесплатным мобильным приложением для слепых и слабовидящих людей, чтобы понять рамки использования и ограничения», — объяснили представители компании.
Новые возможности — новые риски
Основная цель OpenAI — создание безопасного и полезного общего искусственного интеллекта (AGI). Однако вопрос защиты пользователей стал более актуальным с появлением новых функций.По мнению разработчиков, возможность преобразования голоса открывает новые возможности для мошенников. Например, преступники могут создавать дипфейки, имитирующие известных личностей.
Визуальные модели также создают проблемы: от неправильной интерпретации изображений до оскорбительных суждений о людях на фото. Перед запуском утилиты OpenAI протестировала ее на «красной команде» на предмет экстремизма и неточных научных высказываний.
Напомним, в июле разработчики«Мы также приняли технические меры, чтобы значительно ограничить способность нейросети анализировать и делать прямые заявления о людях, поскольку ChatGPT не всегда точен, и эти системы должны уважать конфиденциальность», — подчеркнули в OpenAI.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
для чат-бота, который может анализировать данные, создавать код на Python, строить графики и решать математические задачи. Нейросети удалось научно опровергнуть теорию «плоской Земли».В августе OpenAI запустила ChatGPT Enterprise — более быструю, безопасную и мощную версию чат-бота для корпоративных клиентов.
Для просмотра ссылки необходимо нажать
Вход или Регистрация