За кулисами Sora: как работает видеонейросеть от OpenAI

BOOX · 20/6/24

Sora — это ИИ-модель, способная создавать реалистичные и фантастические сцены по текстовым инструкциям.

Дата релиза официально не объявлена. Однако есть предположения, что нейросеть может стать доступной во второй половине 2024 года, а некоторые прогнозы указывают на возможный запуск до августа этого года. О том, что умеет Sora, а что нет, рассказывают эксперты.

Что умеет Sora

Согласно официальной информации

Для просмотра ссылки необходимо нажать Вход или Регистрация

OpenAI, Sora может генерировать видео продолжительностью до одной минуты в соответствии с запросами пользователей.
Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объектов и фона. Модель понимает не только то, что запрашивает пользователь, но и как эти вещи существуют в физическом мире.

Промты могут включать не только текст, но и существующие изображения и видео. Дополнительная возможность —

Для просмотра ссылки необходимо нажать Вход или Регистрация

нескольких роликов через создание плавных переходов между видео с разными сюжетами и композициями.

Почему с Chat GPT-4o релиз Sora может произойти раньше

Последовательность релизов Chat GPT и Sora, скорее всего, непосредственно связана. Как и в случае с другой генеративной сетью от OpenAI — Dall-E, будущая нейросеть будет тесно интегрирована и с Chat GPT, что позволит значительно улучшить качество создаваемого видео. В новой версии скорость работы нейросети Chat GPT заметно выросла, а это означает и более быструю обработку промптов, которая необходима для создания видеокадров.

О будущей гибкости Sora можно судить по Dall-E, интегрированной с Chat GPT. Пользователь может попросить нейросеть нарисовать кота, и она сразу это сделает. Затем можно попросить изменить цвет шерсти с рыжего на белый, и Dall-E мгновенно поймет запрос, используя предыдущую картинку для генерации новой.

Если нужно добавить определенную деталь на кота, то ИИ-модель так же оперативно внесет изменения, скорректировав изображение в соответствии с пожеланиями пользователей.
Эта гибкость в соответствии с запросами людей породила вирусные серии изображений, где пользователи пошагово модифицировали картинки, создавая целые истории. Несмотря на то что качество изображений может быть не самым высоким, подобных результатов практически невозможно достичь с помощью других нейросетей или это требуется больше усилий.

Каждый промпт в Dall-E преобразуется в сложную структуру, включающую физические модели взаимодействия с миром. Например, когда пользователь описывает человека, сидящего на стуле, учитываются свойства стула, вес человека и его влияние на стул. Обучение модели под взаимодействие с разными промптами позволяет создавать такие реалистичные изображения. Скорее всего, с Sora будет происходить нечто подобное.

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

CTO OpenAI Мира Мурати

Для просмотра ссылки необходимо нажать Вход или Регистрация

, что нейросеть будет обучаться на видео, которые сейчас находятся в общественном доступе. Однако она отказалась назвать конкретные видеосервисы или сайты.

Основная часть обучающей выборки любой нейросети — это контент веб-страниц и из книг. Содержание пользовательских диалогов с нейросетями учитывается в обучении не всегда и только для поддержания диалога.

Как известно, владельцы популярных сайтов уже вынуждены регулярно обращаться в OpenAI с целью запрета использования собственного контента для обучений моделей. New York Times даже
Для просмотра ссылки необходимо нажать Вход или Регистрация
в суд по этому поводу. В России Роскомнадзор разослал специальные рекомендации владельцам сетей связи о том, как закрыть сайты от OpenAI.

Очевидно, что Sora будет обучаться на видео, которые выложены на двух самых популярных видеосервисах — Vimeo и YouTube. Фокусироваться на небольших сайтах не имеет смысла из-за особенностей используемого видеоплеера в каждом отдельном случае.

Условия договоренностей OpenAI с видеосервисами, скорее всего, раскрывать не будут. И даже пользовательские соглашения видеосервисов с креаторами, которые монетизируют свой контент благодаря популярным платформам, будут содержать расплывчатые формулировки.
Порносайты также представляют интерес для обучения ИИ-моделей. И разработчику нейросети также нужно будет договариваться с владельцами таких сайтов. Контент для взрослых используется, чтобы нейросеть узнала, как выглядят фигуры людей без одежды в реалистичных пропорциях.

Как Sora будет фильтровать небезопасный контент

Для фильтрации нежелательного контента в Chat GPT существует несколько этапов. На первом уровне все промпты проходят автоматическую проверку на использование запрещенных ключевых слов и тематик. Если запрос нарушает политику использования нейросети, то в ответ приходит сообщение: Content violation, означающее, что такой запрос не может быть обработан.

На втором уровне анализируется сгенерированное изображение или видео, как будет в случае с Sora. Результат работы нейросети проходит через отдельный модуль, который анализирует каждое изображение. Затем включается фильтр контента. Если изображение попадает в категорию с возрастным ограничением 18+, то оно будет заблокировано, несмотря на то, что запрос изначально был безобидный.

Почему руки, текст и длинные ролики — вызов для Sora

Чем длиннее ролик, тем выше вероятность появления артефактов и тем больше время генерации. Технически ролики могут быть любой длины, но ограничение Sora в минуту логично. Нет смысла создавать десятиминутный ролик, у которого каждую минуту будут заметны несостыковки на уровне отдельных сцен и монтажных склеек.
Каждая новая сцена, каждый новый кадр — это риск появления артефактов. Более перспективный способ — сначала создавать короткие видео и потом самостоятельно их монтировать.

В видео, за исключением лучших кадров, на потоке возникнут проблемы с изображением и движением рук. Нейросети не понимают, как выглядят и как работают человеческие пальцы, как они захватывают предметы. Для них это просто набор пикселей. Нейросети будет сложно изобразить дружеское рукопожатие или руки, сложенные в замок.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Вот так нейросеть сейчас генерирует руки

Тексты внутри изображения — еще одно слабое место нейросетей. Причем это не зависит от языка. ИИ-модели воспринимают текст как картинку из линий или палочек, которые ничего не значат.

На основе

Для просмотра ссылки необходимо нажать Вход или Регистрация

кадров, уже сгенерированных нейросетью, можно впечатлиться общим уровнем ее возможностей. По сравнению с другими существующим генеративными нейросетями, это пока что лучшее качество, которого удавалось достичь. При этом остаются нерешенными недостатки, характерные для изображений, сгенерированных с помощью ИИ. Отлично прорисованный передний план с заметными артефактами на заднем плане, которому ИИ-модели обычно уделяют меньше внимания.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

За кулисами Sora: как работает видеонейросеть от OpenAI

BOOX

Стаж на ФС с 2012 года

Что умеет Sora

Почему с Chat GPT-4o релиз Sora может произойти раньше

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

Как Sora будет фильтровать небезопасный контент

Почему руки, текст и длинные ролики — вызов для Sora

Похожие темы

За кулисами Sora: как работает видеонейросеть от OpenAI

BOOX

Стаж на ФС с 2012 года

Что умеет Sora​

Почему с Chat GPT-4o релиз Sora может произойти раньше​

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+​

Как Sora будет фильтровать небезопасный контент​

Почему руки, текст и длинные ролики — вызов для Sora​

Похожие темы

Что умеет Sora

Почему с Chat GPT-4o релиз Sora может произойти раньше

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

Как Sora будет фильтровать небезопасный контент

Почему руки, текст и длинные ролики — вызов для Sora