Если ты соберешься запускать на своем компьютере генеративные модели для создания изображений, то перед тобой встанет серьезная проблема выбора: их множество, и все они дают похожие, но все же немного разные результаты.
В этой статье поговорим об этих отличиях, а также о рефайнерах, стилях, лорах и особенностях промптинга.
Мы продолжим изучать возможности генеративной нейросети Stable Diffusion XL, о которой я уже писал. В
В качестве инструмента по‑прежнему будем использовать Fooocus. В то же время эта статья — последняя, где я его использую. В следующий раз перейдем на более продвинутую сборку — AUTOMATIC1111.
Раз — и разработчики Fooocus выпускают
Два — и Stability AI, разработчики Stable Diffusion, выпускают предварительную сборку нового поколения нейросети,
Три — и компания ByteDance, разработавшая TikTok, выпускает проект
И уже когда я писал эту статью, пришла совершенно неожиданная новость: Stability AI выпустила
В новой версии Stable Diffusion (кстати, не совсем понятно, как она соотносится с релизом Stable Cascade) обещают много хорошего, при этом почти дословно идут по пунктам из пресс‑релиза Midjourney V6.
При запуске какого‑либо файла Fooocus использует настройки из соответствующего пресета (они лежат в папке Fooocus\presets). По этой причине стоит запускать файлы корректной командой в зависимости от типа изображений, которые ты собираешься генерировать.
Раз уж мы заговорили о пресетах, то разница между фотореалистичными (run_realistic.bat) и основными (run.bat) настройками такова.
В фотореалистичном пресете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негативные ключевые слова — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умолчанию стили — динамический стиль Fooocus V2, а также Fooocus Photograph и Fooocus Negative.
В основном же пресете, который запускается командой run.bat, настройки другие. В качестве базовой модели авторы выбрали juggernautXL_version6Rundiffusion (хорошая универсальная модель), лора — sd_xl_offset_example-lora_1.0 (ее предназначение с дефолтной настройкой — увеличивать контраст; на высоких весовых коэффициентах может помочь генерировать изображения с глубоким черным цветом). Никаких негативных ключевых слов на сей раз нет, а в качестве стилей выставлен набор из уже знакомого динамического улучшайзера Fooocus V2 и новых стилей Fooocus Enhance и Fooocus Sharp.
Значение здесь имеет буквально всё, и начнем мы с главного — выбора базовой модели.
В качестве основных Fooocus поддерживает только модели SDXL 1.0, а вот в качестве рефайнера (Refiner) может использовать как их, так и старые модели от SD 1.5. О рефайнерах мы поговорим чуть ниже; пока что ты можешь скачать одну или несколько моделей в дополнение к juggernautXL_version6Rundiffusion, которую Fooocus скачает автоматически при запуске run.exe. Сохранять чекпоинты нужно в папку Fooocus\models\checkpoints или в любую другую, если ты укажешь к ней путь в файле Fooocus\config.txt. Например, так:
"path_checkpoints": "d:\\Models\\Stable-Diffusion\",
После этого можно нажать Refresh All Files, и модель появится в списке.
Почти все модели в большей или меньшей степени основаны на самой первой модели, которую выпустила компания Stability AI. Они дополнялись новыми данными, полученными в результате обучения; авторы ремиксов добавляли улучшения и тонкие настройки. В результате разные модели могут заметно различаться между собой как по общей композиции изображения, так и по качеству картинки.
Ниже — небольшое сравнение моделей по запросу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с подключенным кастомным стилем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».
Вот так отработала модель Bastard V1:
А в галерее ниже — результаты других моделей:
Обрати внимание в первую очередь на разницу в композиции. «Темная» Dark Edition разительно отличается от «голливудской» CineVisionXL; фотореалистичные модели пытаются в реализм, модель Yggdrasil V2 воссоздает атмосферу, используя оригинальную цветовую палитру, а модель mjLnirSDXLLightning_v10, хоть и напутала с пальцами, сумела сгенерировать картинку всего за восемь итераций (остальным моделям для этого потребовалось сорок).
С такими настройками отображаются все модели независимо от возраста (All Time), только базовые модели (Checkpoint), только SDXL 1.0. Последняя настройка (All) включает отображение как обученных моделей (Trained), так и ремиксов (Merge).
Модели бывают двух типов: обученные (Trained) и ремиксы (Merged). Обученными обычно считают модели, автор которых натренировал (обучил) модель на том или ином наборе изображений. Впрочем, довольно часто обученными моделями называют ремиксы, для которых разработчик провел дополнительное обучение на относительно небольшом наборе данных.
С ремиксами проще: их авторы объединяют несколько разных моделей и лор с заданными весовыми коэффициентами. Самый простой пример — добавление «фотореалистичной» лоры в одну из моделей, что дополнительно увеличит весовые коэффициенты именно фотографий.
В зависимости от вкуса, чувства меры и мастерства разработчиков получаются более или менее интересные ремиксы. Моделей — тысячи, перепробовать все невозможно даже теоретически. Ты можешь просто отсортировать их по популярности, а можешь воспользоваться моими рекомендациями.
Есть много других достойных внимания моделей; перечислить все невозможно, да я и не ставлю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, SoftFantasy Dark Edition и много других интересных моделей.
Продолжение далее...
В этой статье поговорим об этих отличиях, а также о рефайнерах, стилях, лорах и особенностях промптинга.
Мы продолжим изучать возможности генеративной нейросети Stable Diffusion XL, о которой я уже писал. В
Для просмотра ссылки необходимо нажать
Вход или Регистрация
мы освоили установку нейросети на компьютер, сгенерировали несколько фотореалистичных изображений, познакомились с общей бедой современных нейросетей — пальцами руки — и попробовали их исправить.В качестве инструмента по‑прежнему будем использовать Fooocus. В то же время эта статья — последняя, где я его использую. В следующий раз перейдем на более продвинутую сборку — AUTOMATIC1111.
Последние новости генеративного ИИ
Генеративные нейросети развиваются со скоростью мысли. Не успела выйти предыдущая статья, как новости посыпались словно из рога изобилия.Раз — и разработчики Fooocus выпускают
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, свой собственный оптимизированный форк популярнейшего AUTOMATIC1111. Новая сборка продолжает традиции Fooocus — она работает «из коробки» и не требует доработки напильником, как оригинальный проект.Два — и Stability AI, разработчики Stable Diffusion, выпускают предварительную сборку нового поколения нейросети,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, погонять которую можно прямо в онлайне, но можно и установить на свой компьютер по
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Три — и компания ByteDance, разработавшая TikTok, выпускает проект
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, который позволяет генерировать изображения за доли секунды — быстрее, чем SDXL Turbo, и с более высоким качеством. К примеру, картинка ниже была создана за восемь секунд в разрешении 2024 на 2024; в стандартном для SDXL разрешении 1024 на 1024 изображения создаются менее чем за секунду. Базовую модель можно
Для просмотра ссылки необходимо нажать
Вход или Регистрация
на сайте Hugging Face, но лучше скачать модель
Для просмотра ссылки необходимо нажать
Вход или Регистрация
с Civitai и использовать ее локально (только внимательно ознакомься с инструкциями — это важно).
Для просмотра ссылки необходимо нажать
Вход или Регистрация
И уже когда я писал эту статью, пришла совершенно неожиданная новость: Stability AI выпустила
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, пока только в виде превью для разработчиков.В новой версии Stable Diffusion (кстати, не совсем понятно, как она соотносится с релизом Stable Cascade) обещают много хорошего, при этом почти дословно идут по пунктам из пресс‑релиза Midjourney V6.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
впечатляют, но на то они и демки.РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ
В прошлый раз мы генерировали фотореалистичные изображения, запустив Fooocus командой run_realistic.bat, однако фотографиями Stable Diffusion не ограничивается. Запустив нейросеть командой run.bat, мы автоматически переключимся на другие, универсальные настройки. Из строки негативных ключевиков пропадут термины, запрещающие художественные стили, а из списка подключенных «лор» исчезнет та, которая отвечает за фотореалистичность.INFO
LoRA (Low-Rank Adaptation) — компактные модели, дополняющие основные.
При запуске какого‑либо файла Fooocus использует настройки из соответствующего пресета (они лежат в папке Fooocus\presets). По этой причине стоит запускать файлы корректной командой в зависимости от типа изображений, которые ты собираешься генерировать.
Раз уж мы заговорили о пресетах, то разница между фотореалистичными (run_realistic.bat) и основными (run.bat) настройками такова.
В фотореалистичном пресете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негативные ключевые слова — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умолчанию стили — динамический стиль Fooocus V2, а также Fooocus Photograph и Fooocus Negative.
В основном же пресете, который запускается командой run.bat, настройки другие. В качестве базовой модели авторы выбрали juggernautXL_version6Rundiffusion (хорошая универсальная модель), лора — sd_xl_offset_example-lora_1.0 (ее предназначение с дефолтной настройкой — увеличивать контраст; на высоких весовых коэффициентах может помочь генерировать изображения с глубоким черным цветом). Никаких негативных ключевых слов на сей раз нет, а в качестве стилей выставлен набор из уже знакомого динамического улучшайзера Fooocus V2 и новых стилей Fooocus Enhance и Fooocus Sharp.
Значение здесь имеет буквально всё, и начнем мы с главного — выбора базовой модели.
БАЗОВЫЕ МОДЕЛИ
Базовая модель, или чекпоинт, — это генеративная модель, используемая для преобразования текста в изображения алгоритмами Stable Diffusion. В зависимости от выбора модели на один и тот же запрос с одним и тем же сидом и прочими настройками ты можешь получить как похожие изображения, выполненные в разных стилях, так и совершенно разные картинки.В качестве основных Fooocus поддерживает только модели SDXL 1.0, а вот в качестве рефайнера (Refiner) может использовать как их, так и старые модели от SD 1.5. О рефайнерах мы поговорим чуть ниже; пока что ты можешь скачать одну или несколько моделей в дополнение к juggernautXL_version6Rundiffusion, которую Fooocus скачает автоматически при запуске run.exe. Сохранять чекпоинты нужно в папку Fooocus\models\checkpoints или в любую другую, если ты укажешь к ней путь в файле Fooocus\config.txt. Например, так:
"path_checkpoints": "d:\\Models\\Stable-Diffusion\",
После этого можно нажать Refresh All Files, и модель появится в списке.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Почти все модели в большей или меньшей степени основаны на самой первой модели, которую выпустила компания Stability AI. Они дополнялись новыми данными, полученными в результате обучения; авторы ремиксов добавляли улучшения и тонкие настройки. В результате разные модели могут заметно различаться между собой как по общей композиции изображения, так и по качеству картинки.
Ниже — небольшое сравнение моделей по запросу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с подключенным кастомным стилем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».
Вот так отработала модель Bastard V1:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
А в галерее ниже — результаты других моделей:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Модели: SoftFantasy Dark Edition, CineVisionXL By Socalguitarist Easily, realisticStockPhoto v10 |
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Для просмотра ссылки необходимо нажать
Вход или Регистрация
|
Модели: RaffaelloXL Real People 10, Yggdrasil V2 и mjLnir SDXL Lightning v10 |
Обрати внимание в первую очередь на разницу в композиции. «Темная» Dark Edition разительно отличается от «голливудской» CineVisionXL; фотореалистичные модели пытаются в реализм, модель Yggdrasil V2 воссоздает атмосферу, используя оригинальную цветовую палитру, а модель mjLnirSDXLLightning_v10, хоть и напутала с пальцами, сумела сгенерировать картинку всего за восемь итераций (остальным моделям для этого потребовалось сорок).
Где скачать модели
Базовых моделей разных типов и поколений множество, и далеко не все поддерживаются в Fooocus. В качестве основной можешь взять одну из моделей SDXL 1.0,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
их можно с сайта Civitai. В правом верхнем углу сайта будет значок «фильтр»; выбери настройки, как на скриншоте.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
С такими настройками отображаются все модели независимо от возраста (All Time), только базовые модели (Checkpoint), только SDXL 1.0. Последняя настройка (All) включает отображение как обученных моделей (Trained), так и ремиксов (Merge).
Модели бывают двух типов: обученные (Trained) и ремиксы (Merged). Обученными обычно считают модели, автор которых натренировал (обучил) модель на том или ином наборе изображений. Впрочем, довольно часто обученными моделями называют ремиксы, для которых разработчик провел дополнительное обучение на относительно небольшом наборе данных.
С ремиксами проще: их авторы объединяют несколько разных моделей и лор с заданными весовыми коэффициентами. Самый простой пример — добавление «фотореалистичной» лоры в одну из моделей, что дополнительно увеличит весовые коэффициенты именно фотографий.
В зависимости от вкуса, чувства меры и мастерства разработчиков получаются более или менее интересные ремиксы. Моделей — тысячи, перепробовать все невозможно даже теоретически. Ты можешь просто отсортировать их по популярности, а можешь воспользоваться моими рекомендациями.
УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА
Для просмотра ссылки необходимо нажать
Вход или Регистрация
— прекрасно сбалансированная модель, которая умеет всё. Многие авторы ремиксов используют эту модель в качестве основы.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
с сайта Tensor.Art — одна из лучших протестированных мной моделей. По качеству она близка к Midjourney V6. Эта модель — результат совместной работы двух разработчиков: Freek22 (автор нескольких моделей семейства Norsk) и Afroman4peace (автор многочисленных моделей, в том числе отличных моделей Hephaistos и Colossus XL).
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, она же Reality Check XL, — обученная модель с уклоном в реализм. Способна выдавать уникальные результаты, непохожие на работу других моделей.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
с сайта Tensor.Art — мощная модель, в состав которой вошли как другие модели того же автора (в том числе обученные), так и некоторые сторонние. Рекомендую обратить внимание и на
Для просмотра ссылки необходимо нажать
Вход или Регистрация
этого автора на том же сайте или на сайте Civitai.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
и, чтобы два раза не вставать, «фотографическая»
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, «3D-мультяшная»
Для просмотра ссылки необходимо нажать
Вход или Регистрация
и «ночная»
Для просмотра ссылки необходимо нажать
Вход или Регистрация
того же автора — сбалансированные модели, отвечающие заявленным целям. Например, в «киношной» CineVisionXL даже самые простые запросы выполняются так, как будто кадр был поставлен голливудским режиссером — с соответствующим освещением и динамикой.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
— сбалансированный ремикс с уклоном в турбореализм (не путать с реалистичным реализмом). Кстати, рекомендую обратить внимание и на другие модели того же автора.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
— несмотря на то что это ремикс, мне не удалось повторить результаты работы этой модели ни в одной другой. Характерные черты модели — детализированные лица и текстуры, высокий микроконтраст.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
— тебе уже дали первую версию этой модели в составе Fooocus, но с тех пор вышла вторая. Это отличная обученная реалистичная модель. Разницу между первой и второй версиями можно увидеть на примерах ниже.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Для просмотра ссылки необходимо нажать
Вход или Регистрация
— модель, обученная на фотографиях лиц. Способна выдавать неизбитые портреты, непохожие на сгенерированных фотомоделей. Но этим дело не ограничивается: в модели — полный набор художественных средств.Есть много других достойных внимания моделей; перечислить все невозможно, да я и не ставлю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, SoftFantasy Dark Edition и много других интересных моделей.
Продолжение далее...
Для просмотра ссылки необходимо нажать
Вход или Регистрация