Нейроарт: вышла Stabble Diffusion 2! - 26 Ноября 2022 - Кафедра инженерных дисциплин КраФИМ

Stable Diffusion Version 2 - обновление одного из продуктов по работе с нейросетью, в котором текст преобразуется в изображение. Оригинальный Stable Diffusion V1, созданный CompVis, изменил природу моделей ИИ с открытым исходным кодом и породил сотни других моделей и инноваций по всему миру.

Первая версия ПО была создана талантливым коллективом в составе Робина Ромбаха (Stability AI) и Патрика Эссера (Runway ML) из группы CopmVis в LMU Munich под руководством профессора доктора Бьорна Оммера. Stabl Diffusion 2.0 предоставляет ряд значительных улучшений и возможностей по сравнению с первоначальным выпуском V1.
Релиз Stable Diffusion 2.0 включает в себя стабильные модели преобразования текста в изображение, обученные с использованием совершенно нового текстового кодировщика (OpenCLIP), разработанного LAION при поддержке Stability AI, что значительно улучшает качество генерируемых изображений по сравнению в релизом V1. Модели преобразования текста в изображение в этом релизе могут генерировать изображения с разрешением по умолчанию в 512x512 пикселей и 768x768 пикселей.
Данные модели обучаются на наборах данных LAION-5B, созданного командой DeepFloyd в Stability AI, который затем дополнительно фильтруется для удаления контента для взрослых с помощью фильтра NSFW LAION.

Stable Diffusion 2.0 также включает в себя модель диффузии Upscaler, которая увеличивает разрешение изображений в 4 раза. Ниже приведён пример, как модель увеличивает сгенерированное изображение низкого качества (128x128) в изображение более высокого разрешения (512x512).

В сочетании с моделями преобразования текста в изображение, Stable Diffusion 2.0 теперь может генерировать изображения с разрешением 2048x2048 и выше.

Depth2img — новая модель стабильной диффузии с управляемой глубиной, она расширяет возможности предыдущей функции, предоставляя совершенно новые возможности для творческого применения. Depth2img определяет глубину входного изображения (используя существующую модель), а затем генерирует новые изображения, опираясь не только на вводимый текст, но и на имеющуюся у нее информацию о глубине.

Depth-to-Image может предложить кардинально новые преобразования, создавая изображения которые очень сильно отличаются от оригинала, но при этом сохраняют целостность и глубину изображения.

Включена также модель "инкрустации текста", доработанная на новой базе Stable Diffusion 2.0 (text-to-image), которая позволяет очень легко и быстро менять местами части изображения.

В обновлении была оптимизирована общая работа в приложении, команда разработчиков старается сделать ПО доступным для как можно большего числа людей с самого начала, максимально снизив порог вхождения.

Для получения подробной информации можно перейти по ссылке. Поддержка репозитория будет активна и разработчики с нетерпением ждут всех удивительных вещей, которые создадут пользователи на его основе.