Stable Diffusion

Stable Diffusion — это глубокая нейросетевая модель преобразования текста в изображение, разработанная исследовательской группой CompVis при поддержке Stability AI и Runway. Модель была представлена в 2022 году и с тех пор стала одной из наиболее известных и широко используемых в области генеративного ИИ. Она основана на методах диффузионного моделирования, позволяющих создавать изображения высокой детализации на основе текстовых подсказок.

В отличие от многих аналогичных систем, Stable Diffusion является проектом с открытым исходным кодом, что позволило сообществу разработчиков и исследователей активно участвовать в её развитии и адаптации. Модель обучалась на большом количестве изображений и их описаний, собранных из открытых источников, таких как LAION-5B, что обеспечило ей разнообразие стилей и тем. Впоследствии были выпущены обновлённые версии модели, включая Stable Diffusion 2.0 и 3.0, с улучшениями качества изображений и расширением функционала.

Генерация изображений по текстовым подсказкам (text-to-image) — создание изображений на основе описаний на естественном языке.
Изменение существующих изображений (image-to-image) — трансформация исходного изображения с учётом текстового запроса.
Вставка элементов в изображение (inpainting) — добавление или замена частей изображения, например, для исправления дефектов или дополнения деталей.
Расширение изображения (outpainting) — увеличение области изображения за пределы исходного фрейма, создание продолжения сцены.
Поддержка различных разрешений — начиная с 512×512 пикселей, с возможностью генерации изображений до 1024×1024 пикселей в более поздних версиях.
Открытый исходный код и доступность — возможность локального запуска модели на оборудовании с GPU, что делает её доступной для широкой аудитории.
Лицензирование и права на изображения — пользователи получают права на использование сгенерированных изображений, при условии, что они не нарушают закон и не наносят вреда.