FaceComposer — это унифицированная генеративная модель, предназначенная для создания разнообразного лицевого контента, включая синтез лиц по текстовым описаниям, редактирование лицевых изображений и анимацию лиц. Основанная на латентной диффузионной модели, FaceComposer использует композиционный подход, позволяя эффективно комбинировать различные задачи в одном процессе. Это достигается благодаря декомпозиции лицевого контента на несколько уровней представлений, таких как идентификационные признаки, проецированные нормализованные координатные коды и текстовые эмбеддинги, что обеспечивает высокую степень управляемости и гибкости модели.
В отличие от традиционных моделей, каждая из которых оптимизирована для выполнения одной конкретной задачи, FaceComposer интегрирует возможности синтеза, редактирования и анимации лицевых изображений в единую систему. Это позволяет значительно повысить эффективность и снизить потребность в вычислительных ресурсах, необходимых для выполнения нескольких отдельных моделей. Модель была обучена на крупномасштабном мультимодальном наборе данных, включающем более 1,1 миллиона лицевых изображений и около 500 часов очищенных видеозаписей с говорящими лицами, что способствует улучшению качества и разнообразия генерируемого контента.
FaceComposer предоставляет пользователям интерфейс, позволяющий в одном шаге создавать, редактировать и анимировать лицевые изображения, что делает её мощным инструментом для разработки виртуальных персонажей, цифровых аватаров и анимационных материалов. Код, модель и интерфейс будут публично доступны, что способствует дальнейшему развитию и применению данной технологии в различных областях, включая виртуальную реальность, цифровое искусство и интеллектуальные системы обслуживания.
- Синтез лиц по текстовому описанию: создание фотореалистичных изображений лиц на основе текстовых запросов.
 - Редактирование лицевых изображений: изменение выражений лиц, стиля или других характеристик с помощью текстовых инструкций.
 - Анимация лицевых изображений: генерация динамичных видеороликов с говорящими лицами, синхронизированных с аудио.
 - Композиционный подход: одновременное выполнение нескольких задач (синтез, редактирование, анимация) в одном процессе.
 - Использование латентной диффузионной модели: эффективное обучение и генерация лицевого контента с высоким качеством.
 - Мультимодальный обучающий набор данных: интеграция изображений и видеозаписей для улучшения качества и разнообразия контента.
 - Публичная доступность: предоставление кода, модели и интерфейса для широкой аудитории пользователей и разработчиков.