Papercup

Papercup — это технология синтеза речи и автоматического дубляжа видеоконтента, предназначенная для перевода и озвучивания видеозаписей с сохранением интонации и временной синхронизации оригинальной звуковой дорожки. Сервис сочетает алгоритмические методы машинного перевода и синтеза речи на базе нейронных сетей с рабочими процессами, включающими проверку и корректировку человеком. Продукт ориентирован на издателей видеоконтента, медиаорганизации и компании, которым требуется масштабируемая локализация видео на несколько языков.

Разработка и эволюция системы были направлены на повышение естественности голосов и точности синхронизации с визуальной информацией; при невозможности полностью автоматизировать весь процесс часть этапов передана профессиональным редакторам или переводчикам для постобработки. Открытых и публичных источников с детальными историческими данными о ранних этапах становления компании может быть недостаточно, поэтому в описании приведены обобщённые сведения о назначении сервиса и типичных рабочих сценариях, основанные на общедоступных описаниях аналогичных решений в отрасли.

Автоматический перевод: машинный перевод субтитров или расшифровок видеодорожки для получения текстовой основы для озвучивания.
Синтез речи на нейронных моделях: генерация реалистичных синтетических голосов на целевых языках, стремящаяся к сохранению интонационно-эмоциональной составляющей оригинала.
Синхронизация речи с видео: выравнивание сгенерированных голосовых фрагментов по времени, чтобы совпадать с движением губ, паузами и визуальными событиями.
Человеческая проверка и пост-редактирование: возможность вмешательства редакторов и переводчиков для корректировки перевода, произношения и ритма озвучивания.
Поддержка множества языков и голосов: библиотека голосовых профилей и языковых пар для локализации контента на целевые рынки.
Инструменты интеграции и API: функциональность для интеграции с рабочими процессами клиентов и платформами управления медиа.
Настройки стиля и тона: параметры для управления тембром, скоростью и выразительностью синтезируемой речи.
Масштабируемость и пакетная обработка: возможности автоматической обработки больших объёмов видеоматериала с очередями задач и контролем качества.
Экспорт готовых дорожек: вывод локализованных аудиодорожек, предназначенных для замены оригинального звука или публикации как альтернативной звуковой дорожки.