RNNoise

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: gitlab.xiph.org/xiph/rnnoise

RNNoise — компактная библиотека для подавления шума в речевых сигналах, сочетающая элементы классической цифровой обработки сигналов и методов глубокого обучения. Она была разработана как лёгкое решение для улучшения качества голоса в реальном времени на устройствах с ограниченными вычислительными ресурсами. Архитектура реализует рекуррентную нейронную сеть на базе GRU для оценки маски частотно-временного представления аудиосигнала и интегрируется с традиционными DSP-компонентами для фильтрации и синтеза выходного сигнала.

Основной целью RNNoise является достижение приемлемого качества подавления фонового шума при минимальном потреблении процессорного времени и памяти, что делает её пригодной для встроенных систем, VoIP-клиентов и приложений реального времени. Библиотека предоставляет предобученную модель и инструменты для её обучения на собственных наборах данных; при этом модель остаётся относительно небольшой по количеству параметров и легко дистрибуируется. В открытых описаниях отмечается акцент на балансе между качеством звука и вычислительной эффективностью, а также на возможности интеграции в существующие аудиопайплайны.

  • Гибридная архитектура: сочетает DSP-процедуры (например, окно, БПФ, оценка спектральных параметров) и нейросетевую обработку на базе GRU для оценки коэффициентов подавления.
  • Низкие требования к ресурсам: небольшая модель с ограниченным числом параметров, оптимизированная для работы в реальном времени на CPU.
  • Реальное время: потоковая обработка фреймов с малыми задержками, что позволяет использовать библиотеку в звонках и голосовых приложениях.
  • Предобученные модели и адаптация: поставляется с предобученными весами и содержит механизмы для дообучения на пользовательских данных.
  • Простая интеграция: предоставляет API для встраивания в существующие аудиопайплайны и совместима с различными платформами.
  • Улучшение разборчивости речи: ориентирована на снижение фонового шума при сохранении качества и естественности голоса.
  • Открытость описания: в общедоступных материалах приводятся технические детали архитектуры и подходов к обучению, что облегчает воспроизведение и оценку работы.
Подробнее