Whale Benchmark — это инструмент-бенчмарк, предназначенный для оценки алгоритмов обнаружения и распознавания звуковых сигналов крупных китообразных (baleen whales) в задачах пассивного акустического мониторинга. Проект объединяет наборы данных с аннотациями, скрипты для воспроизводимой оценки и стандартный набор метрик качества, позволяющий исследователям и инженерам объективно сравнивать методы детекции, сегментации и классификации голосовых сигналов китов в морской акустике.
Исторически подобные бенчмарки формировались в ответ на потребность в реплицируемых экспериментах и прозрачных метриках в области биоакустики. Если конкретная публичная информация о существующем «Whale Benchmark» ограничена или отсутствует, этот термин в описании используется как обобщённое обозначение набора инструментов и практик, которые включают подготовку репрезентативных аудиоданных, стандартизованные процедуры предобработки, разделение на тренировочные и тестовые выборки, а также автоматизированные скрипты для расчёта метрик и генерации отчётов о производительности.
- Сбор и аннотации данных: включает аудиозаписи подводного шума с метками событий вокализаций разных видов baleen whales и дополнительными метаданными о времени, координатах и условиях записи.
 - Стандартизованная предобработка: набор процедур для фильтрации, нормализации, оконного разложения и извлечения спектральных признаков (например, Мел-спектрограмм или спектрограмм короткого времени).
 - Сценарии разделения данных: реализации схем кросс-валидации и разбиения по сезонам/локациям, чтобы избежать утечки информации и оценивать обобщающую способность алгоритмов.
 - Набор метрик: поддержка стандартных метрик обнаружения и классификации — точность, полнота, F1, ROC-AUC, а также временные метрики для оценки локализации событий и ошибки по времени начала/конца сигнала.
 - Скрипты оценки и репортинга: автоматизация запуска экспериментов, подсчёта метрик и генерации машинно-читаемых отчётов для облегчения сравнения результатов между работами.
 - Воспроизводимость: рекомендации и механизмы для фиксирования версий данных, параметров предобработки и конфигураций моделей с целью повторяемости экспериментов.
 - Гибкость использования: поддержка подключения различных моделей (классические методы обработки сигналов и современные нейросетевые архитектуры) через унифицированный интерфейс оценки.
 - Учёт условий записи: инструменты для анализа влияния шумовой обстановки, глубины записи и дистанции до источника на качество детекции и классификации.