Alerta — это система мониторинга оповещений, предназначенная для консолидации, дедубликации и управления событиями из множества источников наблюдения и систем мониторинга. Проект реализует централизованную модель приёма уведомлений, нормализации их формата и объединения связанных инцидентов для упрощения наблюдения и ускорения реакции операторов. Alerta ориентирована на интеграцию с разнообразными инструментами сбора метрик и логов, а также с системами оповещения и управления инцидентами.
Исторически Alerta возникла как ответ на потребность в единой точке агрегации сигналов от распределённых систем и различных консолей мониторинга. Она обеспечивает хранение состояния событий, их классификацию по атрибутам (источник, уровень серьёзности, сервис и т. п.), а также применение правил дедубликации и подавления шумов. В случаях ограниченной доступности официальной документации это описание концентрируется на типичной функциональности подобных систем и на общепринятых сценариях использования в индустрии наблюдаемости.
- Агрегация уведомлений: приём событий из множества источников и приведение их к единому формату для дальнейшей обработки.
- Дедубликация и корреляция: объединение повторяющихся или связанных сигналов в единые инциденты для снижения числа уведомлений.
- Классификация и фильтрация: присвоение метаданных событиям и гибкая фильтрация по атрибутам для поиска и маршрутизации.
- Состояния инцидентов: отслеживание статусов (новое, подтверждённое, решённое и т. п.) и истории изменений для аудита и анализа.
- Интеграции: поддержка подключений к системам мониторинга, вебхукам, брокерам сообщений и внешним системам оповещения.
- Правила подавления: настройка условий и временных окон для снижения ложных срабатываний и управления шумом.
- API и автоматизация: программный интерфейс для приёма, запроса и управления событиями, позволяющий интегрировать Alerta в автоматизированные процессы реагирования.
- Хранилище истории: сохранение исторических записей инцидентов для последующего анализа трендов и постинцидентного разбора.
- Масштабируемость и отказоустойчивость: архитектурные подходы к работе в распределённых и высоконагруженных средах.