← На главную

Качество алертов

Лучше один точный алерт, чем десять шумных.

"Шум" убивает доверие: люди перестают реагировать. Когда алерт срабатывает слишком часто без реальной проблемы, команда начинает игнорировать его. Это дорого: реальная проблема может быть пропущена.

"Пропуски" дороги: деньги реагируют поздно. Когда алерт не срабатывает на реальную деградацию, система ломается без предупреждения. Это дороже: потеря выручки, инциденты, паника.

Цель: баланс под стоимость ошибки. Для монетизации пропуск обычно дороже шума, но не всегда. Нужно выбирать пороги и окна так, чтобы минимизировать общую стоимость ошибок.

Матрица качества
Ложная тревога (FP)
Как выглядит: Алерт сработал, но метрика вернулась в норму сама, или это был шум/сезонность.
Цена ошибки: Потеря времени на проверку, снижение доверия к алертам, риск игнорирования реальных проблем.
Что улучшает: Confirm window — требовать подтверждения отклонения в течение нескольких дней.
Пропуск (FN)
Как выглядит: Алерт не сработал, но система деградировала, и выручка упала.
Цена ошибки: Потеря выручки, инцидент без предупреждения, паника и хаос в диагностике.
Что улучшает: Снижение порога чувствительности и проверка по сегментам отдельно.
Попадание (TP)
Как выглядит: Алерт сработал по делу: метрика деградировала, и это подтвердилось действием.
Цена ошибки: Нет ошибки — это успех. Но нужно быстро реагировать, иначе цена пропуска растёт.
Что улучшает: Чёткое действие и владелец — алерт без действия бесполезен.
Молчание (TN)
Как выглядит: Тишина, и всё ок: метрика стабильна, система работает нормально.
Цена ошибки: Нет ошибки — это норма. Но нужно проверять, не слишком ли грубый порог.
Что улучшает: Регулярный review порогов и baseline drift handling.
Порог меняет поведение алерта

Порог — это цена ошибок.

Калибровщик порога
50
3 дня
0 дней
ROC-like trade-off, но по-человечески

Оптимум зависит от стоимости пропуска.

Техники улучшения качества
Confirm window
Требовать подтверждения отклонения в течение нескольких дней. Если метрика вернулась в норму — это был шум. Если нет — реальная проблема.
Cooldown
Тишина после алерта: не срабатывать повторно, пока проблема не решена или не подтверждена как ложная тревога.
Segment-aware thresholds
Разные пороги для разных сегментов. Среднее маскирует проблемы в отдельных сегментах — проверяйте каждый отдельно.
Two-signal rule
Комбинация двух сигналов: алерт срабатывает только если оба сигнала отклоняются. Снижает шум, но может увеличить пропуски.
Baseline drift handling
Использовать долгосрочное скользящее среднее (MA long) для baseline. Система дрейфует — baseline должен дрейфовать вместе.
Ownership & action
Алерт без действия — это шум. Каждый алерт должен иметь владельца и чёткое действие. Если действия нет — алерт бесполезен.
Минимальный стандарт алерта
Поле Почему нужно
Владелец Кто отвечает за реакцию. Без владельца алерт игнорируется.
Действие Что делать при срабатывании. Без действия алерт — это шум.
Окно На каком окне смотреть метрику. Короткое окно — шум, длинное — пропуски.
Порог При каком отклонении срабатывать. Баланс между шумом и пропусками.
Confirm Сколько дней ждать подтверждения. Снижает ложные тревоги.
Cooldown Сколько дней тишины после алерта. Предотвращает повторные срабатывания.
Сегменты По каким сегментам проверять отдельно. Среднее маскирует проблемы.
Ссылки на разрезы Где смотреть детализацию. Без разреза диагностика медленная.
Ожидаемый лаг до денег Когда эффект проявится в выручке. Помогает планировать реакцию.
Критерий закрытия инцидента Когда считать проблему решённой. Без критерия инцидент висит открытым.

Качество алерта — это качество вашей реакции.