Лучше один точный алерт, чем десять шумных.
"Шум" убивает доверие: люди перестают реагировать. Когда алерт срабатывает слишком часто без реальной проблемы, команда начинает игнорировать его. Это дорого: реальная проблема может быть пропущена.
"Пропуски" дороги: деньги реагируют поздно. Когда алерт не срабатывает на реальную деградацию, система ломается без предупреждения. Это дороже: потеря выручки, инциденты, паника.
Цель: баланс под стоимость ошибки. Для монетизации пропуск обычно дороже шума, но не всегда. Нужно выбирать пороги и окна так, чтобы минимизировать общую стоимость ошибок.
Порог — это цена ошибок.
Оптимум зависит от стоимости пропуска.
| Поле | Почему нужно |
|---|---|
| Владелец | Кто отвечает за реакцию. Без владельца алерт игнорируется. |
| Действие | Что делать при срабатывании. Без действия алерт — это шум. |
| Окно | На каком окне смотреть метрику. Короткое окно — шум, длинное — пропуски. |
| Порог | При каком отклонении срабатывать. Баланс между шумом и пропусками. |
| Confirm | Сколько дней ждать подтверждения. Снижает ложные тревоги. |
| Cooldown | Сколько дней тишины после алерта. Предотвращает повторные срабатывания. |
| Сегменты | По каким сегментам проверять отдельно. Среднее маскирует проблемы. |
| Ссылки на разрезы | Где смотреть детализацию. Без разреза диагностика медленная. |
| Ожидаемый лаг до денег | Когда эффект проявится в выручке. Помогает планировать реакцию. |
| Критерий закрытия инцидента | Когда считать проблему решённой. Без критерия инцидент висит открытым. |
Качество алерта — это качество вашей реакции.