Два вопроса вместо одного
"Есть ли отличие?"
Статистика / доверительный интервал. Отвечает на вопрос: можем ли мы с достаточной уверенностью сказать, что группы отличаются? Это про надёжность измерения.
"Стоит ли катить?"
Практическая значимость / цена ошибки / риски. Отвечает на вопрос: достаточно ли эффект велик, чтобы оправдать выкат? Это про бизнес-решение.
Смешивание этих вопросов приводит к плохим решениям: катим "stat sig" без проверки эффекта, или отказываемся от хороших изменений из-за "не sig" при малой мощности.
Практическая значимость: эффект должен пройти порог
MDE (Minimum Detectable Effect) — это "минимальный эффект, ради которого вообще имеет смысл". Если эффект меньше порога — даже stat sig может быть неинтересен для бизнеса.
Если эффект больше порога, но риск высокий — тоже нельзя "просто катить". Нужно оценить цену ошибки и обратимость выката.
- "+0.1% revenue" может быть шумом и не окупить затраты на разработку и поддержку
- "-0.2% retention" может быть стоп-фактором, даже если primary метрика выросла
- "Рост нагрузки/ошибок" может быть стоп-фактором, даже если выручка выросла
3 типовые ловушки
- Stat sig без бизнес-эффекта: малый эффект, большой N. Статистически значимо, но практической ценности нет.
- "Не sig" ≠ "эффекта нет": мало мощности, широкие CI. Эффект может быть, но мы его не видим из-за малой выборки.
- Peeking / ранняя остановка: окно меняет вывод. Решение зависит от того, какой период смотрим.
- Множественные метрики: нашли "плюс" случайно. Чем больше метрик, тем выше шанс ложного срабатывания.
- p-value как KPI: ошибка мышления. p-value — это не мера эффекта, а мера уверенности в наличии эффекта.
- Игнор guardrails: катнули revenue, потеряли quality. Primary вырос, но guardrails упали — это риск.
Как читать результат правильно (CI-first)
Без формул, но очень конкретно:
- Смотри на доверительный интервал (возможные значения эффекта). Это диапазон, в котором с высокой вероятностью лежит реальный эффект.
- Сравни интервал с "порогом решения" (MDE/guardrails). Где находится интервал относительно порога?
- Результат может быть:
- A) "достаточно хорошо" → катим. Интервал полностью выше порога, guardrails в порядке.
- B) "слишком рискованно" → не катим / ограничиваем. Интервал пересекает стоп-фактор или слишком близок к нулю.
- C) "непонятно" → продлеваем / меняем дизайн. Интервал слишком широкий или пересекает порог.
Мини-протокол решения (6 шагов)
- Primary: где лежит эффект относительно порога? Интервал выше MDE или нет?
- Guardrails: нет ли стоп-факторов? Quality, retention, complaints — всё в порядке?
- Диагностика: что говорит механизм (volume/price/воронка)? Согласуется ли с primary?
- Устойчивость: по времени/сегментам нет ли развала? Эффект стабилен или только в начале?
- Риск: цена ошибки и обратимость выката. Что будет, если ошиблись? Можно ли быстро откатить?
- Действие: катим / катим ограниченно / перезапуск / не катим. Решение на основе всех факторов.
Перейти к практике
Практика по этому типу решения: → Открыть все сценарии этого типа