← На главную
Lesson 2

Когда статистика не даёт ответа

Stat sig отвечает на "есть ли отличие", но не отвечает на "стоит ли катить". Решение — это эффект × риск × стоимость.

Два вопроса вместо одного

"Есть ли отличие?"

Статистика / доверительный интервал. Отвечает на вопрос: можем ли мы с достаточной уверенностью сказать, что группы отличаются? Это про надёжность измерения.

"Стоит ли катить?"

Практическая значимость / цена ошибки / риски. Отвечает на вопрос: достаточно ли эффект велик, чтобы оправдать выкат? Это про бизнес-решение.

Смешивание этих вопросов приводит к плохим решениям: катим "stat sig" без проверки эффекта, или отказываемся от хороших изменений из-за "не sig" при малой мощности.

Практическая значимость: эффект должен пройти порог

MDE (Minimum Detectable Effect) — это "минимальный эффект, ради которого вообще имеет смысл". Если эффект меньше порога — даже stat sig может быть неинтересен для бизнеса.

Если эффект больше порога, но риск высокий — тоже нельзя "просто катить". Нужно оценить цену ошибки и обратимость выката.

  • "+0.1% revenue" может быть шумом и не окупить затраты на разработку и поддержку
  • "-0.2% retention" может быть стоп-фактором, даже если primary метрика выросла
  • "Рост нагрузки/ошибок" может быть стоп-фактором, даже если выручка выросла

3 типовые ловушки

  • Stat sig без бизнес-эффекта: малый эффект, большой N. Статистически значимо, но практической ценности нет.
  • "Не sig" ≠ "эффекта нет": мало мощности, широкие CI. Эффект может быть, но мы его не видим из-за малой выборки.
  • Peeking / ранняя остановка: окно меняет вывод. Решение зависит от того, какой период смотрим.
  • Множественные метрики: нашли "плюс" случайно. Чем больше метрик, тем выше шанс ложного срабатывания.
  • p-value как KPI: ошибка мышления. p-value — это не мера эффекта, а мера уверенности в наличии эффекта.
  • Игнор guardrails: катнули revenue, потеряли quality. Primary вырос, но guardrails упали — это риск.

Как читать результат правильно (CI-first)

Без формул, но очень конкретно:

  • Смотри на доверительный интервал (возможные значения эффекта). Это диапазон, в котором с высокой вероятностью лежит реальный эффект.
  • Сравни интервал с "порогом решения" (MDE/guardrails). Где находится интервал относительно порога?
  • Результат может быть:
    • A) "достаточно хорошо" → катим. Интервал полностью выше порога, guardrails в порядке.
    • B) "слишком рискованно" → не катим / ограничиваем. Интервал пересекает стоп-фактор или слишком близок к нулю.
    • C) "непонятно" → продлеваем / меняем дизайн. Интервал слишком широкий или пересекает порог.

Мини-протокол решения (6 шагов)

  1. Primary: где лежит эффект относительно порога? Интервал выше MDE или нет?
  2. Guardrails: нет ли стоп-факторов? Quality, retention, complaints — всё в порядке?
  3. Диагностика: что говорит механизм (volume/price/воронка)? Согласуется ли с primary?
  4. Устойчивость: по времени/сегментам нет ли развала? Эффект стабилен или только в начале?
  5. Риск: цена ошибки и обратимость выката. Что будет, если ошиблись? Можно ли быстро откатить?
  6. Действие: катим / катим ограниченно / перезапуск / не катим. Решение на основе всех факторов.

Перейти к практике

Практика по этому типу решения: → Открыть все сценарии этого типа