Lesson 2: Статистика ≠ решение — A/B-тестирование: принятие решений на практике

Два вопроса вместо одного

"Есть ли отличие?"

Статистика / доверительный интервал. Отвечает на вопрос: можем ли мы с достаточной уверенностью сказать, что группы отличаются? Это про надёжность измерения.

"Стоит ли катить?"

Практическая значимость / цена ошибки / риски. Отвечает на вопрос: достаточно ли эффект велик, чтобы оправдать выкат? Это про бизнес-решение.

Смешивание этих вопросов приводит к плохим решениям: катим "stat sig" без проверки эффекта, или отказываемся от хороших изменений из-за "не sig" при малой мощности.

Практическая значимость: эффект должен пройти порог

MDE (Minimum Detectable Effect) — это "минимальный эффект, ради которого вообще имеет смысл". Если эффект меньше порога — даже stat sig может быть неинтересен для бизнеса.

Если эффект больше порога, но риск высокий — тоже нельзя "просто катить". Нужно оценить цену ошибки и обратимость выката.

"+0.1% revenue" может быть шумом и не окупить затраты на разработку и поддержку
"-0.2% retention" может быть стоп-фактором, даже если primary метрика выросла
"Рост нагрузки/ошибок" может быть стоп-фактором, даже если выручка выросла

3 типовые ловушки

Stat sig без бизнес-эффекта: малый эффект, большой N. Статистически значимо, но практической ценности нет.
"Не sig" ≠ "эффекта нет": мало мощности, широкие CI. Эффект может быть, но мы его не видим из-за малой выборки.
Peeking / ранняя остановка: окно меняет вывод. Решение зависит от того, какой период смотрим.
Множественные метрики: нашли "плюс" случайно. Чем больше метрик, тем выше шанс ложного срабатывания.
p-value как KPI: ошибка мышления. p-value — это не мера эффекта, а мера уверенности в наличии эффекта.
Игнор guardrails: катнули revenue, потеряли quality. Primary вырос, но guardrails упали — это риск.

Как читать результат правильно (CI-first)

Без формул, но очень конкретно:

Смотри на доверительный интервал (возможные значения эффекта). Это диапазон, в котором с высокой вероятностью лежит реальный эффект.
Сравни интервал с "порогом решения" (MDE/guardrails). Где находится интервал относительно порога?
Результат может быть:
- A) "достаточно хорошо" → катим. Интервал полностью выше порога, guardrails в порядке.
- B) "слишком рискованно" → не катим / ограничиваем. Интервал пересекает стоп-фактор или слишком близок к нулю.
- C) "непонятно" → продлеваем / меняем дизайн. Интервал слишком широкий или пересекает порог.

Мини-протокол решения (6 шагов)

Primary: где лежит эффект относительно порога? Интервал выше MDE или нет?
Guardrails: нет ли стоп-факторов? Quality, retention, complaints — всё в порядке?
Диагностика: что говорит механизм (volume/price/воронка)? Согласуется ли с primary?
Устойчивость: по времени/сегментам нет ли развала? Эффект стабилен или только в начале?
Риск: цена ошибки и обратимость выката. Что будет, если ошиблись? Можно ли быстро откатить?
Действие: катим / катим ограниченно / перезапуск / не катим. Решение на основе всех факторов.

Когда статистика не даёт ответа

Два вопроса вместо одного

"Есть ли отличие?"

"Стоит ли катить?"

Практическая значимость: эффект должен пройти порог

3 типовые ловушки

Как читать результат правильно (CI-first)

Мини-протокол решения (6 шагов)

Перейти к практике

Два вопроса вместо одного

"Есть ли отличие?"

"Стоит ли катить?"

Практическая значимость: эффект должен пройти порог

3 типовые ловушки

Как читать результат правильно (CI-first)

Мини-протокол решения (6 шагов)

Перейти к практике

Связанные темы