Статзначимо, но бизнес-эффекта нет

Дельта есть, p-value красивый — а решение всё равно "нет".

Контекст эксперимента

Изменили UI/плейсмент/правило показа в тестовой группе. Primary метрика (CTR) выросла на +0.30% (relative) и стала статистически значимой (p < 0.05).

Guardrail/бизнес-метрика (Revenue/RPM) изменилась на +0.03% (почти ноль, статистически не значимо).

Эксперимент длился 14 дней, трафик стабильный. Контрольная группа без изменений.

Вопрос: можно ли катить в прод на основе статистической значимости primary метрики?

Подумай

Почему "stat sig" не означает "можно катить"?
Как отличить "реальный эффект" от "неважного эффекта"?
Какая минимальная полезная дельта (MDE / practical significance) здесь нужна?
Какие guardrails могут запретить выкат даже при росте primary?
Что нужно проверить по сегментам и по времени (устойчивость эффекта)?

Показать разбор

Разбор

На графике видно, что primary метрика (CTR) действительно выросла в тестовой группе, и разница статистически значима. Однако revenue практически не изменилась, что указывает на отсутствие бизнес-эффекта.

Разница между статистической и практической значимостью:

Статистическая значимость (p-value) говорит: "мы уверены, что эффект не ноль". Это техническая уверенность в том, что разница не случайна.
Практическая значимость (practical significance) говорит: "эффект достаточно большой, чтобы влиять на бизнес". Это вопрос величины эффекта, а не уверенности в его существовании.

Типовые причины расхождения:

Эффект маленький, но данных много: При большом объёме данных даже крошечные эффекты становятся статистически значимыми. P-value маленький, но бизнес-импакт близок к нулю.
Primary вырос, но цепочка до денег не сработала: CTR вырос, но это не конвертировалось в revenue. Возможно, клики не привели к конверсиям, или цена клика упала, или изменился микс инвентаря.
Эффект локальный/сегментный: Рост в одном сегменте компенсируется просадками в других. Общий эффект на revenue близок к нулю, хотя primary метрика показывает рост.

Чеклист решения:

Оценить бизнес-импакт в абсолютных деньгах (а не процентах): +0.30% CTR при текущем объёме — это сколько дополнительных кликов и сколько денег? Если эффект меньше шума в системе — он неважен.
Сравнить с "шумом"/естественной волатильностью: Насколько эффект больше естественных колебаний метрики? Если эффект меньше волатильности — он неразличим на практике.
Проверить устойчивость по времени: Первые дни vs хвост эксперимента. Если эффект ослабевает или исчезает — это признак адаптации, а не устойчивого улучшения.
Проверить сегменты и возможный Simpson: Разбить по девайсам, гео, плейсментам. Возможно, эффект есть только в одном сегменте, а в других — просадка.
Проверить guardrails: Pressure, retention, complaints, latency — что уместно для вашей системы. Если guardrails ухудшились, даже маленький рост primary не оправдывает выкат.

Вывод "катим" возможен только если:

Есть measurable бизнес-эффект (revenue/RPM вырос на значимую величину) или есть доказанная механика, которая гарантированно конвертируется в деньги в будущем.
Риски/guardrails не ухудшились — система остаётся устойчивой.

Вывод

❌ Неправильный вывод:

«Есть stat sig — значит победа, катим. Primary метрика выросла, это хорошо для бизнеса.»

✅ Корректный вывод:

Эффект по primary метрике статистически значим, но практически неважен: +0.30% CTR не конвертируется в measurable рост revenue (+0.03% близко к нулю). Бизнес-импакт близок к нулю и меньше естественной волатильности системы. Решение зависит от practical significance (минимальной полезной дельты) и рисков: если нет measurable бизнес-эффекта и guardrails не проверены, выкат не оправдан, даже при статистической значимости.

⚠️ Чего нельзя утверждать:

Нельзя утверждать, что "улучшение точно полезно бизнесу" — revenue не выросла. Нельзя утверждать, что "раз p-value маленький, то выручка потом вырастет" — нет доказанной механики конверсии CTR в деньги. Нельзя утверждать, что эффект устойчив без проверки по времени и сегментам — возможно, это адаптация или локальный эффект.

Статзначимо, но бизнес-эффекта нет

Контекст эксперимента

Подумай

Разбор

Вывод

Связанные темы