← На главную

Статзначимо, но бизнес-эффекта нет

Дельта есть, p-value красивый — а решение всё равно "нет".

Урок: Можно ли верить эффекту?

Контекст эксперимента

Изменили UI/плейсмент/правило показа в тестовой группе. Primary метрика (CTR) выросла на +0.30% (relative) и стала статистически значимой (p < 0.05).

Guardrail/бизнес-метрика (Revenue/RPM) изменилась на +0.03% (почти ноль, статистически не значимо).

Эксперимент длился 14 дней, трафик стабильный. Контрольная группа без изменений.

Вопрос: можно ли катить в прод на основе статистической значимости primary метрики?

Подумай

Показать разбор

Разбор

На графике видно, что primary метрика (CTR) действительно выросла в тестовой группе, и разница статистически значима. Однако revenue практически не изменилась, что указывает на отсутствие бизнес-эффекта.

Разница между статистической и практической значимостью:

  • Статистическая значимость (p-value) говорит: "мы уверены, что эффект не ноль". Это техническая уверенность в том, что разница не случайна.
  • Практическая значимость (practical significance) говорит: "эффект достаточно большой, чтобы влиять на бизнес". Это вопрос величины эффекта, а не уверенности в его существовании.

Типовые причины расхождения:

  1. Эффект маленький, но данных много: При большом объёме данных даже крошечные эффекты становятся статистически значимыми. P-value маленький, но бизнес-импакт близок к нулю.
  2. Primary вырос, но цепочка до денег не сработала: CTR вырос, но это не конвертировалось в revenue. Возможно, клики не привели к конверсиям, или цена клика упала, или изменился микс инвентаря.
  3. Эффект локальный/сегментный: Рост в одном сегменте компенсируется просадками в других. Общий эффект на revenue близок к нулю, хотя primary метрика показывает рост.

Чеклист решения:

  1. Оценить бизнес-импакт в абсолютных деньгах (а не процентах): +0.30% CTR при текущем объёме — это сколько дополнительных кликов и сколько денег? Если эффект меньше шума в системе — он неважен.
  2. Сравнить с "шумом"/естественной волатильностью: Насколько эффект больше естественных колебаний метрики? Если эффект меньше волатильности — он неразличим на практике.
  3. Проверить устойчивость по времени: Первые дни vs хвост эксперимента. Если эффект ослабевает или исчезает — это признак адаптации, а не устойчивого улучшения.
  4. Проверить сегменты и возможный Simpson: Разбить по девайсам, гео, плейсментам. Возможно, эффект есть только в одном сегменте, а в других — просадка.
  5. Проверить guardrails: Pressure, retention, complaints, latency — что уместно для вашей системы. Если guardrails ухудшились, даже маленький рост primary не оправдывает выкат.

Вывод "катим" возможен только если:

  • Есть measurable бизнес-эффект (revenue/RPM вырос на значимую величину) или есть доказанная механика, которая гарантированно конвертируется в деньги в будущем.
  • Риски/guardrails не ухудшились — система остаётся устойчивой.

Вывод

❌ Неправильный вывод:
«Есть stat sig — значит победа, катим. Primary метрика выросла, это хорошо для бизнеса.»
✅ Корректный вывод:
Эффект по primary метрике статистически значим, но практически неважен: +0.30% CTR не конвертируется в measurable рост revenue (+0.03% близко к нулю). Бизнес-импакт близок к нулю и меньше естественной волатильности системы. Решение зависит от practical significance (минимальной полезной дельты) и рисков: если нет measurable бизнес-эффекта и guardrails не проверены, выкат не оправдан, даже при статистической значимости.
⚠️ Чего нельзя утверждать:
Нельзя утверждать, что "улучшение точно полезно бизнесу" — revenue не выросла. Нельзя утверждать, что "раз p-value маленький, то выручка потом вырастет" — нет доказанной механики конверсии CTR в деньги. Нельзя утверждать, что эффект устойчив без проверки по времени и сегментам — возможно, это адаптация или локальный эффект.