Дельта есть, p-value красивый — а решение всё равно "нет".
Урок: Можно ли верить эффекту?
Изменили UI/плейсмент/правило показа в тестовой группе. Primary метрика (CTR) выросла на +0.30% (relative) и стала статистически значимой (p < 0.05).
Guardrail/бизнес-метрика (Revenue/RPM) изменилась на +0.03% (почти ноль, статистически не значимо).
Эксперимент длился 14 дней, трафик стабильный. Контрольная группа без изменений.
Вопрос: можно ли катить в прод на основе статистической значимости primary метрики?
На графике видно, что primary метрика (CTR) действительно выросла в тестовой группе, и разница статистически значима. Однако revenue практически не изменилась, что указывает на отсутствие бизнес-эффекта.
Разница между статистической и практической значимостью:
Типовые причины расхождения:
Чеклист решения:
Вывод "катим" возможен только если: