MDE / Sample size — синтез

Сводка по 58 заметкам из AB/, где обсуждается дизайн эксперимента: минимальный детектируемый эффект, расчёт размера выборки, мощность, ошибки I/II рода, правила остановки. 10 «ядра» (≥30 упоминаний) — основные источники.

§ 01 В чём область

Дизайн A/B-теста — это управление двумя ошибками на старте:

α (ошибка I рода) — отклонить верную H₀: «сказать, что эффект есть, когда его нет» (обычно 0.05)
β (ошибка II рода) — принять неверную H₀: «не заметить реальный эффект» (обычно 0.2)
мощность = 1 − β: вероятность поймать эффект, который реально есть

Базовая формула связи: n = (Var₁ + Var₂) · (z_{α/2} + z_β)² / MDE².

Из неё считают одно из трёх (остальные фиксируют):

MDE (Minimum Detectable Effect) — минимальный эффект, который при заданном n будет с вероятностью 1−β признан значимым
Sample size — сколько пользователей нужно при заданном MDE
Длительность теста — sample size, делённый на трафик

Когда останавливать — две парадигмы:

Fixed Horizon — фиксируем время заранее, не «подглядываем» (классика)
Sequential testing — допускает раннюю остановку при достижении условия (требует поправок)

§ 02 Как применяют в компаниях

компания	особенность
Lamoda (Смирнов)	Главное предупреждение: наблюдаемый аплифт нельзя сравнивать с MDE напрямую — это популярная и опасная ошибка интерпретации (183 упоминания в одной статье)
expf	Серия «Когда останавливать AB-тест»: ч.1 MDE (Fixed Horizon), ч.2 Monte Carlo для оценки правил остановки
X5 (Nazarov)	Множественная проверка гипотез: FWER, формула `1−(1−α)^m`, Бонферрони, Холм; отдельная статья про оптимальный размер групп при множественном тестировании
Ozon	«Шесть причин» — расширенная формула MDE с `ratio_correction = r+2+1/r` и пилотной долей; учёт нескольких групп разного размера
Glowbyte	Учебный роадмэп для новичков: 5 шагов дизайна — H₀ → MDE → α/β → размер выборки → оптимизация
ODS	Байесовские многорукие бандиты как альтернатива: вместо фикс. размера — динамическое распределение трафика; вводит концепцию `regret`
expf (дисбаланс)	99/1 vs 50/50 — как непропорциональные группы влияют на мощность; матожидание сохраняется, но дисперсия и MDE растут
Avito (Lunin)	В контексте «как улучшить AB-тесты» — расчёт мощности после применения CUPED/стратификации
RetailRocket	E-commerce: «99% сплит-тестов проводятся неверно» из-за игнорирования мощности и подглядывания
Kuper («Айсберг»)	Концептуальная карта: ошибки I/II рода — контролируемый параметр, а не наблюдение

§ 03 Где работает хорошо

Заранее известный трафик — для офлайн-ритейла X5, маркетплейсов: можно посчитать время до достижения нужного n
Стабильные исторические запуски — Glowbyte рекомендует калибровать MDE на исторических лифтах похожих фич
Множественные эксперименты с холдаутом — Ozon, X5: формулы учитывают и дисбаланс групп, и число сравнений
Долгие A/B на маленьких сегментах — где CUPED + стратификация позволяют сократить выборку в N раз при том же MDE
Платформенный подход — Sравни/Avito строят DIY-инструменты для автоматического расчёта дизайна
Когда нужна сходимость к бизнес-метрике — Monte Carlo (expf ч.2) оценивает правила остановки для несимметричных распределений

§ 04 Подводные камни

Сравнивать наблюдаемый аплифт с MDE — фундаментальная ошибка. MDE — это планируемый минимум, на который дизайнили мощность. Наблюдаемый эффект сравнивается с критическим значением статистики, а не с MDE (Lamoda).
Подглядывать в Fixed Horizon = инфлировать α. Каждый промежуточный «взгляд» с принятием решения увеличивает шанс ложного положительного. Для legitime раннего стопа — sequential testing с поправками (expf, RetailRocket).
Игнорировать множественность гипотез. При 100 проверках с α=0.05 шанс хотя бы одной ошибки I рода ≈ 99%. Нужны Бонферрони, Холм, BH (X5 множественная проверка).
Не учитывать дисбаланс групп в формуле. Стандартная формула предполагает равные доли — при 80/20 эффективная мощность сильно ниже расчётной (Ozon, expf).
Брать MDE «с потолка». Без калибровки на исторических лифтах — MDE может оказаться больше реалистичных эффектов фичи, тест гарантированно «не прокрасит».
Не пересчитывать MDE после CUPED/стратификации. После уменьшения дисперсии эффективный MDE снижается; продолжать тест с исходным дизайном — переплатить трафиком.
Малая выборка vs нормальность. Формула на основе z-статистики предполагает ЦПТ; для тяжелых хвостов и n<100 на группу — нужны другие подходы (Mann-Whitney, бутстрап, симуляции).
Считать sample size только для основной метрики. Если планируете смотреть guardrail-метрики или сегменты — расчёт нужно делать с учётом множественности (X5).

§ 05 Связанные методы

метод	роль рядом с дизайном
CUPED / стратификация / линеаризация	Уменьшают дисперсию → снижают MDE при том же n или сокращают n при том же MDE
Бутстрап для дизайна	Симулируют тест на исторических данных, оценивая мощность под фактическое распределение, а не под теоретическое
Monte Carlo	expf ч.2: проверка правил остановки на симулированных сценариях, особенно для несимметричных метрик
Sequential testing	Альтернатива Fixed Horizon с легальной ранней остановкой; требует поправок на множественные взгляды
Бандиты (Bayesian)	Альтернативная парадигма: не фиксируем выборку, динамически перераспределяем трафик; ODS
Бонферрони / Холм / BH	Поправки на множественные гипотезы (X5 multiple testing)
Power analysis (statsmodels)	Инструмент: `tt_ind_solve_power` для расчёта одной из {alpha, power, effect_size, nobs} (Лоладзе)
MDE c ratio_correction	Расширенная формула Ozon для несбалансированных групп с пилотной долей
Holdout / guardrail metrics	Параллельный мониторинг негативного эффекта — добавляет к дизайну условие «не ухудшить X»
Causal Inference	Когда правильный дизайн невозможен — переход на CI с оценкой эффекта постфактум

§ Источники

10 ядерных заметок (≥30 упоминаний):

Как же мощно я провел AB-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE (Lamoda, 183) · Байесовские многорукие бандиты против AB тестов (ODS, 123) · Diff-in-diff (X5, 88) · Когда останавливать AB-тест. Часть 1 MDE (expf, 80) · Шесть причин, почему ваши AB-тесты не работают (Ozon, 59) · AB тестирование множественная проверка гипотез (X5, 57) · Как подготовить и провести AB-тестирование (Glowbyte, 56) · От AB-тестирования к Causal Inference (X5, 50) · Дисбаланс в AB-тестах. 99/1 vs 50/50 (expf, 37) · «Подземные камни» AB-тестирования в e-commerce (RetailRocket, 37)

48 контекстных — см. grep -rliE "MDE|sample.size|размер выборк|мощност|остановит" AB/.