MDE / Sample size.

58 заметок · 10 компаний.

Сводка по 58 заметкам из AB/, где обсуждается дизайн эксперимента: минимальный детектируемый эффект, расчёт размера выборки, мощность, ошибки I/II рода, правила остановки. 10 «ядра» (≥30 упоминаний) — основные источники.

§ 01 В чём область

Дизайн A/B-теста — это управление двумя ошибками на старте:

Базовая формула связи: n = (Var₁ + Var₂) · (z_{α/2} + z_β)² / MDE².

Из неё считают одно из трёх (остальные фиксируют):

Когда останавливать — две парадигмы:

§ 02 Как применяют в компаниях

компанияособенность
Lamoda (Смирнов)Главное предупреждение: наблюдаемый аплифт нельзя сравнивать с MDE напрямую — это популярная и опасная ошибка интерпретации (183 упоминания в одной статье)
expfСерия «Когда останавливать AB-тест»: ч.1 MDE (Fixed Horizon), ч.2 Monte Carlo для оценки правил остановки
X5 (Nazarov)Множественная проверка гипотез: FWER, формула 1−(1−α)^m, Бонферрони, Холм; отдельная статья про оптимальный размер групп при множественном тестировании
Ozon«Шесть причин» — расширенная формула MDE с ratio_correction = r+2+1/r и пилотной долей; учёт нескольких групп разного размера
GlowbyteУчебный роадмэп для новичков: 5 шагов дизайна — H₀ → MDE → α/β → размер выборки → оптимизация
ODSБайесовские многорукие бандиты как альтернатива: вместо фикс. размера — динамическое распределение трафика; вводит концепцию regret
expf (дисбаланс)99/1 vs 50/50 — как непропорциональные группы влияют на мощность; матожидание сохраняется, но дисперсия и MDE растут
Avito (Lunin)В контексте «как улучшить AB-тесты» — расчёт мощности после применения CUPED/стратификации
RetailRocketE-commerce: «99% сплит-тестов проводятся неверно» из-за игнорирования мощности и подглядывания
Kuper («Айсберг»)Концептуальная карта: ошибки I/II рода — контролируемый параметр, а не наблюдение

§ 03 Где работает хорошо

§ 04 Подводные камни

§ 05 Связанные методы

методроль рядом с дизайном
CUPED / стратификация / линеаризацияУменьшают дисперсию → снижают MDE при том же n или сокращают n при том же MDE
Бутстрап для дизайнаСимулируют тест на исторических данных, оценивая мощность под фактическое распределение, а не под теоретическое
Monte Carloexpf ч.2: проверка правил остановки на симулированных сценариях, особенно для несимметричных метрик
Sequential testingАльтернатива Fixed Horizon с легальной ранней остановкой; требует поправок на множественные взгляды
Бандиты (Bayesian)Альтернативная парадигма: не фиксируем выборку, динамически перераспределяем трафик; ODS
Бонферрони / Холм / BHПоправки на множественные гипотезы (X5 multiple testing)
Power analysis (statsmodels)Инструмент: tt_ind_solve_power для расчёта одной из {alpha, power, effect_size, nobs} (Лоладзе)
MDE c ratio_correctionРасширенная формула Ozon для несбалансированных групп с пилотной долей
Holdout / guardrail metricsПараллельный мониторинг негативного эффекта — добавляет к дизайну условие «не ухудшить X»
Causal InferenceКогда правильный дизайн невозможен — переход на CI с оценкой эффекта постфактум

§ Источники

10 ядерных заметок (≥30 упоминаний):

48 контекстных — см. grep -rliE "MDE|sample.size|размер выборк|мощност|остановит" AB/.