58 заметок · 10 компаний.
Сводка по 58 заметкам из AB/, где обсуждается дизайн эксперимента: минимальный детектируемый эффект, расчёт размера выборки, мощность, ошибки I/II рода, правила остановки. 10 «ядра» (≥30 упоминаний) — основные источники.
Дизайн A/B-теста — это управление двумя ошибками на старте:
Базовая формула связи: n = (Var₁ + Var₂) · (z_{α/2} + z_β)² / MDE².
Из неё считают одно из трёх (остальные фиксируют):
Когда останавливать — две парадигмы:
| компания | особенность |
|---|---|
| Lamoda (Смирнов) | Главное предупреждение: наблюдаемый аплифт нельзя сравнивать с MDE напрямую — это популярная и опасная ошибка интерпретации (183 упоминания в одной статье) |
| expf | Серия «Когда останавливать AB-тест»: ч.1 MDE (Fixed Horizon), ч.2 Monte Carlo для оценки правил остановки |
| X5 (Nazarov) | Множественная проверка гипотез: FWER, формула 1−(1−α)^m, Бонферрони, Холм; отдельная статья про оптимальный размер групп при множественном тестировании |
| Ozon | «Шесть причин» — расширенная формула MDE с ratio_correction = r+2+1/r и пилотной долей; учёт нескольких групп разного размера |
| Glowbyte | Учебный роадмэп для новичков: 5 шагов дизайна — H₀ → MDE → α/β → размер выборки → оптимизация |
| ODS | Байесовские многорукие бандиты как альтернатива: вместо фикс. размера — динамическое распределение трафика; вводит концепцию regret |
| expf (дисбаланс) | 99/1 vs 50/50 — как непропорциональные группы влияют на мощность; матожидание сохраняется, но дисперсия и MDE растут |
| Avito (Lunin) | В контексте «как улучшить AB-тесты» — расчёт мощности после применения CUPED/стратификации |
| RetailRocket | E-commerce: «99% сплит-тестов проводятся неверно» из-за игнорирования мощности и подглядывания |
| Kuper («Айсберг») | Концептуальная карта: ошибки I/II рода — контролируемый параметр, а не наблюдение |
Monte Carlo (expf ч.2) оценивает правила остановки для несимметричных распределений| метод | роль рядом с дизайном |
|---|---|
| CUPED / стратификация / линеаризация | Уменьшают дисперсию → снижают MDE при том же n или сокращают n при том же MDE |
| Бутстрап для дизайна | Симулируют тест на исторических данных, оценивая мощность под фактическое распределение, а не под теоретическое |
| Monte Carlo | expf ч.2: проверка правил остановки на симулированных сценариях, особенно для несимметричных метрик |
| Sequential testing | Альтернатива Fixed Horizon с легальной ранней остановкой; требует поправок на множественные взгляды |
| Бандиты (Bayesian) | Альтернативная парадигма: не фиксируем выборку, динамически перераспределяем трафик; ODS |
| Бонферрони / Холм / BH | Поправки на множественные гипотезы (X5 multiple testing) |
| Power analysis (statsmodels) | Инструмент: tt_ind_solve_power для расчёта одной из {alpha, power, effect_size, nobs} (Лоладзе) |
| MDE c ratio_correction | Расширенная формула Ozon для несбалансированных групп с пилотной долей |
| Holdout / guardrail metrics | Параллельный мониторинг негативного эффекта — добавляет к дизайну условие «не ухудшить X» |
| Causal Inference | Когда правильный дизайн невозможен — переход на CI с оценкой эффекта постфактум |
10 ядерных заметок (≥30 упоминаний):
Как же мощно я провел AB-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE (Lamoda, 183) · Байесовские многорукие бандиты против AB тестов (ODS, 123) · Diff-in-diff (X5, 88) · Когда останавливать AB-тест. Часть 1 MDE (expf, 80) · Шесть причин, почему ваши AB-тесты не работают (Ozon, 59) · AB тестирование множественная проверка гипотез (X5, 57) · Как подготовить и провести AB-тестирование (Glowbyte, 56) · От AB-тестирования к Causal Inference (X5, 50) · Дисбаланс в AB-тестах. 99/1 vs 50/50 (expf, 37) · «Подземные камни» AB-тестирования в e-commerce (RetailRocket, 37)48 контекстных — см. grep -rliE "MDE|sample.size|размер выборк|мощност|остановит" AB/.