24 заметок · 8 компаний.
Сводка по 24 заметкам из AB/ с упоминанием стратификации. 8 «ядра» (от 7 и более упоминаний) — основные источники.
Стратификация — приём, который повышает чувствительность A/B-теста за счёт более «честного» разделения пользователей на группы. Выборку режут на страты по ковариате (пол, возраст, доход, кластер поведения), и из каждой страты в тест и контроль попадает равная доля. В результате межгрупповая дисперсия — та часть, что объяснялась случайным дисбалансом страт — уходит из общей дисперсии метрики.
Две формы:
| компания | особенность |
|---|---|
| X5 (Nazarov) | Базовая статья-методичка (52 упоминания); формулы пре- и пост-стратификации; статья про Методы балансировки — стратификация как одна из техник наряду с матчингом и взвешиванием |
| Avito (Lunin) | Подача через метафору с покемонами (понятно даже джуну); парная стратификация — улучшение, когда на одну страту приходится мало объектов |
| Glowbyte (Альфа-Банк) | Внутренняя библиотека ABacus: кластеризация HDBScan → стратификация → 1-командой; все эксперименты персонализации в Альфа теперь идут через ABacus |
| expf (Лоладзе) | Сводка теории: формула var_strat = 1/n · Σ p_k·var_k, главная польза пост-стратификации — убрать межгрупповую дисперсию |
| Самокат | Парадокс Симпсона как мотивация; CUPED трактуют как «непрерывный аналог пост-стратификации» |
| HH | В контексте Causal Inference: PS-стратификация, IPW — стратификация по propensity score |
| LM | Стратификация для офлайн-ритейла (отток ПРО-клиентов) |
| Glowbyte (роадмэп) | «Делаю всегда, когда возможно» — рекомендация для новичков |
p_k неточная — стратифицированное среднее становится смещённым (X5).| метод | роль рядом со стратификацией |
|---|---|
| CUPED | Близкий метод снижения дисперсии; Самокат: CUPED = «непрерывный аналог пост-стратификации». Обычно применяют либо/либо, иногда вместе (Avito) |
| Парная стратификация | Улучшение для случаев с малыми стратами: соседние объекты в страте парно идут в тест/контроль (Avito) |
| Матчинг (PSM, Mahalanobis) | Альтернативная балансировка через попарное сопоставление, не группами (X5, HH) |
| Взвешивание / IPW | Третий метод балансировки: вместо разделения — пересчёт весов наблюдений (X5, HH) |
| Кластеризация (HDBScan) | Источник «правильных» страт — плотные кластеры поведения (Alfa-ABacus) |
| Бакетирование | Альтернативный способ создания страт через равномерные интервалы (Glowbyte) |
| Линеаризация ratio | Можно стратифицировать перед линеаризацией для ratio-метрик (Kuper) |
| Propensity Score Stratification | Расширение для observational data из Causal Inference (HH) |
8 ядерных заметок (≥7 упоминаний):
Стратификация. Как разбиение выборки повышает чувствительность AB теста (X5, 52) · Как улучшить ваши AB-тесты ч.2 (Avito, 21) · Оценка эффекта персонализации баннеров в Альфа-Банке (ABacus) (Glowbyte, 18) · Вся основная теория Лоладзе + expf (15) · Методы балансировки в AB тестировании (X5, 11) · Как подготовить и провести AB-тестирование (Glowbyte, 8) · Воркшопы и методология АБ Самоката (7) · Causal Inference from Observational Data (HH, 7)16 контекстных — см. grep -rlE "[Сс]тратификац|[Ss]tratif" AB/.