Стратификация.

24 заметок · 8 компаний.

Сводка по 24 заметкам из AB/ с упоминанием стратификации. 8 «ядра» (от 7 и более упоминаний) — основные источники.

§ 01 В чём метод

Стратификация — приём, который повышает чувствительность A/B-теста за счёт более «честного» разделения пользователей на группы. Выборку режут на страты по ковариате (пол, возраст, доход, кластер поведения), и из каждой страты в тест и контроль попадает равная доля. В результате межгрупповая дисперсия — та часть, что объяснялась случайным дисбалансом страт — уходит из общей дисперсии метрики.

Две формы:

§ 02 Как применяют в компаниях

компанияособенность
X5 (Nazarov)Базовая статья-методичка (52 упоминания); формулы пре- и пост-стратификации; статья про Методы балансировки — стратификация как одна из техник наряду с матчингом и взвешиванием
Avito (Lunin)Подача через метафору с покемонами (понятно даже джуну); парная стратификация — улучшение, когда на одну страту приходится мало объектов
Glowbyte (Альфа-Банк)Внутренняя библиотека ABacus: кластеризация HDBScan → стратификация → 1-командой; все эксперименты персонализации в Альфа теперь идут через ABacus
expf (Лоладзе)Сводка теории: формула var_strat = 1/n · Σ p_k·var_k, главная польза пост-стратификации — убрать межгрупповую дисперсию
СамокатПарадокс Симпсона как мотивация; CUPED трактуют как «непрерывный аналог пост-стратификации»
HHВ контексте Causal Inference: PS-стратификация, IPW — стратификация по propensity score
LMСтратификация для офлайн-ритейла (отток ПРО-клиентов)
Glowbyte (роадмэп)«Делаю всегда, когда возможно» — рекомендация для новичков

§ 03 Где работает хорошо

§ 04 Подводные камни

§ 05 Связанные методы

методроль рядом со стратификацией
CUPEDБлизкий метод снижения дисперсии; Самокат: CUPED = «непрерывный аналог пост-стратификации». Обычно применяют либо/либо, иногда вместе (Avito)
Парная стратификацияУлучшение для случаев с малыми стратами: соседние объекты в страте парно идут в тест/контроль (Avito)
Матчинг (PSM, Mahalanobis)Альтернативная балансировка через попарное сопоставление, не группами (X5, HH)
Взвешивание / IPWТретий метод балансировки: вместо разделения — пересчёт весов наблюдений (X5, HH)
Кластеризация (HDBScan)Источник «правильных» страт — плотные кластеры поведения (Alfa-ABacus)
БакетированиеАльтернативный способ создания страт через равномерные интервалы (Glowbyte)
Линеаризация ratioМожно стратифицировать перед линеаризацией для ratio-метрик (Kuper)
Propensity Score StratificationРасширение для observational data из Causal Inference (HH)

§ Источники

8 ядерных заметок (≥7 упоминаний):

16 контекстных — см. grep -rlE "[Сс]тратификац|[Ss]tratif" AB/.