← A/B-статистика / Статистика A/B-тестирования / Модуль 5

Модуль 5. Ускорение тестов

TL;DR

Если эксперимент «долго считается» — обычно проблема не в трафике, а в дисперсии. Уменьшить σ² вдвое — это математически эквивалентно удвоению выборки, но стоит на порядок дешевле. Этот модуль покрывает четыре техники variance reduction (CUPED, стратификация, winsorization, регрессионная корректировка) и одну decision-table в Section 7 для выбора метода под конкретную задачу.

Сквозной кейс — метрика Revenue per user (e-commerce, 120₽ avg, SD=800₽, искомый эффект +6₽). На нём показано, какой выигрыш даёт каждая техника и как их комбинировать. Параллельный кейс доставки еды в Section 4 показывает где стратификация работает лучше CUPED — когда между группами пользователей есть структурная неоднородность.

1. Почему тесты «долго считаются»

Что такое variance в A/B

Variance (дисперсия) — мера шума в данных. Чем выше дисперсия метрики, тем сложнее отличить реальный эффект от случайного колебания.

Revenue per user: среднее = 120₽, SD = 800₽. Эффект +5% = +6₽. Шум в 130× больше сигнала. Чтобы t-test увидел этот эффект — нужны сотни тысяч пользователей.

Конверсия 5%: SD = √(0.05 × 0.95) ≈ 0.22. Эффект +1 п.п. = 0.01. Шум в 22× больше сигнала — но это уже лучше, чем revenue. Поэтому тесты на конверсию быстрее.

Почему power = функция дисперсии

Power (мощность) — вероятность обнаружить реальный эффект. Формула упрощённо:

n ∝ σ² / δ²

где σ² — дисперсия метрики, δ — размер эффекта. Удвоить выборку — дорого (время × трафик). Уменьшить дисперсию вдвое — эквивалент удвоения выборки, но бесплатно.

Как variance влияет на MDE и длительность

MDE (Minimal Detectable Effect) — минимальный эффект, который тест может обнаружить при заданных N и power.

MDE ∝ σ / √n

Если снизить дисперсию на 40%:

MDE падает на ~23% (√0.6 ≈ 0.77)
Или: тот же MDE достигается в 1.7× меньшей выборке
Или: тест заканчивается в 1.7× быстрее

Это не теория — это операционный рычаг. Команда, использующая CUPED, запускает в 1.5–2× больше экспериментов в год при том же трафике.

2. Основная идея ускорения

Не увеличивать трафик, а уменьшать шум

Три стратегии ускорения:

Больше трафика — дорого, ограничено продуктом
Больший эффект — не контролируемо (зависит от фичи)
Меньше шума — бесплатно, контролируемо, масштабируемо

Variance reduction — это третья стратегия. Мы не меняем данные, а убираем из них компоненту шума, которая не связана с treatment.

Разделить signal и noise

Метрика Y = treatment_effect + user_baseline + random_noise.

Treatment effect — то, что мы ищем. User baseline — то, что было бы без эксперимента (пользователь и так тратит 200₽ в месяц). Random noise — случайные колебания.

Если мы знаем user_baseline (из pre-period данных), мы можем вычесть его:

Y_adj = Y − θ · X_pre

Остаётся: treatment_effect + остаточный_noise. Дисперсия Y_adj < дисперсия Y.

3. CUPED — интуиция

Pre-period как ковариата

CUPED (Controlled-experiment Using Pre-Experiment Data) использует данные до эксперимента как ковариату. Если пользователь тратил 200₽/мес до эксперимента, вероятно, он потратит примерно столько же и во время — плюс-минус эффект treatment.

Ковариата X_pre не зависит от treatment (собрана до начала). Поэтому её вычитание не вносит bias.

В сквозном кейсе (Revenue per user, σ=800₽) корреляция pre/post обычно 0.5-0.7, и CUPED уменьшает дисперсию на 25-50% — эффективно удваивает выборку без дополнительного трафика.

Корреляция до/после

Ключевой параметр — корреляция ρ между X_pre и Y:

Variance reduction = ρ²

ρ (корреляция)	Снижение дисперсии	Эквивалент в трафике
0.3	9%	1.1×
0.5	25%	1.3×
0.7	49%	2×
0.9	81%	5×

При ρ = 0.7 вы получаете эффект удвоения выборки — бесплатно. При ρ = 0.9 — пятикратное увеличение.

Когда CUPED работает

Метрика стабильна во времени (revenue, число сессий, engagement)
Pre-period ≥ 1–2 недели (достаточно для стабильной оценки)
Нет тренда или сезонности в pre-period (или она одинакова в обеих группах)
Пользователь присутствует и в pre-, и в post-period

Когда CUPED не работает или опасен

Новые пользователи: нет pre-period → CUPED неприменим
Conditional-метрика: состав подвыборки зависит от treatment → ковариата невалидна (Модуль 01, Модуль 02)
Ковариата зависит от treatment: если X_pre измерена после start, но до exposure — это leakage
Низкая корреляция (ρ < 0.2): выигрыш <4% — не стоит усложнения
Дрейф метрики: если метрика нестационарна, pre-period ковариата шумит

Риск data leakage

Leakage — когда ковариата содержит информацию о treatment. Это происходит если:

Pre-period пересекается с периодом эксперимента
Ковариата включает данные «дня запуска» (ramp-up эффект)
Ковариата — агрегат, включающий post-treatment наблюдения

Правило: X_pre должен быть полностью собран до начала рандомизации. Ни одно наблюдение из X_pre не должно включать данные после assignment.

Чтобы покрутить параметры CUPED (корреляция pre/post, размер выборки, размер эффекта) и увидеть как меняется variance reduction в реальном времени — CUPED Simulator.

4. Стратификация и блокировка

Когда группы неоднородны

Если в эксперименте смешаны пользователи из разных сегментов (new vs returning, mobile vs desktop, город A vs город B) — дисперсия внутри каждого сегмента ниже, чем общая.

Стратификация — разбиение выборки на страты (блоки) и балансировка treatment/control внутри каждой страты.

Пример: города, сегменты, device

Доставка еды. Средний чек: Москва = 1800₽, регионы = 700₽. Общая дисперсия высокая. Если стратифицировать по городу — дисперсия внутри страт снижается на 15–30%.

Device: desktop users конвертируются в 3× чаще, чем mobile. Стратификация по device type убирает эту компоненту дисперсии.

Ошибки стратификации

Post-treatment стратификация. Нельзя стратифицировать по переменной, зависящей от treatment (число визитов во время теста). Только по pre-treatment характеристикам.
Слишком много страт. При 100+ стратах и малом N некоторые страты будут пустыми. Оптимально: 5–20 страт.
Стратификация без учёта в анализе. Если стратифицировали при рандомизации — анализ должен это учитывать (страт-специфические оценки + взвешивание).

5. Тримминг и winsorization

Heavy tail — что делать с шумом от хвоста

Revenue per user. 0.1% пользователей генерируют 30–40% дисперсии. Один whale user может изменить среднее группы на 1–2%. Это шум, не сигнал.

В сквозном кейсе (Revenue per user) winsorization по P99 «срезает» whale users, которые дают непропорциональную часть дисперсии. Эффект — снижение σ² на 30-50%, сопоставимое с CUPED. Можно применять последовательно с CUPED, эффекты складываются.

Что мы «режем»

Winsorization: значения выше P99 заменяются на P99. Наблюдения сохраняются, но хвост «обрезается».
Trimming: значения выше P99 удаляются. Теряем наблюдения, но среднее стабильнее.
Log-transform: сжимает правый хвост. Но меняет интерпретацию (геометрическое среднее).

Когда это искажает эффект

Если treatment создаёт whale users (premium-фича, enterprise deal) — winsorization скрывает реальный эффект. Вы «режете» именно то, что treatment создал.

Правило: (1) Зафиксировать порог до эксперимента. (2) Показывать результат с и без winsorization — sensitivity analysis. (3) Если бизнес-ценность в хвосте (enterprise) — winsorization неуместна.

Типичная дилемма: winsorization снижает дисперсию на 40%, но занижает эффект на 15%. Стоит ли? Зависит от контекста — универсального ответа нет.

6. Регрессия и ковариаты

Регрессионная корректировка

CUPED — частный случай регрессионной корректировки с одной ковариатой. В общем случае:

Y_adj = Y − Σ θ_k · X_k

где X_k — ковариаты (pre-period метрика, сегмент, device, регион).

Множественные ковариаты могут дать больший выигрыш, чем одна. Pre-period revenue + pre-period sessions + device type → совокупное снижение дисперсии 50–60%.

Множественные ковариаты

Каждая дополнительная ковариата добавляет incremental gain — но с убывающей отдачей. Первая ковариата (pre-period метрика) даёт 80% выигрыша. Вторая — ещё 10%. Третья — ещё 3%.

Практика: 1–3 ковариаты — sweet spot. Больше — переобучение и diminishing returns.

В сквозном кейсе (Revenue per user) типичный набор ковариат: pre-period revenue, число сессий за pre-period, device type, страна. Совокупный эффект — снижение σ² на 40-60%, заметно сильнее CUPED только по pre-revenue.

Переобучение и p-hacking

Если ковариаты выбирать после просмотра результатов — это p-hacking. Аналитик может подобрать набор ковариат, при котором результат «значимый».

Правило: ковариаты фиксируются в analysis plan до начала эксперимента. Любое отклонение — sensitivity analysis, не primary result.

7. Практическая таблица решений

Ситуация	Метод	Ожидаемый выигрыш	Риски
Есть pre-period, ρ > 0.5	CUPED	25–80% снижения дисперсии	Leakage, нестационарность
Есть pre-period, ρ < 0.3	CUPED даёт мало (<9%)	—	Не стоит усложнения
Heavy tail (revenue, LTV)	Winsorization + bootstrap	20–50% стабилизации	Скрывает эффект в хвосте
Гетерогенность (city, device)	Стратификация	10–30% снижения дисперсии	Post-treatment стратификация
Много нулей (zero inflation)	Разделение метрики (CR + mean)	Кратный рост power	Две метрики вместо одной
Conditional-метрика	CUPED ограничен	—	Selection bias (Модуль 01)
Новые пользователи	Стратификация (device, source)	5–15%	CUPED неприменим

Комбинирование методов

Методы не исключают друг друга. Типичный стек:

Winsorization (P99) → убрать шум хвоста
CUPED (pre-period) → вычесть baseline
Стратификация (device) → убрать гетерогенность

Совокупный эффект: дисперсия снижается на 50–70%. Тест, который занимал 4 недели, занимает 10–14 дней.

Связь с другими модулями:
Форма распределения → Distribution Playground (Модуль 03)
Выбор теста → Test Selection Map (Модуль 04)
CUPED в действии → CUPED Simulator

Что теперь умеешь применять

Четыре техники variance reduction и одно центральное соотношение: уменьшить σ² вдвое = удвоить выборку. Это даёт три практических правила. (1) CUPED: применяй когда есть pre-period данные с корреляцией pre/post > 0.3 и стабильная аудитория. Реалистичный выигрыш — 25-50% reduction. (2) Стратификация: применяй когда между группами пользователей есть структурная неоднородность (города, сегменты, платформы), и эта неоднородность объясняет большую часть дисперсии. Выигрыш зависит от силы стратификации, обычно 10-30%. (3) Winsorization / trimming: применяй когда heavy tail (P99 / медиана > 10) и хвост содержит шум, не сигнал. Риск — скрытие настоящего эффекта на хвосте. (4) Регрессионная корректировка: обобщение CUPED на несколько ковариат. Применяй когда есть 3+ предиктивных ковариата.

Что делать дальше: для конкретной задачи — Модуль 04: Карта выбора статкритерия и его дерево покажет сочетание метода variance reduction с подходящим статтестом. Для практической работы с CUPED — CUPED Simulator. Для диагностики формы метрики до выбора метода variance reduction — Модуль 03: Распределения и Distribution Playground.

Практика

13 задач на CUPED, стратификацию, winsorization и регрессионную корректировку
Реальные ситуации: heavy tail, низкая корреляция, новые пользователи, sequential testing
Для каждой задачи: метод ускорения, ожидаемый выигрыш и главный риск

Открыть практику

Симуляторы

CUPED Simulator: генерация синтетического A/B с pre-period ковариатой
Визуализация raw vs CUPED-adjusted SE, variance reduction и MDE
Наглядно покажет, как корреляция определяет выигрыш variance reduction

Открыть симуляторы