← A/B-статистика / Статистика A/B-тестирования / Модуль 3

Модуль 3. Распределения

TL;DR

В реальных A/B-тестах форма распределения метрики решает почти всё: какой тест применим, какова реальная мощность, насколько устойчиво p-value к повторному запуску. Распределения продуктовых данных редко нормальные — heavy tail, zero inflation и смешанные формы доминируют, и стандартный t-test может «жить» или давать ложные результаты в зависимости от их характеристик.

Этот модуль идёт от мотивации (зачем смотреть на распределение) через каталог типовых форм продуктовых данных и инструменты визуальной диагностики к практическим последствиям для выбора теста. Сквозной кейс — метрика Revenue per user (e-commerce) — показывает как несколько типов распределения проявляются в одной реальной задаче.

1. Зачем распределения в A/B: что ломается, если их игнорировать

«Среднее» не всегда отражает продукт

Revenue per user: среднее = 120₽. Но 80% пользователей = 0₽, 15% = 50–200₽, 5% = 500–10 000₽. Среднее описывает «типичного пользователя», которого не существует. Решение на основе разницы средних — решение на основе абстракции.

Число сессий: среднее = 4.2. Но медиана = 2, мода = 1, а один пользователь с 500 сессиями сдвигает среднее всей группы. t-test сравнивает средние — но если среднее нестабильно, p-value тоже нестабилен.

Как распределение влияет на статтест и power

Каждый статтест делает допущения о данных. t-test предполагает, что среднее имеет нормальное распределение (CLT). Это работает при:

достаточном N (тысячи, не десятки)
конечной дисперсии
отсутствии экстремальных выбросов

Если эти условия нарушены — CLT сходится медленно. p-value «плывёт»: один запуск даёт 0.03, повторный — 0.45. Power analysis обещает 80%, реальная power — 30%.

Вывод: прежде чем выбирать тест — посмотрите на данные. Не на среднее, а на форму.

2. Типовые формы продуктовых данных

Доля (Bernoulli / Binomial)

Каждая единица — 0 или 1. Агрегированная доля — биномиальная.

Примеры: CR (купил / не купил), CTR (кликнул / не кликнул), retention (вернулся / нет).

Свойства: дисперсия = p(1−p)/n. Максимальна при p = 0.5, минимальна при крайних значениях. CLT работает быстро — z-test надёжен уже при n > 1000 (если p не слишком близко к 0 или 1).

Когда ломается: при p < 0.01 или p > 0.99 нормальная аппроксимация плоха. Нужен точный тест Фишера или bootstrap.

В нашем сквозном кейсе — это «факт покупки» как бинарная переменная (1 если revenue > 0, 0 иначе). 20% единиц из 80/20-расщепления.

Счётчики (Poisson / Negative Binomial)

Число дискретных событий за период. Целые неотрицательные значения.

Примеры: число заказов за неделю, число сессий за день, число кликов по рекомендациям.

Свойства: Poisson: среднее = дисперсия. В реальности дисперсия обычно больше (overdispersion) → Negative Binomial. Правый хвост, асимметрия. Zero inflation частая — большая масса в нуле.

Практическое следствие: t-test на счётчиках формально работает (CLT), но при большой overdispersion среднее нестабильно. При zero inflation стоит разделить метрику: конверсия (0/1) + среднее среди активных.

Время (Exponential / Weibull, heavy right tail)

Время до события: всегда положительное, часто с длинным правым хвостом.

Примеры: время до первой покупки, время загрузки страницы, время доставки, time-to-resolution в support.

Свойства: сильная правая асимметрия. Медиана << среднего. Несколько «застрявших» кейсов (доставка через 2 недели вместо 2 часов) драматически сдвигают среднее.

Практическое следствие: t-test на средних — рискованно. Winsorization (ограничить максимум) или log-трансформация. Bootstrap предпочтительнее.

Деньги (Log-normal / Pareto-like, смесь)

Revenue, GMV, LTV, средний чек. Положительные, с тяжёлым правым хвостом.

Примеры: revenue per user, GMV per user, LTV 90 дней.

Свойства: часто хорошо аппроксимируются log-normal (в логарифме — нормальные). Но хвост может быть ещё тяжелее (Pareto-like): 1% пользователей = 40% выручки. Это не outlier — это структура рынка.

Практическое следствие: среднее определяется хвостом. t-test зависит от нескольких наблюдений. Bootstrap, trimmed mean, winsorization — обязательны. Log-трансформация работает, но меняет интерпретацию (вы тестируете геометрическое среднее, а не арифметическое).

В нашем кейсе именно это — распределение revenue среди тех 20% пользователей которые что-то купили: среднее 600₽, медиана 200₽, 5% дают 500-10K₽.

Нулевая инфляция (Zero-inflated)

Большая масса в нуле + непрерывное или дискретное распределение для ненулевых.

Примеры: purchases per user (80% = 0), revenue per user, число рефералов.

Свойства: двухкомпонентная смесь: (1) «нулевой процесс» (пользователь не конвертировался) + (2) «ненулевой процесс» (распределение среди конвертировавших). Среднее близко к нулю, медиана = 0, дисперсия завышена.

Практическое следствие: мощность t-test резко падает. Разделение на CR (proportion) + среднее среди конвертировавших — проще и мощнее. CUPED с pre-period помогает (снижает дисперсию на 30–50%).

Сквозной кейс — точный учебник: 80% = 0₽ (не купили), и условное распределение покупающих имеет свой Pareto-like хвост.

Смешанные распределения (Mixtures)

Данные — смесь нескольких подпопуляций.

Примеры: время в приложении (active users vs passive), revenue (freemium vs premium), latency (cache hit vs miss).

Свойства: бимодальные или мультимодальные гистограммы. Среднее не описывает ни одну из подгрупп. Дисперсия завышена.

Практическое следствие: если treatment по-разному влияет на подгруппы — средний эффект маскирует гетерогенность. Стоит стратифицировать анализ или использовать quantile-методы.

Revenue per user — почти всегда mixture: freemium-пользователи (масса в нуле) + платящие со своим long tail. Lump-and-tail форма.

3. Диагностика: как понять форму без формул

Симптомы heavy tail

Среднее >> медианы (отношение >1.5–2×)
Топ-1% наблюдений содержит >10% от суммы
При удалении 10 наблюдений среднее меняется >5%
t-test даёт разные результаты при повторных запусках (нестабильный p-value)

Симптомы zero inflation

Медиана = 0
Мода = 0
Более 50% наблюдений = 0
Гистограмма: огромный столбец в нуле, затем «хвост» ненулевых

Skewness, outliers, long tail

Skewness > 2 → сильная правая асимметрия → t-test рискован
Outliers: точки, далёкие от Q3 + 1.5·IQR → проверить, это ошибка или структура данных
Если outliers — структура (whale users в revenue) → winsorization/bootstrap, не удаление

Что смотреть: графическая диагностика

Гистограмма — форма, модальность, масса в нуле
Гистограмма в log-шкале — если после логарифма данные похожи на колокол → log-normal
Q-Q plot — отклонение от прямой в хвостах → heavy tail
Box plot — медиана, IQR, whiskers, outliers

Формулы не нужны. Достаточно посмотреть на гистограмму и ответить на 3 вопроса:

Есть ли масса в нуле?
Есть ли тяжёлый правый хвост?
Похоже ли на смесь (>1 моды)?

На практике все 4 типа графиков можно построить за пару минут — для интерактивного «крутить параметры и видеть как меняется форма» см. Distribution Playground.

4. Практические последствия для A/B

Почему t-test часто «живёт», но иногда врёт

CLT гарантирует, что среднее стремится к нормальному распределению при N → ∞. На практике:

Для пропорций (Bernoulli): N > 1000 обычно достаточно
Для лёгких хвостов (Poisson, counts): N > 5000
Для денежных метрик (log-normal): N > 10 000–50 000
Для heavy tail (Pareto-like): CLT может сходиться очень медленно — десятки тысяч недостаточно

«t-test живёт» значит: при повторных запусках p-value стабилен. «Врёт» значит: один запуск — p = 0.02, другой — p = 0.6. Если ваша метрика в heavy tail зоне, увеличение выборки помогает, но медленно.

Когда bootstrap предпочтительнее

Heavy tail (revenue, GMV, LTV)
Малая выборка (<5K на группу)
Ratio-метрики (bootstrap отношения проще, чем delta-method)
Когда нет уверенности в форме распределения (unknown shape)

Bootstrap не «лучше» t-test — он робастнее. При лёгких хвостах t-test точнее и дешевле.

Когда log-трансформация уместна

Данные положительные и правоскошенные
В log-шкале — приблизительно нормальные (log-normal)
Вы готовы интерпретировать результат как отношение средних (geometric mean ratio), а не разность

Риск: log(0) не определён. При zero inflation нужен log(x + 1) (log1p) — но это искажает распределение и ослабляет эффект. Не рекомендуется при >30% нулей.

Когда winsorization / trimming — и какие риски

Winsorization — замена значений выше P99 (или P95) на пороговое. Сохраняет наблюдения, снижает влияние хвоста.

Trimming — удаление крайних значений. Теряем данные, но среднее стабильнее.

Риски: (1) Если treatment влияет на хвост (например, увеличивает число whale users) — winsorization скрывает реальный эффект. (2) Порог (P95 vs P99) — произвольный. Разные пороги дают разные p-value.

Рекомендация: зафиксировать порог до эксперимента. Показывать результат с winsorization и без — как sensitivity check.

Ratio-метрики: отдельная опасность

AOV = GMV / orders. И числитель, и знаменатель — случайные величины. Распределение отношения — не log-normal и не нормальное, даже если каждый компонент по отдельности «нормальный».

Следствие: ни t-test на средних AOV, ни log-трансформация не корректны. Нужен delta-method (линеаризация) или bootstrap отношения.

Подробнее — Модуль 02 (типы метрик) и Модуль 04 (выбор теста).

5. Мостик к выбору теста

Форма данных	Риск	Рекомендованный подход
Бинарная (0/1)	Минимальный при p ∈ [0.01, 0.99]	z-test для долей
Счётчики (Poisson-like)	Overdispersion, zero inflation	t-test (с осторожностью) / bootstrap
Время (right tail)	Heavy tail, нестабильное среднее	Bootstrap / winsorization
Деньги (log-normal)	Heavy tail, extreme outliers	Bootstrap / trimmed mean / log1p (если мало нулей)
Zero-inflated	Потеря power	Разделить на CR + среднее среди ненулевых
Ratio	Ковариация числителя/знаменателя	Delta-method / bootstrap отношения
Mixture	Гетерогенность эффекта	Стратификация / quantile-методы

Что теперь умеешь видеть

В реальной задаче — узнавать форму метрики до того как выберешь тест. Семь сигналов: среднее много больше медианы (heavy tail); один-два пользователя сдвигают p-value на 0.3+ при повторе (instability от выбросов); большая масса в нуле плюс длинный хвост (zero inflation + Pareto); скачок между двумя группами пользователей в гистограмме (mixture); среднее у одной выборки совпадает с медианой, у другой расходится в 5 раз (разные продуктовые режимы); CTR около 0% или 100% (биномиальная аппроксимация может не подойти при малых N).

Что делать дальше: дойти от формы до метода — Модуль 04: Карта выбора статкритерия и его дерево из четырёх вопросов. Для практической диагностики на своих данных — Distribution Playground.

Практика

13 задач на распознавание форм распределений
Диагностика heavy tail, zero inflation, смесей и outliers
Связь формы распределения с выбором статтеста и мощностью

Открыть практику

Симуляторы

Distribution Playground — визуализация распределений и их влияния на A/B-тест

Открыть симуляторы