Глоссарий.

60 терминов по экспериментам, статистике и метрикам — без воды.

Эксперименты и причинность

A/B Test

Метод #

Рандомизированный контролируемый эксперимент: пользователи случайно делятся на группы для измерения каузального эффекта изменения.

Ключевое: рандомизация устраняет confounders и позволяет измерить каузальный эффект.

Частая ошибка: подглядывание в результаты до окончания теста (peeking).

A/A Test

Метод #

Тест без реального изменения: обе группы идентичны. Проверяет корректность сплитования и метрик.

Ключевое: ожидаемый результат — отсутствие различий. Если различия есть — проблема в системе.

Alpha (α)

Статистическая мера #

Допустимая вероятность ложноположительного результата (Type I error). Обычно α = 0.05.

Ключевое: α задаёт порог для p-value: если p < α, отвергаем H₀.

Частая ошибка: путать α с вероятностью ошибки конкретного теста.

Beta (β)

Статистическая мера #

Вероятность ложноотрицательного результата (Type II error). Мощность = 1 − β.

Ключевое: β определяет, заметит ли тест реальный эффект. Обычно β = 0.2 (мощность 80%).

Causal Inference

Концепция #

Методы установления причинно-следственных связей из данных, когда рандомизированный эксперимент невозможен.

Ключевое: без рандомизации нужна идентификационная стратегия (DiD, matching, IV).

Cluster Randomization

Метод #

Рандомизация на уровне кластеров (город, команда, регион), а не отдельных пользователей.

Ключевое: эффективный размер выборки зависит от числа кластеров, а не от числа наблюдений.

Частая ошибка: считать N = сумма наблюдений, а не N = число кластеров.

Контроль vs тест (Control vs Test)

Концепция #

Сравнение контрольной и тестовой группы как разбор причин эффекта, не только фиксация «+/−».

Ключевое: нужно разложить итог на вклад шагов и понять механизм.

Частая ошибка: останавливаться на «значимо / незначимо» без декомпозиции.

CUPED

Метод #

Метод снижения дисперсии метрики за счёт использования предэкспериментальных данных.

Ключевое: снижает variance и уменьшает MDE.

Частая ошибка: использовать без проверки корреляции covariate и outcome.

Difference-in-Differences (DiD)

Метод #

Квазиэкспериментальный метод: сравнение изменения метрики до/после в treatment vs control группе.

Предпосылка: параллельные тренды до вмешательства.

Частая ошибка: нарушение предпосылки параллельных трендов без проверки.

Guardrail Metrics

Концепция #

Метрики-ограничители: не должны деградировать при раскатке. Защищают от побочных эффектов.

Ключевое: guardrails — «красные линии», а не цели оптимизации.

Частая ошибка: оценивать только primary KPI без контроля побочных эффектов.

Matching

Метод #

Подбор пар «похожих» наблюдений из treatment и control для снижения selection bias.

Ключевое: качество matching определяется балансом ковариат, а не outcome.

Раскатка (Rollout)

Концепция #

Применение изменения на 100% трафика после успешного эксперимента.

Частая ошибка: линейно экстраполировать эффект без учёта доли трафика в тесте.

Spillover Effect

Концепция #

Влияние эксперимента на пользователей вне тестовой группы.

Ключевое: нарушает предпосылку независимости наблюдений.

Частая ошибка: игнорировать сетевые или кластерные эффекты.

Statistical Power

Статистическая мера #

Вероятность обнаружить эффект, если он реально существует. Power = 1 − β.

Ключевое: зависит от размера выборки, MDE и variance метрики.

Частая ошибка: запускать тест без расчёта мощности — рискуете не увидеть реальный эффект.

Synthetic Control

Метод #

Конструирование «синтетического» контроля из взвешенной комбинации доноров для оценки эффекта на единичном объекте.

Ключевое: применяется, когда нет прямой контрольной группы (один регион, один продукт).

Статистика и распределения

Bonferroni Correction

Метод #

Коррекция уровня значимости при множественном тестировании: α_adj = α / k, где k — число тестов.

Ключевое: контролирует FWER (вероятность хотя бы одного ложноположительного).

Частая ошибка: применять при большом k — метод слишком консервативен, теряется мощность.

Bootstrap

Метод #

Метод оценки распределения статистики через многократную ресемплинг-выборку с возвращением из наблюдаемых данных.

Ключевое: не требует предположений о форме распределения.

Частая ошибка: применять к зависимым данным без блочного или кластерного bootstrap.

Central Limit Theorem (ЦПТ)

Статистическая мера #

При достаточно большой выборке распределение среднего стремится к нормальному, независимо от формы исходного распределения.

Ключевое: работает для среднего при достаточном n.

Частая ошибка: применять к малым выборкам или heavy-tailed данным без проверки.

Confidence Interval (Доверительный интервал)

Статистическая мера #

Диапазон значений, содержащий истинный параметр с заданной вероятностью (обычно 95%).

Ключевое: 95% CI — это свойство процедуры построения интервала, а не вероятность параметра.

Частая ошибка: «95% вероятность, что параметр внутри» — неверная частотная интерпретация.

Delta Method (Дельта-метод)

Метод #

Аппроксимация дисперсии функции случайной величины через разложение Тейлора первого порядка.

Ключевое: позволяет построить CI для ratio-метрик (ARPU, CR) без bootstrap.

Частая ошибка: применять при сильной нелинейности или малой выборке, где линейная аппроксимация не работает.

Effect Size

Статистическая мера #

Величина различия между группами в стандартизованных единицах (Cohen's d, относительный lift).

Ключевое: статистическая значимость (p-value) ≠ практическая значимость (effect size).

FDR (False Discovery Rate)

Метод #

Ожидаемая доля ложных открытий среди всех отвергнутых гипотез. Контролируется процедурой Benjamini–Hochberg.

Ключевое: FDR менее консервативен, чем FWER (Bonferroni) — допускает больше открытий при контролируемой ошибке.

Частая ошибка: путать FDR с FWER — это разные метрики множественного тестирования.

Heteroskedasticity (Гетероскедастичность)

Статистическая мера #

Неравномерность дисперсии ошибок в модели.

Ключевое: нарушает предпосылки OLS и искажает стандартные ошибки.

Частая ошибка: игнорировать при анализе регрессии.

ICC (Intraclass Correlation)

Статистическая мера #

Доля общей дисперсии, объясняемая группировкой (кластером). ICC = σ²_between / (σ²_between + σ²_within).

Ключевое: чем выше ICC, тем сильнее кластерный эффект и тем больше нужно кластеров.

Частая ошибка: игнорировать ICC при расчёте размера выборки для cluster-randomized экспериментов.

Linearization (Линеаризация)

Метод #

Замена ratio-метрики (Y/X) линеаризованной версией для корректного расчёта дисперсии и сравнения групп.

Ключевое: linearized metric = Y − θ̂·X, где θ̂ — оценка ratio на контроле.

Частая ошибка: сравнивать средние ratio напрямую (ratio of means ≠ mean of ratios).

MDE (Minimum Detectable Effect)

Статистическая мера #

Минимальный эффект, который тест способен обнаружить при заданных α, β и размере выборки.

Ключевое: MDE определяет, стоит ли запускать тест — если нужный эффект ниже MDE, тест бесполезен.

Частая ошибка: задавать MDE как «желаемый», а не как минимально значимый для бизнеса.

Mean (Среднее)

Статистическая мера #

Среднее арифметическое: сумма значений / количество наблюдений.

Частая ошибка: использовать mean для скошенных распределений (доходы, длительности) — один выброс сдвигает всё.

Median (Медиана)

Статистическая мера #

Значение, делящее упорядоченную выборку пополам. Устойчива к выбросам.

Ключевое: для скошенных данных median информативнее mean.

Multiple Testing Problem

Статистическая мера #

Рост вероятности ложноположительных результатов при множественных гипотезах.

Ключевое: чем больше тестов, тем выше общий Type I error.

Частая ошибка: проводить 10+ тестов без корректировки.

P-value

Статистическая мера #

Вероятность получить наблюдаемый (или более экстремальный) результат при истинности H₀.

Ключевое: p < α → отвергаем H₀. Но p-value — не вероятность истинности гипотезы.

Частая ошибка: p = 0.06 не означает «почти значимо».

Robust SE (Робастные стандартные ошибки)

Метод #

Стандартные ошибки, устойчивые к гетероскедастичности (HC) или кластерной корреляции (CR).

Ключевое: не исправляют оценку коэффициента — только корректируют дисперсию оценки.

Частая ошибка: использовать кластерные SE без учёта числа кластеров (мало кластеров → занижение SE).

Standard Deviation (Стандартное отклонение)

Статистическая мера #

√variance. Разброс данных в тех же единицах, что и сами данные.

Ключевое: ±1 SD покрывает ~68% данных при нормальном распределении.

Standard Error (Стандартная ошибка)

Статистическая мера #

Оценка разброса выборочной статистики (например, среднего) относительно истинного значения. SE = σ / √n.

Ключевое: чем больше выборка, тем меньше стандартная ошибка.

Частая ошибка: путать стандартное отклонение (SD) со стандартной ошибкой (SE).

Type S / Type M Errors

Концепция #

Ошибки знака (Type S) и масштаба (Type M) при интерпретации значимых результатов. Type S — неверное направление эффекта, Type M — завышение его размера.

Ключевое: при низкой мощности значимые результаты с высокой вероятностью преувеличены или имеют неверный знак.

Частая ошибка: фокусироваться только на p-value без оценки Type M exaggeration ratio.

Unit of Randomization

Концепция #

Уровень, на котором происходит случайное распределение в эксперименте: пользователь, сессия, устройство, кластер.

Ключевое: unit of randomization должен совпадать с unit of analysis, иначе нужны кластерные SE.

Частая ошибка: рандомизировать по пользователю, а анализировать по событию — занижение SE.

Variance (Дисперсия)

Статистическая мера #

Средний квадрат отклонений от среднего. Мера разброса данных.

Ключевое: высокая variance → нужна большая выборка для обнаружения эффекта в A/B.

Метрики и процессы

ARPU (Average Revenue Per User)

Метрика #

Средний доход на пользователя за период. ARPU = Revenue / Users.

Ключевое: ARPU = CR × средний чек. Декомпозиция показывает, где рычаг.

Conversion Rate

Метрика #

Доля пользователей, совершивших целевое действие. CR = conversions / visitors.

Ключевое: CR — rate, не count. Рост трафика при стабильных конверсиях = падение CR.

CPM (Cost Per Mille)

Метрика #

Цена за 1000 монетизируемых показов.

Ключевое: CPM — цена, не деньги. Выручка = цена × объём.

Частая ошибка: рост CPM на сужении инвентаря может уменьшить revenue.

Dashboard

Концепция #

Визуальное представление ключевых метрик для мониторинга состояния продукта.

Частая ошибка: перегрузка дашборда метриками, которые не требуют действий.

Data Analytics

Концепция #

Системный процесс извлечения выводов из данных для принятия решений.

Ключевое: аналитика — не отчётность, а понимание механизмов и их последствий.

Эластичность (Elasticity)

Статистическая мера #

На сколько % меняется объём при изменении цены на 1%. Определяет стратегию оптимизации.

Частая ошибка: считать elasticity постоянной — она меняется с уровнем pressure и market regime.

Fill Rate (Коэффициент заполнения)

Метрика #

Доля ответов: fill rate = responses / requests. Пропускная способность верхней части воронки.

Ключевое: fill rate — не «качество рекламы», а конверсия верхнего шага.

LTV (Lifetime Value)

Метрика #

Совокупный доход от пользователя за всё время жизни в продукте.

Ключевое: LTV > CAC — условие устойчивости бизнеса.

Частая ошибка: считать LTV без дисконтирования и без учёта churn.

Механизм (Mechanism)

Концепция #

Причинно-следственная цепочка, объясняющая поведение системы. Не корреляция, а «как работает».

Ключевое: без механизма нельзя предсказать эффект в новых условиях.

Монетизируемые показы (Monetized Shows)

Метрика #

Показы, участвующие в выручке. Главный «объёмный» множитель вместе с CPM.

Частая ошибка: любые показы = деньги. Не все shows монетизируются.

North Star Metric

Концепция #

Единая ключевая метрика, отражающая ценность продукта для пользователя.

Ключевое: NSM — метрика ценности (WAU, messages sent), не revenue.

Частая ошибка: выбирать revenue как North Star — это следствие, не причина.

Давление рекламы (Ad Pressure)

Концепция #

Интенсивность показа рекламы пользователю: частота/плотность экспозиции.

Ключевое: pressure — скорость «насыщения». Высокое давление даёт краткосрочный рост, но снижает CTR.

Price vs Volume Trade-off

Концепция #

Обратная зависимость между ценой (CPM) и объёмом (monetized shows).

Ключевое: оптимум — баланс, где произведение максимально, не один из множителей.

Запросы (Requests)

Метрика #

Объём входящего спроса — попыток получить рекламу. Верх воронки.

Ключевое: деньги появляются только если дальше сохраняются Fill/Show и цена.

Частая ошибка: рост Requests ≠ рост выручки.

Ответы (Responses)

Метрика #

Успешные ответы на requests — «разрешение» системы продолжить воронку, но не факт показа.

Частая ошибка: путать responses с показами.

Retention

Метрика #

Доля пользователей, вернувшихся к продукту через N дней после первого визита.

Ключевое: retention показывает product-market fit лучше, чем acquisition.

Частая ошибка: сравнивать retention разных когорт без учёта сезонности.

Выручка (Revenue)

Метрика #

Деньги от монетизации. Итог мультипликативной цепочки: объём × цена.

Ключевое: чтобы понять причину, нужно разложить на множители.

Частая ошибка: читать revenue без декомпозиции.

Декомпозиция выручки (Revenue Decomposition)

Метод #

Разложение выручки на вклад факторов (объёмные шаги воронки + цена).

Ключевое: если итоговый эффект не объясним вкладом шагов — это шум или плохая модель.

Вклад в риск (Risk Contribution)

Метрика #

Доля дисперсии результата, объяснимая конкретным активом/фактором.

Ключевое: актив с 40% веса может давать 70% риска — это дисбаланс.

Насыщение (Saturation)

Концепция #

Состояние, когда увеличение входного параметра не даёт пропорционального роста результата или снижает его.

Ключевое: сигнал, что нужно искать другой механизм роста.

Show Rate (Коэффициент показа)

Метрика #

Доля монетизируемых показов: show rate = monetized_shows / responses.

Ключевое: часто именно на уровне show rate «съедается» эффект.

Показы (Shows)

Метрика #

Фактические показы рекламы. Промежуточный уровень между responses и monetized shows.

Ключевое: shows — объём экспозиции, деньги зависят от монетизируемой части.

Стресс-сценарий (Stress Scenario)

Метод #

Смоделированный шок: одновременное изменение нескольких параметров, имитирующее кризис.

Ключевое: показывает уязвимость. Потеря >2.5% в сценарии — сигнал концентрации риска.

Unit Economics

Концепция #

Экономика одной единицы (пользователя, заказа): доходы и расходы на уровне юнита.

Ключевое: положительная unit economics — необходимое условие масштабирования.

← Workspace