← Назад к курсу экспериментов

Анатомия эксперимента

Эталонный разбор: от гипотезы до решения.

Если эксперимент нельзя описать так — его нельзя интерпретировать.

Изменение
Увеличение давления на инвентарь через повышение частоты показов в высокоценных сегментах
Ожидаемый рычаг
Volume (рост показов) и Price (рост конкуренции), компенсация через Mix (сдвиг в высококачественные сегменты)
Primary метрика
Revenue index (нормализованная выручка), Revenue per user
Guardrails
Quality proxy (состав инвентаря), Frequency tail (доля высокочастотных показов), Retention proxy (возврат пользователей), Risk index (накопление усталости)
Окно оценки
Long (60 дней) — требуется время для накопления эффекта давления и оценки устойчивости качества
Ожидаемый лаг
Поведенческий (7–14 дней — привыкание), системный (3–5 дней — инерция аукциона), рыночный (конкуренция адаптируется в течение 10–20 дней)
Основной риск
Перегруз (накопление усталости через частоту) и Mix shift (вытеснение низкочастотных сегментов высокочастотными)
Решение по итогам
Iterate (доработать дизайн с ограничением частоты в хвостах) — revenue растёт, но guardrails показывают накопление риска

1) Гипотеза

Как выглядит плохая гипотеза

Как выглядит хорошая гипотеза

Если мы изменим [механизм], то [рычаг] изменится так-то, потому что [причина], при этом мы ожидаем риск [X], который контролируем [guardrails].

2) Механизм

Механизм Что должно измениться Как проверить
Изменение давления Частота показов, доля высокочастотных сегментов, накопление усталости Frequency distribution, pressure proxy, fatigue indicators, coverage изменения
Изменение доступности инвентаря Coverage, fill rate, eligible-to-show conversion, потеря в цепочке Decomposition по слоям воронки, lost-to-constraints share, delivery bottlenecks
Изменение цены/конкуренции CPM index, auction price, конкуренция за внимание, ограничения (floors) Price vs volume decomposition, competition intensity proxy, constraint indicators
Изменение формата (внимание) CTR, engagement proxy, глубина просмотра, время на странице ShowConv, attention metrics, distribution shift в engagement, displacement indicators
Изменение частоты/усталости Frequency tail, возврат пользователей, retention proxy, накопление риска Frequency buckets, cohort analysis, fatigue accumulation, late effects window
Изменение латентного риска Risk index, guardrail degradation, скрытая деградация качества Long-term proxy, late effects, guardrail trends, distribution tails
Изменение микса Composition shift, качество инвентаря, сегментные доли, variance Segment analysis, quality-weighted metrics, distribution spread, coverage changes
Изменение времени/лагов Задержка эффекта, адаптация, накопление, режимные переходы Short vs long window comparison, lag indicators, baseline drift, regime change signals

3) Риски и артефакты

Каннибализация
Рост в тестовом сегменте компенсируется падением в остальной системе. Revenue теста растёт, total revenue не меняется.
Страховка: Смотреть total revenue, не только test segment. Декомпозиция по сегментам. Мониторинг соседних поверхностей как guardrail.
Вытеснение (displacement)
Рост показов в одном месте ценой падения глубины просмотра, дочиток, времени на странице. CTR растёт, engagement падает.
Страховка: Engagement proxy как guardrail. Проверка distribution shift в глубине просмотра. Мониторинг displacement indicators.
Нестабильный baseline
Контрольная группа "плавает" из-за внешних факторов (рынок, сезонность, параллельные тесты). Выводы искажаются.
Страховка: Baseline model (ожидание). Контрольные сегменты. Проверка стабильности control group. Учёт сезонности и шоков.
Параллельные тесты
Несколько тестов одновременно меняют систему. Эффекты интерферируют, выводы становятся неверными.
Страховка: Мониторинг пересечений тестов. Стратификация по экспериментам. Изоляция групп или последовательный запуск.
Сезонность
Рыночные циклы (день недели, праздники, периоды) маскируют эффект или создают ложный эффект.
Страховка: Сравнение одинаковых дней недели. Baseline adjustment. Окно кратно сезонности. Контрольные сегменты.
Лаг
Эффект проявляется позже, чем окно оценки. Короткое окно ловит адаптацию, а не устойчивый эффект.
Страховка: Long window (60+ дней для поведенческих эффектов). Ранние сигналы (proxy). Мониторинг late effects. Ожидаемый лаг в дизайне.
Proxy drift
Ранний сигнал (proxy) меняется, но итоговая метрика не следует. Proxy перестаёт быть валидным индикатором.
Страховка: Проверка корреляции proxy с primary. Мониторинг divergence. Не полагаться только на proxy, смотреть primary и guardrails.
Distribution shift
Среднее растёт, но хвосты деградируют. Распределение меняется, качество падает, но средняя метрика "красивая".
Страховка: Смотреть quantiles, не только среднее. Проверка хвостов. Distribution comparison. Coverage и quality proxies.
Перегруз
Краткосрочный рост revenue через давление → долгосрочный ущерб через усталость, деградацию качества, падение retention.
Страховка: Guardrails (frequency tail, retention, quality). Long window. Мониторинг risk accumulation. Fatigue indicators.
Эффект выкатки
При выкатке на всю систему эффект меняется из-за масштаба, конкуренции, saturation. Тест "победил", выкатка "проиграла".
Страховка: Постепенная выкатка (canary, staged rollout). Мониторинг на каждом этапе. Проверка saturation и масштабных эффектов.

4) Дизайн

5) Метрики

Primary (1–2)
Метрика, которую хотим улучшить. Обычно revenue или его proxy.
  • Не больше 2 primary
  • Чётко определена до теста
  • Измерима и устойчива
Diagnostic (разложение)
Метрики, объясняющие, почему изменилось. Декомпозиция на рычаги.
Guardrails (3–5)
Метрики, которые нельзя ухудшать. Защита от скрытой деградации.
  • Guardrails до запуска
  • Устойчивость, retention, quality
  • Risk indicators

6) Интерпретация результатов

1
Что изменилось по primary
Направление изменения (рост/падение/нейтрально) и величина эффекта в окне оценки. Сравнение short vs long window.
2
Разложение на рычаги
Вклад компонентов: price effect (рост/падение цены), volume effect (изменение объёма), mix/quality effect (сдвиг микса или качества). Какой рычаг доминирует?
3
Что стало с guardrails
Ранние сигналы (coverage, showConv, pressure proxy) и поздние (retention, risk accumulation). Что ухудшилось, что осталось стабильным?
4
Проверка окна
Short window vs long window. Если short показывает рост, а long — падение или стабилизацию, это сигнал нестабильности или усталости.
5
Проверка артефактов
Рынок (сезонность, шоки), давление (каннибализация, displacement), микс (композиционный сдвиг). Что могло исказить вывод?
6
Формулировка решения и риск
Катить / итерация / продолжить / откат. Какой риск принимаем? Что мониторим после выкатки?

3 типа решений

Rollout (катим)
Когда выбирать: Primary растёт, guardrails стабильны, разложение понятно, артефакты проверены, эффект устойчив в long window.

Что мониторить после: Guardrails (особенно поздние), risk accumulation, стабильность эффекта, сезонность, масштабные эффекты при выкатке.
Iterate (дорабатываем)
Когда выбирать: Primary растёт, но guardrails показывают риск или эффект неустойчив. Нужен другой дизайн (ограничения, сегментация, параметры).

Что мониторить после: Новые guardrails, изменённые параметры, проверка гипотезы о причине риска, сравнение с предыдущей итерацией.
Stop/Revert (останавливаем/откатываем)
Когда выбирать: Guardrails сработали (критическое ухудшение), primary падает, эффект отрицательный, риск неприемлемый.

Что мониторить после: Восстановление guardrails, возврат к baseline, проверка долгосрочных последствий, анализ причин неудачи.

7) После выката: мониторинг

Что мониторим Почему Какой сигнал тревоги
Guardrail метрики Защита от скрытой деградации, особенно поздние guardrails (retention, risk) Ухудшение на 5%+ от baseline или выход за порог тревоги, установленный в дизайне
Риск/усталость Накопление давления, frequency tail, fatigue accumulation могут проявиться поздно Risk index растёт быстрее revenue, frequency tail увеличивается, fatigue indicators ухудшаются
Микс/качество Композиционный сдвиг может маскировать деградацию, среднее растёт, хвосты падают Distribution shift, quality proxy падает, coverage ухудшается, variance растёт
Стабильность цены/volume Рост цены может компенсироваться падением объёма, эффект неустойчив Price растёт, volume падает, revenue стабилизируется или падает, эластичность достигнута
Сезонность/рынок Внешние факторы могут искажать эффект, особенно при выкатке на всю систему Baseline drift, контрольные сегменты расходятся, сезонные паттерны меняются
Распределения/хвосты Среднее может расти, пока хвосты деградируют, качество падает скрыто Quantiles расходятся, хвосты ухудшаются, distribution spread увеличивается
Каннибализация Рост в одном месте компенсируется падением в другом, total revenue не растёт Test segment растёт, соседние сегменты падают, total revenue стабилен или падает
Латентные эффекты Эффекты могут проявиться поздно (усталость, деградация, режимные переходы) Late effects window показывает ухудшение, guardrails падают после выкатки, risk накапливается
Масштабные эффекты При выкатке на всю систему эффект может измениться из-за saturation, конкуренции, масштаба Эффект в тесте больше, чем при выкатке, saturation достигнута, конкуренция адаптировалась
Стабильность эффекта Эффект должен быть устойчивым во времени, не только в окне оценки Эффект ослабевает со временем, revenue возвращается к baseline, guardrails продолжают ухудшаться

Эксперимент заканчивается не отчётом, а решением и мониторингом.