Эксперимент — не машина для измерения дельты. Это способ проверить гипотезу о механизме: «мы думаем, что если сделаем X, произойдёт Y через механизм Z». Результат эксперимента отвечает не на вопрос «выросло или нет», а на вопрос «работает ли механизм, который мы предположили».
Типовая ошибка — свести результат к одной строке: «+5%, p<0.05, катим». Это игнорирует guardrails, форму эффекта, сегменты и механизм. Primary выросла — но за счёт чего? Для кого? Что сломалось рядом? Без ответов на эти вопросы решение основано на числе, а не на понимании.
Структура хорошего эксперимента
Гипотеза
Что мы предполагаем
Нет гипотезы = «посмотрим, что будет»
→
Механизм
Через что это должно работать
Нет механизма = стрельба по метрике
→
Primary
Что измеряем
Primary без связи с механизмом = ловушка Goodhart
→
Diagnostic
Что объясняет результат
Без diagnostic: «выросло, но не знаем почему»
→
Guardrails
Что ограничивает вред
Без приоритета = игнорируется при росте primary
→
Решение
Go / no-go / iterate
Решение по одной метрике = иллюзия
Пример: новый онбординг
Primary: конверсия +5%, p<0.05Guardrail: время до покупки +40%Retention D14: без изменений
Ожидаемый механизмНовый онбординг помогает понять ценность продукта быстрее → пользователь покупает осознаннее и раньше
Что произошлоКонверсия выросла, но время до покупки увеличилось на 40%. Онбординг не ускорил решение — он создал больше «точек давления» (баннеры, напоминания), которые конвертируют, но не убеждают
Что значит +40% времениПользователи покупают не потому, что поняли ценность, а потому, что устали от давления. Это не осознанная конверсия — это compliance. Retention D14 не вырос — подтверждение
РешениеНе катить. Primary формально положительная, но механизм сломан: рост конверсии за счёт давления, а не ценности. Guardrail сигнализирует. Следующий шаг: итерация онбординга без pressure-элементов, проверка связи «понимание → покупка»
Типовая ошибка интерпретации
«Primary +5%, p<0.05 — тест положительный, катим.»
p<0.05 говорит, что разница не случайна. Не говорит, что она полезна. Рост primary при нарушенном guardrail означает: мы нашли способ двинуть метрику, но не через тот механизм, который хотели. Это не успех — это сигнал, что нужно разобраться.
Как читать эксперимент как систему
Primary без guardrails — опасно. Любая метрика растёт, если не ограничивать побочные эффекты
Конфликт метрик важнее дельты. Primary +5% и guardrail −10% — это не «+5%», это конфликт, требующий разбора
Null — тоже результат. Отсутствие эффекта на primary при изменении diagnostic = механизм не работает, но что-то происходит
Сегменты важнее среднего. +3% в среднем может быть +15% для одних и −5% для других
Форма эффекта важнее финальной цифры. +5% на первой неделе и +5% на шестой — разные истории о разных механизмах
Что вы начинаете видеть после модуля
Эксперимент как проверку механизма, а не как измерение дельты
Конфликт между primary и guardrail — и почему он ценнее, чем «всё зелёное»
Ситуации, когда положительная primary маскирует сломанный механизм
Null-результаты, которые несут больше информации, чем «значимый рост»
Как формулировать гипотезу так, чтобы эксперимент мог её опровергнуть
Практика
Алгоритм рекомендаций: CTR vs. diversity — развёрнутый кейс
Упрощение формы заявки: компенсирующие эффекты
Гарантия времени доставки: primary vs. stress системы