A/B-тестирование: принятие решений на практике
Как читать результаты экспериментов в реальных продуктах и не принимать неправильные решения — через графики, механизмы и чеклисты.
Курс — про то, как читать результаты A/B-теста и принимать на их основе решения. Не про то, как считать статистику (для этого есть статистика A/B) и не про то, как тесты планировать. Здесь — что делать, когда результат на руках: где сигнал, где шум, где каннибализация, где лаг.
Материал собран по реальным конфликтам метрик из практики. Каждый урок отвечает на один вопрос аналитика. Каждый сценарий — короткий разбор реальной ситуации с графиком. Соседний курс — математика монетизации — про то, откуда вообще берутся эти метрики и почему они конфликтуют.
Курс возвращается как открытая публичная библиотека. Без обещаний дедлайна и без дорожной карты — уроки и сценарии добавляются по мере готовности.
Шесть вопросов перед решением
Шесть шагов протокола распределены по трём типам решения, которые аналитик принимает по результатам теста: можно ли верить эффекту, что именно дал эффект, можно ли его масштабировать. Порядок шагов в протоколе не совпадает с порядком типов — это нормально, протокол идёт по убыванию подозрений.
- Сигнал vs шум. Тип 1 — можно ли верить эффекту. Есть ли реальное изменение или это флуктуации? Смотри на форму кривой, а не только на среднюю дельту. Если эффект нестабилен и CI широкие — это шум, нужны данные.
- Форма эффекта. Тип 1 — можно ли верить эффекту. Step change, ramp или bounce? Это определяет устойчивость. Если эффект новизны (bounce) — не катим. Если нарастает (ramp) — ждём стабилизации. Если стабилен (step) — можно решать.
- Время и лаг. Тип 1 — можно ли верить эффекту. Окно оценки меняет вывод? Эффект приходит с задержкой? Не останавливай на первом плюсе. Фиксируй минимальную длительность заранее. Продлевай, если нестабильно.
- Агрегация и сегменты. Тип 3 — можно ли масштабировать. Total-first. Проверь сегменты: не маскирует ли агрегат разнонаправленные эффекты? Веса сегментов изменились? Если да — пересчитай мыслью «как было бы при старых весах».
- Каннибализация и системный эффект. Тип 3 — можно ли масштабировать. Локальная победа или системный проигрыш? Формат выиграл, но total упал? Это каннибализация. Решение по total revenue/RPM, не по локальным метрикам.
- Механизм и решение. Тип 2 — что именно дал эффект. Какой механизм: цена / объём / микс / воронка? Согласованы ли Primary / Diagnostic / Guardrails? Если механизм понятен, эффект устойчив, guardrails в порядке — катим. Если нет — перезапуск или не катим. Если механизм требует каузального вывода без A/B — см. квазиэксперименты.
Уроки
- 01 · Цена и объём: откуда берётся выручка
- 02 · Когда статистика не даёт ответа
- 03 · Почему локальный рост ломает систему
- 04 · Когда рано делать выводы
- 05 · Как принимать решение по результатам эксперимента
Практика
Сценарии — короткие разборы реальных ситуаций. Доступны три сценария: рост CPM с падением выручки, обратный — рост выручки без движения CPM, и парадокс ad load.