Окно меняет вывод

На 3–4 день тест "минус", на 10–14 день — "плюс". Что делать?

Контекст эксперимента

В тесте усилили один рекламный формат/плейсмент (подняли приоритет, добавили показы, поменяли место).

Эксперимент длился 14 дней, трафик стабильный. CPM при этом примерно стабильный, изменения похожи на адаптацию поведения/системы.

В первые 3–4 дня основная метрика (Revenue/RPM) ниже контроля (примерно −1.2%).

Начиная с 7–8 дня метрика выравнивается и к концу теста становится выше (примерно +0.8%).

Вопрос: какой вывод делать и как выбирать окно оценки?

Подумай

Какой вывод ты сделаешь на 4-й день? А на 14-й?
Это "шум", "адаптация", "эффект с лагом" или "смена режима"?
Какие метрики-диагностики подтвердят механизм лага (show/fill, coverage, latency, частота, усталость)?
Когда останавливать тест (stop rules), если раннее окно показывает минус?
Как выбрать окно оценки и что писать в итоговом отчёте?

Показать разбор

Разбор

На графике видно, что дельта меняет знак: первые дни отрицательная, затем пересекает ноль и становится положительной. Это классический паттерн эффекта с лагом.

Объяснение: Эффекты могут приходить с лагом по разным причинам: поведение пользователя (адаптация, привыкание), рынок (конкуренция, сезонность), система (кеши, переобучение, прогрев), обучение (инвентарь, рекомендации), раскрытие инвентаря (show rate растёт постепенно).

Три причины "ранний минус → поздний плюс":

Пользовательская адаптация: Поведение меняется постепенно. Пользователи привыкают к новому месту блока, новому формату показа. Первые дни может быть негативная реакция (непривычно, мешает), затем адаптация и улучшение вовлечённости.
Стабилизация системы/торгов: Переобучение моделей, прогрев кешей, стабилизация торговых алгоритмов. Система "учится" работать с новым форматом, и эффективность растёт со временем.
Раскрытие инвентаря/рост show rate: Эффект проявляется постепенно. Например, lazy load начинает работать лучше по мере того, как пользователи скроллят дальше, или инвентарь "раскрывается" постепенно, увеличивая show rate.

Протокол чтения:

Смотреть не только итоговую дельту, но и форму кривой: Если кривая меняет знак или направление — это важный сигнал. Нужно понять механизм, а не просто усреднить.
Проверить диагностические метрики: Shows, show rate, fill/coverage, responses. Если show rate растёт постепенно, а fill rate стабилизируется — это подтверждает механизм лага.
Сравнить 1–3 день vs 10–14 день и понять механизм, а не "среднее": Не усреднять по всему окну, а разобрать раннее и позднее поведение отдельно. Что изменилось между этими периодами?
Заранее задавать окно и stop rules: Иначе отчёт станет пост-хок. Если окно выбирается после просмотра данных, это самообман. Нужно заранее определить: какое окно для оценки, какие stop rules для раннего останова.

Важно: "Окно меняет вывод" — красный флаг, требующий механистического объяснения. Если вывод зависит от выбора окна, нужно объяснить, почему это происходит, иначе решение будет ненадёжным.

Вывод

❌ Неправильный вывод:

«На 3-й день минус — значит тест провалился, останавливаем. Или наоборот: на 14-й день плюс — значит катим.»

✅ Корректный вывод:

Оценка зависит от окна: раннее окно (1–4 день) показывает минус, позднее (10–14 день) — плюс. Если форма кривой меняет знак, нужен разбор механизма и проверка диагностических метрик (show rate, fill, coverage). Решение должно приниматься по заранее заданным правилам (окно и stop rules) и с объяснением лага: почему эффект пришёл позже? Если механизм понятен (адаптация, стабилизация системы, раскрытие инвентаря) и поздний эффект устойчив — можно рассматривать выкат. Если механизм неясен — нужно продлить тест или переработать дизайн.

⚠️ Чего нельзя утверждать:

Нельзя утверждать, что "поздний плюс гарантированно устойчив" — возможно, это временная адаптация, которая потом вернётся к минусу. Нельзя утверждать, что "ранний минус был просто шум" — нужно проверить диагностические метрики и понять механизм. Нельзя утверждать, что можно выбирать окно постфактум без риска самообмана — если окно выбирается после просмотра данных, это cherry-picking и ненадёжное решение.

Окно меняет вывод

Контекст эксперимента

Подумай

Разбор

Вывод

Связанные темы