Модуль 6. Эксперимент как инструмент понимания
Алгоритм рекомендаций: CTR вверх, diversity вниз
Медиа-платформа тестирует новый алгоритм рекомендаций. Гипотеза команды: «более релевантные рекомендации повысят вовлечённость и долгосрочное удержание».
CTR рекомендаций +20%
Time on platform +10%
Diversity index −30%
Retention D30 −3%
Гипотеза и механизм
Гипотеза: релевантные рекомендации → пользователь находит интересный контент быстрее → больше потребляет → формирует привычку → retention растёт. Ожидаемый механизм: рост качества выбора, а не количества кликов.
Что произошло
Оптимизация короткого цикла
Алгоритм научился предсказывать, на что пользователь кликнет — и подсовывает похожий контент. CTR растёт. Time растёт (пользователь в «пузыре»). Но diversity падает на 30% — алгоритм сузил поле. Retention D30 падает: через месяц пользователь «выедает» свою нишу и теряет интерес. Короткий цикл (клик → клик) оптимизирован, длинный (открытие → привычка) разрушен.
Конфликт: CTR и time = короткий цикл. Diversity и retention = долгосрочный механизм
Вопросы для разбора
- Какая гипотеза была до запуска — и проверяет ли CTR эту гипотезу?
- Что именно произошло с механизмом «рекомендация → открытие нового → привычка»?
- Почему CTR +20% — не доказательство «алгоритм лучше»?
- Что означает diversity −30% для долгосрочного здоровья платформы?
- Решение: катить / ограничить / переделать?
- Какие дополнительные метрики запросить (unique authors consumed, content fatigue, repeat clicks)?
Разбор
CTR — не цель, а прокси
CTR отражает совпадение рекомендации с текущим интересом. Но цель — не клики, а здоровое потребление, которое ведёт к retention. Новый алгоритм оптимизировал прокси (CTR) за счёт разрушения механизма (разнообразие → открытие → привычка). Падение retention D30 — прямое следствие. Это не «побочный эффект» — это сломанный механизм.
Итог: решение
Не катить в текущем виде. Ограничить: добавить constraint на diversity (минимум 40% уникальных авторов/тем в ленте). Переделать: оптимизировать не CTR, а «клик + возврат к автору через 3 дня» — прокси для здорового потребления. Запросить: unique content sources per user/week, content fatigue rate, repeat-click ratio.
Мини-задачи
Упрощение формы: заявки +15%, одобрения −10%, выдача 0
Финтех упростил форму заявки на кредит. Заявок +15% — барьер ниже. Но одобрений −10%: упрощение привлекло менее качественные заявки. Итоговая конверсия в выдачу — без изменений. Два механизма компенсируют друг друга.
Механизм
Рост заявок = снижение барьера (позитив). Падение одобрений = ухудшение качества входа (негатив)
Конфликт
«Ноль на выходе» — не отсутствие эффекта, а два эффекта, скрывающие друг друга
Преждевременное решение
«Нет эффекта — откатываем» без анализа промежуточных шагов
Следующий шаг
Добавить pre-screening до формы. Сохранить простоту, улучшить качество входного потока
Гарантия времени доставки: заказы +7%, NPS курьеров −12
Сервис доставки тестирует «гарантию 30 минут». Заказы +7%. Среднее время — без изменений, но дисперсия выросла вдвое. NPS курьеров −12 пунктов. Гарантия создала давление на операционку, которое среднее не показывает.
Механизм
Гарантия привлекает заказы (demand). Операционка не справляется (supply stress). Среднее стабильно, дисперсия взлетела
Конфликт
Primary (заказы) vs. stress системы (NPS курьеров, дисперсия). Guardrail нарушен
Преждевременное решение
«Заказы +7%, среднее время ОК — катим» без анализа дисперсии и supply health
Следующий шаг
Ограничить гарантию зонами с достаточным supply. Мониторить p95 delivery time, не среднее
Primary +3% (значимо), эффект только в 1 из 3 регионов
A/B-тест новой фичи: primary +3%, p<0.05 в агрегате. При разбивке по регионам: регион A +12%, регион B 0%, регион C −2%. Эффект существует, но только в одном контексте. Агрегат «тянет» один регион.
Механизм
Фича работает в контексте региона A (вероятно, специфика аудитории или supply). В остальных — нейтральна или негативна
Конфликт
Формальная значимость в агрегате vs. отсутствие эффекта в 2 из 3 регионов
Преждевременное решение
«Значимый результат — катим глобально»
Следующий шаг
Катить в регионе A. Для B и C — понять, почему механизм не сработал. Не масштабировать до понимания
Null result, но diagnostic показывает изменение
A/B-тест новой системы рейтингов. Primary (конверсия): 0%, не значимо. Но diagnostic: время на странице товара +15%, количество просмотренных отзывов +25%. Пользователи изменили поведение, но это не конвертировалось в покупки — пока.
Механизм
Рейтинги меняют поведение (больше читают, дольше выбирают). Конверсия не выросла — возможно, лаг или «паралич выбора»
Конфликт
Primary = null. Diagnostic = значимое изменение. Это не «нет эффекта» — это «эффект ещё не дошёл до primary»
Преждевременное решение
«Нет значимого эффекта — отбрасываем фичу»
Следующий шаг
Продлить тест. Добавить guardrail window. Проверить, конвертируется ли «дольше выбирают» в «реже возвращают» (качество покупки)