Одна картинка в голове
Агрегат = сумма сегментов с весами. Общий результат — это не просто среднее, а взвешенная сумма результатов по сегментам.
Если веса сегментов меняются (mix shift), агрегат меняется сам по себе — даже если внутри каждого сегмента ничего не изменилось.
Поэтому "общий плюс" без проверки сегментов — опасен. Может быть, внутри каждого сегмента эффект отрицательный, но агрегат вырос за счёт перетока трафика.
3 причины, почему меняется mix
- Устройство/платформа: desktop vs mobile. Разные устройства могут по-разному реагировать на изменение, и их доля в трафике может сдвинуться.
- Placement / инвентарь: переток трафика между блоками. Новый формат может "забрать" показы у старого, изменив состав.
- Сезонность / дни недели: состав аудитории меняется. В выходные может быть больше мобильного трафика, в будни — desktop.
- Экспозиция/охват: кого "догнали" новой логикой. Если изменение затронуло только часть пользователей, их доля в трафике может вырасти.
Simpson's paradox — как это выглядит в A/B
- Внутри каждого сегмента тест хуже: Desktop −1.0%, Mobile −0.5%.
- Но общий результат "лучше": All users +0.6%.
- Потому что в тесте вырос вес "лёгкого" сегмента (например, mobile стал 60% вместо 40%).
- Вывод: нельзя решать по агрегату без проверки состава. Нужно смотреть на сегменты и веса.
Каннибализация: local win → system loss
Локально формат/плейсмент выигрывает: CTR/CPM/RPM выросли. Но он забирает внимание/показы у других мест в системе.
Total revenue может упасть, потому что показы перетекли из более эффективных мест в менее эффективные (хотя локально новый формат лучше).
Правило: total-first. Локальные метрики — диагностические. Решение принимается по total revenue/RPM, а не по локальным победам.
Мини-протокол проверки (anti-Simpson)
- Primary total (revenue/RPM) — что происходит? Это главная метрика.
- Разрезы: device/platform/placement — где эффект? В каких сегментах видно изменение?
- Веса сегментов: доли трафика/показов/пользователей — изменились? Сравни контроль и тест.
- Пересчёт "как было бы при старых весах": reweight мыслью. Если бы веса остались как в контроле, какой был бы эффект?
- Внутри сегментов эффект стабилен? Не маскирует ли агрегат разнонаправленные эффекты?
- Нет ли перетока показов/внимания (каннибализация)? Локальные победы не забирают ли у total?
- Решение: total-first + guardrails. Катим только если total вырос и guardrails в порядке.
Типовые паттерны эффектов
Следующие паттерны демонстрируют механизмы сегментации и каннибализации:
- Дифференцированное воздействие по сегментам — сегментация и оптимизация для разных групп пользователей
- Рост вовлечённости без роста денег — каннибализация внимания, когда вовлечённость растёт, а выручка падает
Перейти к практике
Практика по этому типу решения: → Открыть все сценарии этого типа