Lesson 3: Агрегаты врут — A/B-тестирование: принятие решений на практике

Одна картинка в голове

Агрегат = сумма сегментов с весами. Общий результат — это не просто среднее, а взвешенная сумма результатов по сегментам.

Если веса сегментов меняются (mix shift), агрегат меняется сам по себе — даже если внутри каждого сегмента ничего не изменилось.

Поэтому "общий плюс" без проверки сегментов — опасен. Может быть, внутри каждого сегмента эффект отрицательный, но агрегат вырос за счёт перетока трафика.

Сегмент A (много трафика) → вес 70% Сегмент B (мало трафика) → вес 30% ↓ Итоговый агрегат

3 причины, почему меняется mix

Устройство/платформа: desktop vs mobile. Разные устройства могут по-разному реагировать на изменение, и их доля в трафике может сдвинуться.
Placement / инвентарь: переток трафика между блоками. Новый формат может "забрать" показы у старого, изменив состав.
Сезонность / дни недели: состав аудитории меняется. В выходные может быть больше мобильного трафика, в будни — desktop.
Экспозиция/охват: кого "догнали" новой логикой. Если изменение затронуло только часть пользователей, их доля в трафике может вырасти.

Simpson's paradox — как это выглядит в A/B

Внутри каждого сегмента тест хуже: Desktop −1.0%, Mobile −0.5%.
Но общий результат "лучше": All users +0.6%.
Потому что в тесте вырос вес "лёгкого" сегмента (например, mobile стал 60% вместо 40%).
Вывод: нельзя решать по агрегату без проверки состава. Нужно смотреть на сегменты и веса.

Каннибализация: local win → system loss

Локально формат/плейсмент выигрывает: CTR/CPM/RPM выросли. Но он забирает внимание/показы у других мест в системе.

Total revenue может упасть, потому что показы перетекли из более эффективных мест в менее эффективные (хотя локально новый формат лучше).

Правило: total-first. Локальные метрики — диагностические. Решение принимается по total revenue/RPM, а не по локальным победам.

Мини-протокол проверки (anti-Simpson)

Primary total (revenue/RPM) — что происходит? Это главная метрика.
Разрезы: device/platform/placement — где эффект? В каких сегментах видно изменение?
Веса сегментов: доли трафика/показов/пользователей — изменились? Сравни контроль и тест.
Пересчёт "как было бы при старых весах": reweight мыслью. Если бы веса остались как в контроле, какой был бы эффект?
Внутри сегментов эффект стабилен? Не маскирует ли агрегат разнонаправленные эффекты?
Нет ли перетока показов/внимания (каннибализация)? Локальные победы не забирают ли у total?
Решение: total-first + guardrails. Катим только если total вырос и guardrails в порядке.

Типовые паттерны эффектов

Следующие паттерны демонстрируют механизмы сегментации и каннибализации:

Дифференцированное воздействие по сегментам — сегментация и оптимизация для разных групп пользователей
Рост вовлечённости без роста денег — каннибализация внимания, когда вовлечённость растёт, а выручка падает

Перейти к практике

Практика по этому типу решения: → Открыть все сценарии этого типа