Ratio / линеаризация.

30 заметок · 9 компаний.

Сводка по 30 заметкам из AB/, где упоминаются ratio-метрики, линеаризация, дельта-метод или CTR. 10 «ядра» (от 11 и более упоминаний) — основные источники.

§ 01 В чём метод

Ratio-метрика — метрика-отношение двух сумм пользовательских сигналов: средний чек = ΣGMV / Σorders, CTR = Σclicks / Σviews, средняя длина сессии = Σtime / Σsessions. Особенность: знаменатель не равен числу пользователей — несколько заказов/показов могут принадлежать одному юзеру, наблюдения зависимы.

Стандартный t-test требует независимости — и на ratio-метриках даёт неверную оценку дисперсии. Чтобы корректно сравнить группы, есть три подхода:

  1. Бутстрап по объектам (пользователям) — семплируем юзеров с возвращением, считаем ratio в каждой подвыборке
  2. Дельта-метод — аналитическая формула дисперсии отношения через ряд Тейлора первого порядка
  3. Линеаризация — преобразуем ratio в среднюю поюзерную метрику с независимыми наблюдениями, после чего корректен обычный t-test

Формула линеаризации: L_i = X_i − k · Y_i, где k = ΣX_control / ΣY_control (global ratio по контролю). После преобразования среднее L — это и есть линеаризованная ratio-метрика, к ней применимы все методы для пользовательских метрик (включая CUPED).

§ 02 Как применяют в компаниях

компанияособенность
VKPractitioner's Guide (151 упоминаний) — самый полный обзор: global CTR через Poisson bootstrap, weighted bootstrap, дельта-метод, сравнение мощностей
Kuper (Mosin)Главная статья «Линеаризация — зачем и как укрощать ratio-метрики» (117); линеаризация + CUPED встроены в платформу A/B-тестов
Ozon«Шесть причин почему AB не работают»: ratio-метрики — одна из 6 главных ошибок; формула с ratio_correction = r + 2 + 1/r
expf (Лоладзе)Любую метрику можно свести к ratio-метрике; CTR-наивный vs CTR-правильный (взвешенный)
CitymobilSwitchback + дельта-метод + линеаризация (как «улучшенная версия» базового подхода); классический пример с назначаемостью как композитной метрикой
СамокатВнутренняя методичка про эквивалентность дельта-метода и дельта-линеаризации; интерпретация знаменателя; metrics decomposition
X5 (Nazarov)Базовая статья про дельта-метод; бутстрап для ratio с семплированием по объектам
AvitoAB-платформа: ratio как один из типов метрик
SравниАнализ ratio с примерами кода для bootstrap_ratio

§ 03 Где работает хорошо

§ 04 Подводные камни

§ 05 Связанные методы

методроль рядом с ratio/линеаризацией
Дельта-методАналитическая альтернатива линеаризации; Самокат: они эквивалентны при разложении первого порядка
Бутстрап по объектамУниверсальная альтернатива, не требует выводов; медленнее, но применима к любой статистике (X5, Kuper, Avito)
Linearization + CUPEDСтандартная связка для production-платформ (Kuper) — линеаризовали, затем сократили дисперсию через предэкспериментальные данные
Poisson bootstrapBig-data вариация бутстрапа для global CTR (VK)
Weighted user CTR bootstrapСемплирование с весами пропорционально активности (VK)
БакетированиеАльтернатива бутстрапу: режем выборку на N бакетов и считаем ratio в каждом — потом обычный t-test (Анализ ratio-метрик)
SRM checkОбязательная проверка корректности перед любым ratio-анализом (expf)
Switchback + дельтаДля метрик с социальными эффектами (Citymobil)
Прокси-метрикаЗамена ratio на предусредненное поюзерное значение (Kuper, как один из трёх подходов)

§ Источники

10 ядерных заметок (≥11 упоминаний):

20 контекстных — см. grep -rlE "[Лл]инеаризац|[Rr]atio|дельта-метод" AB/.