Causal Inference — синтез

Сводка по 12 заметкам из AB/, где обсуждаются методы причинно-следственного анализа за пределами рандомизированных A/B. 6 «ядра» (≥14 упоминаний) — основные источники.

§ 01 В чём область

Causal Inference (CI) — семейство методов оценки эффекта воздействия в ситуациях, когда рандомизированный A/B невозможен или некорректен:

фича уже работает на всех — нельзя выключить
ограниченный пул объектов (магазины города) — рандомизация даёт несопоставимые группы
этичные/правовые ограничения — нельзя «лечить» одних и «не лечить» других
историческое наблюдение — нужна оценка постфактум

Базовый фреймворк — Rubin Causal Model / Potential Outcomes (PO): оцениваем разницу Y(i|t=1) − Y(i|t=0), где невозможно одновременно наблюдать обе версии у одного объекта. Альтернатива — Structural Causal Model (SCM) с графами причинности.

Главная сложность — конфаундеры: переменные, влияющие и на treatment, и на outcome. Если их не контролировать, оценка эффекта будет смещена. Решение — балансировать группы по этим переменным.

§ 02 Как применяют в компаниях

компания	особенность
HH (Kochnev)	Главная методичка (93 упоминания): PO vs SCM, propensity score matching (PSM), IPW, пакеты CausalML (Uber) и DoWhy (Microsoft)
X5 (Tech)	Doubly Robust модель в офлайн-ритейле: propensity score + linear regression; гарантия корректной оценки если хотя бы одна модель специфицирована верно. Эволюция за 4 года от классического A/B
X5 (балансировка)	Полный обзор PSM, Exact Matching, Coarsened Exact Matching (CEM), Mahalanobis Distance Matching (MDM), IPW, регрессия как методы балансировки
X5 (Nazarov)	Отдельная статья про Diff-in-Diff — интуиция, формальное изложение, когда заменяет рандомизацию
Lamoda	Квазиэксперимент для контент-продукта (Discovery): Simple Matching → PSM → Diff-in-Diff в комбинации
Uzum	CausalImpact (Google): байесовские структурные временные ряды, синтетический контрольный ряд; кейс «введение минимальной стоимости заказа»
expf (Лоладзе)	Обзор семьи: DiD, Causal Impact, Jacknife estimator, PSM; концепция confounders + SUTVA
ODS (Бабаев)	«Лестница доказательств причинно-следственного анализа» — позиционирует CI ниже классических A/B
Citymobil	Causal Inference на стыке со switchback для сетевых эффектов

§ 03 Где работает хорошо

Оценка работающей фичи постфактум — нельзя выключить, нет ретроспективного A/B (HH, Uzum «изменение цены»)
Офлайн-ритейл с ограниченным пулом — рандомизация даст несопоставимые магазины, нужна балансировка по фичам (X5)
Раскатка на 100% после пилота — Causal Impact оценивает финальный эффект, минуя сложности дизайна (ODS)
Долгосрочные эффекты — синтетический контрольный ряд (CausalImpact) хорошо показывает кумулятивный эффект во времени (Uzum)
Когда выборка не позволяет рандомизировать — мало объектов, ограниченная гео-граница (X5, Lamoda)
Внешние шоки и интервенции — DiD ловит изменение тренда при правильном выборе контрольной группы (X5 Nazarov)

§ 04 Подводные камни

Конфаундеры — главная угроза. Если переменная влияет и на treatment, и на outcome — оценка смещена. В отличие от рандомизированного A/B, тут балансировка не автоматическая (HH).
PSM работает только при наличии «близнецов». Если для пользователя из тест-группы нет похожего в контроле — он исключается; псевдоконтроль может стать сильно меньше изначальной выборки (Лоладзе).
DiD требует параллельных трендов до интервенции. Если до treatment тренды у групп уже расходились — оценка эффекта неверна (X5 DiD).
Менее надёжно, чем рандомизированный A/B. «Лестница доказательств»: квазиэксперименты — это ступень ниже RCT (Uzum, ODS).
SUTVA (Stable Unit Treatment Value Assumption) часто нарушается. Если есть network effect — оценка через PSM/DiD будет смещена (Лоладзе, Citymobil).
CausalImpact чувствителен к выбору ковариат. Качество синтетического контроля = качество прогноза модели; плохие ковариаты → ложный «эффект» (Uzum).
Doubly Robust требует хотя бы одной правильной модели. Если обе (PSM и регрессия) специфицированы плохо — оценка не имеет гарантий корректности (X5).
Confusing causality with ML association. В обычной ML-модели важность фичи ≠ её причинный эффект (HH).

§ 05 Связанные методы

метод	роль
Propensity Score Matching (PSM)	Базовая техника: оценить вероятность попадания в treatment, мэтчить по этой вероятности (HH, X5, Lamoda)
Inverse Probability Weighting (IPW)	Альтернатива мэтчингу: вместо отбора — пересчёт весов; «псевдопопуляция» (HH, X5)
Diff-in-Diff (DiD)	Сравнение изменений во времени между treated и control: «разность разностей»; подаётся как аналог CUPED для observational (X5 Nazarov, HH)
CausalImpact (Google)	Байесовские структурные временные ряды; синтетический контроль из ковариат (Uzum, expf)
Synthetic Control Method (SCM)	Раскатка на 100% → сравнение с синтетическим контролем из истории (expf)
Coarsened Exact Matching (CEM)	Развитие Exact Matching: непрерывные признаки → категории, потом точное совпадение (X5)
Mahalanobis Distance Matching (MDM)	Мэтчинг по расстоянию Махаланобиса (учёт ковариаций) (X5)
Doubly Robust estimation	Композиция PSM + регрессии: корректна, если хотя бы одна спецификация верна (X5)
Jacknife estimator	Leave-one-out оценка как робастный способ агрегировать ежедневные лифты (expf)
CUPED как метод	Технически разные, но HH прямо сопоставляет: DiD = аналог CUPED для observational
CausalML (Uber)	Python-пакет: PSM, IPW, uplift modeling (HH)
DoWhy (Microsoft)	Python-пакет: создание графа зависимостей + проверка предположений (HH)
Switchback	Альтернатива observational для сетевых эффектов в реальном времени (Citymobil, expf)

§ Источники

6 ядерных заметок (≥14 упоминаний):

Causal Inference from Observational Data (HH, 93) · От AB-тестирования к Causal Inference в оффлайн ритейле (X5, 56) · Методы балансировки в AB тестировании (X5, 38) · Diff-in-diff — жизнь за пределами идеального эксперимента (X5, 18) · А если без A-B-тестов: квазиэксперименты (Lamoda, 17) · Causal Impact как инструмент аналитика в Uzum (Uzum, 14)