Модуль 1. Почему causal сложно

TL;DR

Корреляция ≠ причинность. Без рандомизации любое сравнение смещено из-за confounders, selection bias и interference. Квазиэксперименты — набор приёмов, каждый со своими допущениями.

Фундаментальная проблема

Каузальный эффект = Y₁ − Y₀ для одного юнита, но мы наблюдаем только один потенциальный исход. A/B-тест решает это через рандомизацию: группы в среднем одинаковы. Без рандомизации нужны допущения.

Ключевые угрозы идентификации

УгрозаСутьПример
ConfoundersФактор влияет и на treatment, и на outcomeМотивированные пользователи чаще используют фичу и чаще покупают
Selection biasГруппы систематически различаются до treatmentРегионы с высоким доходом раньше получают новый продукт
SUTVAOutcome юнита зависит от treatment другихПромокод для друзей меняет поведение и контрольной группы
Interference / spilloverTreatment "перетекает" между группамиМаркетплейс: изменение комиссии у продавцов меняет поведение покупателей
AnticipationСубъекты реагируют до формального treatmentОбъявление о повышении комиссии — продавцы меняют поведение заранее
Глубже: потенциальные исходы (Rubin framework)

Для каждого юнита i существуют два потенциальных исхода: Y_i(1) при treatment и Y_i(0) без. Наблюдаем только один. ATE = E[Y(1) − Y(0)]. ATT = E[Y(1) − Y(0) | D=1]. Рандомизация делает {Y(0), Y(1)} ⊥ D. Квазиэксперименты достигают этого условно: ⊥ | X, или ⊥ | Z, или ⊥ в окрестности порога.