TL;DR
Находим переменную Z, которая влияет на treatment D, но на outcome Y — только через D. Три условия: relevance, exclusion, independence. Оценивает LATE (для compliers).
LATE (Local Average Treatment Effect) — эффект для compliers: тех, чей treatment status меняется из-за инструмента. Не ATE (для всех), не ATT (для treated). Compliers — скрытая подгруппа, её характеристики неизвестны.
| Условие | Формально | Проверяемость |
|---|---|---|
| 1. Relevance | Cov(Z, D) ≠ 0 | ✓ Проверяемо: F-stat first stage ≥ 10 |
| 2. Exclusion | Z → Y только через D | ✗ Непроверяемо: нужна теория |
| 3. Independence | Z ⊥ ε | ✗ Непроверяемо: нужна теория |
Дополнительно (для LATE): monotonicity — инструмент сдвигает всех в одну сторону (нет "defiers").
| Проверка | Что смотрим | Красный флаг | Что делать |
|---|---|---|---|
| First stage F-stat | F ≥ 10 в регрессии D ~ Z | F < 10 | Слабый инструмент → LIML, AR CI, или отказ |
| Reduced form | Регрессия Y ~ Z напрямую | Нет эффекта Z на Y | Если Z не влияет на Y → нет эффекта D на Y (через Z) |
| Balance on Z | Ковариаты не коррелируют с Z | Корреляция Z с X | Independence под вопросом |
| Over-id (Sargan/Hansen J) | Согласованность инструментов (если > 1) | Отвержение H₀ | Хотя бы один Z невалиден |
# Two-Stage Least Squares:
# First stage: D_i = π₀ + π₁·Z_i + v_i
# → получаем D̂_i (предсказанные значения)
# Second stage: Y_i = β₀ + β₁·D̂_i + ε_i
# → β₁ = LATE
# Wald estimator (simple IV, 1 instrument):
β_IV = Cov(Y, Z) / Cov(D, Z)
= (Ȳ_z1 − Ȳ_z0) / (D̄_z1 − D̄_z0)
F < 10: оценка 2SLS смещена к OLS, CI ненадёжны. Решения: Anderson-Rubin CI (robust), LIML estimator, или честно признать, что IV неприменим. Stock & Yogo (2005): F < 10 → "weak instrument problem".
Если инструментов больше, чем эндогенных переменных — over-identified. Тест Sargan (Hansen J): проверяет, согласованы ли инструменты. Отвержение H₀ = хотя бы один невалиден. Но: низкая мощность, не указывает на конкретный инструмент.
Оцениваем эффект посещения магазина (D) на покупку (Y). Инструмент (Z): дождь (0/1) — влияет на посещение, но не на покупку напрямую.
| День | Дождь (Z) | Посещение (D) | Покупка (Y) |
|---|---|---|---|
| 1 | 0 | 1 | 50 |
| 2 | 0 | 1 | 45 |
| 3 | 0 | 1 | 55 |
| 4 | 0 | 0 | 10 |
| 5 | 1 | 0 | 5 |
| 6 | 1 | 0 | 8 |
| 7 | 1 | 1 | 48 |
| 8 | 1 | 0 | 12 |
# Step 1: Reduced form (Y ~ Z)
Ȳ_z0 = mean(50, 45, 55, 10) = 40.0 (без дождя)
Ȳ_z1 = mean(5, 8, 48, 12) = 18.25 (дождь)
# Step 2: First stage (D ~ Z)
D̄_z0 = mean(1, 1, 1, 0) = 0.75 (без дождя)
D̄_z1 = mean(0, 0, 1, 0) = 0.25 (дождь)
# Step 3: Wald estimator
β_IV = (Ȳ_z0 − Ȳ_z1) / (D̄_z0 − D̄_z1)
= (40.0 − 18.25) / (0.75 − 0.25)
= 21.75 / 0.50 = 43.5
# LATE = 43.5 (эффект посещения на покупку для compliers)
Ожидаемый результат: β_IV = 43.5. Это LATE для compliers — людей, которые посещают магазин в хорошую погоду, но не в дождь.
Инструмент: расстояние от дома до спортзала. Treatment: посещение спортзала. Outcome: здоровье. Проверьте три условия валидности.
Relevance: ✓ Ближе к залу → чаще ходят (проверяемо, F-stat). Exclusion: ⚠ Сомнительно. Расстояние коррелирует с районом → качество воздуха, парки, инфраструктура → напрямую влияет на здоровье. Exclusion restriction скорее всего нарушена. Independence: ⚠ Сомнительно. Здоровые люди могут выбирать жильё ближе к залу (selection). Z не случаен. Вывод: инструмент, скорее всего, невалиден.
IV regression: first stage F = 4.2, β_IV = +25%, SE = 18%. Что делать?
F = 4.2 < 10 → слабый инструмент. Оценка β_IV = +25% ненадёжна (смещена к OLS). SE тоже ненадёжны. Действия: (1) построить Anderson-Rubin CI (robust к weak IV), (2) попробовать LIML, (3) если AR CI = [−10%, +60%] — эффект не идентифицирован, нужен другой инструмент или дизайн.