17 заметок · 7 компаний.
Сводка по 17 заметкам из AB/, где обсуждается критерий Манна-Уитни и непараметрические тесты. 6 «ядра» (≥3 упоминаний) — основные источники. Уникальность темы: две статьи противоположных мнений — Avito ругает, X5 защищает.
Манн-Уитни (U-тест) — непараметрический критерий сравнения двух выборок. Не работает со значениями метрики, а с рангами (порядковыми позициями):
Что на самом деле проверяет U-тест: гипотезу «выборки взяты из одного распределения» (тест однородности). Не сравнивает ни средние, ни медианы — это распространённое заблуждение.
Формально: H₀ говорит «случайно выбранное значение из одной выборки равновероятно больше или меньше случайного значения из другой» — но это эквивалентно равенству распределений только при определённых условиях (например, симметричный сдвиг).
| компания | позиция | особенность |
|---|---|---|
| Avito (Lunin) | ❌ «Самый главный враг AB-тестов» | Показывает на симуляциях: U[−1,1] vs U[−100,100] даёт FPR 11% вместо 5%. Манн-Уитни даёт ложные «прокрасы» относительно T-test, и это не преимущество, а проблема |
| X5 (Varioqub) | ✅ Защищают и используют | Под капотом Varioqub (AppMetrica) — Mann-Whitney. Авторы развенчивают мифы, объясняют, что критерий валиден в своих условиях; вводят Probability Index и связь с Wilcoxon |
| VK (Practitioner's Guide) | ✅ Базовый стандарт | «Often more powerful and more stable» для skewed distributions; сравнение FPR vs sensitivity; baseline при выборе любого fancy теста |
| expf (ранговая трансформация) | Прагматично | T-test на рангах ≈ Mann-Whitney. Когда инфраструктурно сложно применить MW — берут t-test на ранжированных данных |
| expf (Лоладзе) | Подсветка | «U-тест не проверяет равенство медиан, так как медиана — параметр» |
| Uchi | Стандартная рекомендация | Для маленьких выборок и больших выбросов; устойчивость к выбросам |
| Glowbyte / Avito (Часть 1) / Okko / Kuper | Упоминание | «Используем для ненормальных распределений» — без углубления |
| метод | роль рядом с MW |
|---|---|
| t-test | Параметрическая альтернатива; работает при нормальных данных или большом n (ЦПТ); более мощный при выполнении предпосылок |
| Ранговая трансформация | t-test на рангах ≈ MW; используется когда MW неудобно реализовать инфраструктурно (expf, Booking) |
| Wilcoxon signed-rank test | Парный вариант для зависимых наблюдений; X5/Varioqub упоминают |
| Probability Index | Альтернативная формулировка той же статистики — вероятность P(T > C); X5/Varioqub популяризируют |
| Bootstrap | Универсальная непараметрическая альтернатива; работает с любой статистикой, не только с рангами |
| Permutation test | Самый близкий концептуально метод — тоже работает с перестановками; в учебниках часто рядом с MW |
| CUPED + t-test | Если можно сократить дисперсию — иногда лучше CUPED+t-test, чем MW (Lunin) |
| Robust t-test / усечённый t-test | Trim outliers и применить t-test — альтернатива для устойчивости к выбросам (expf) |
| Симуляции | Для расчёта мощности MW (Лоладзе: «нет простой формулы») |
6 ядерных заметок (≥3 упоминаний):
Varioqub за Mann-Whitney замолвите слово (X5, 68) — защита и развенчание мифовКритерий Манна-Уитни — самый главный враг AB-тестов (Avito/Lunin, 34) — разоблачение и симуляцииPractitioner's Guide to Statistical Tests (VK, 9) — академический baselineУвеличиваем чувствительность экспериментов при помощи ранговой трансформации (expf, 6) — связь с ранговой трансформациейВся основная теория Лоладзе + expf (3) — концептуальная сводкаНа что мы обращаем внимание при расчете статистической значимости AB-теста (Uchi, 3) — стандартная рекомендация11 контекстных — см. grep -rliE "[Мм]анн|[Mm]ann|непараметр" AB/.
Уникальный для коллекции случай прямой методологической дискуссии:
Обе позиции корректны, но решают разные задачи: Lunin критикует MW как замену t-test для сравнения средних (где он действительно неподходящ); X5/Varioqub защищают MW как тест на однородность (где он валиден). Для читателя: важно явно формулировать H₀ перед выбором критерия.