Mann-Whitney.

17 заметок · 7 компаний.

Сводка по 17 заметкам из AB/, где обсуждается критерий Манна-Уитни и непараметрические тесты. 6 «ядра» (≥3 упоминаний) — основные источники. Уникальность темы: две статьи противоположных мнений — Avito ругает, X5 защищает.

§ 01 В чём метод

Манн-Уитни (U-тест) — непараметрический критерий сравнения двух выборок. Не работает со значениями метрики, а с рангами (порядковыми позициями):

  1. Объединить обе выборки, проранжировать от 1 до N
  2. Посчитать сумму рангов в одной из групп
  3. Сравнить с распределением сумм при случайном перемешивании

Что на самом деле проверяет U-тест: гипотезу «выборки взяты из одного распределения» (тест однородности). Не сравнивает ни средние, ни медианы — это распространённое заблуждение.

Формально: H₀ говорит «случайно выбранное значение из одной выборки равновероятно больше или меньше случайного значения из другой» — но это эквивалентно равенству распределений только при определённых условиях (например, симметричный сдвиг).

§ 02 Как применяют в компаниях

компанияпозицияособенность
Avito (Lunin)«Самый главный враг AB-тестов»Показывает на симуляциях: U[−1,1] vs U[−100,100] даёт FPR 11% вместо 5%. Манн-Уитни даёт ложные «прокрасы» относительно T-test, и это не преимущество, а проблема
X5 (Varioqub)✅ Защищают и используютПод капотом Varioqub (AppMetrica) — Mann-Whitney. Авторы развенчивают мифы, объясняют, что критерий валиден в своих условиях; вводят Probability Index и связь с Wilcoxon
VK (Practitioner's Guide)✅ Базовый стандарт«Often more powerful and more stable» для skewed distributions; сравнение FPR vs sensitivity; baseline при выборе любого fancy теста
expf (ранговая трансформация)ПрагматичноT-test на рангах ≈ Mann-Whitney. Когда инфраструктурно сложно применить MW — берут t-test на ранжированных данных
expf (Лоладзе)Подсветка«U-тест не проверяет равенство медиан, так как медиана — параметр»
UchiСтандартная рекомендацияДля маленьких выборок и больших выбросов; устойчивость к выбросам
Glowbyte / Avito (Часть 1) / Okko / KuperУпоминание«Используем для ненормальных распределений» — без углубления

§ 03 Где работает хорошо

§ 04 Подводные камни

§ 05 Связанные методы

методроль рядом с MW
t-testПараметрическая альтернатива; работает при нормальных данных или большом n (ЦПТ); более мощный при выполнении предпосылок
Ранговая трансформацияt-test на рангах ≈ MW; используется когда MW неудобно реализовать инфраструктурно (expf, Booking)
Wilcoxon signed-rank testПарный вариант для зависимых наблюдений; X5/Varioqub упоминают
Probability IndexАльтернативная формулировка той же статистики — вероятность P(T > C); X5/Varioqub популяризируют
BootstrapУниверсальная непараметрическая альтернатива; работает с любой статистикой, не только с рангами
Permutation testСамый близкий концептуально метод — тоже работает с перестановками; в учебниках часто рядом с MW
CUPED + t-testЕсли можно сократить дисперсию — иногда лучше CUPED+t-test, чем MW (Lunin)
Robust t-test / усечённый t-testTrim outliers и применить t-test — альтернатива для устойчивости к выбросам (expf)
СимуляцииДля расчёта мощности MW (Лоладзе: «нет простой формулы»)

§ Источники

6 ядерных заметок (≥3 упоминаний):

11 контекстных — см. grep -rliE "[Мм]анн|[Mm]ann|непараметр" AB/.

§ Бонус: спор Avito vs X5/Varioqub

Уникальный для коллекции случай прямой методологической дискуссии:

Обе позиции корректны, но решают разные задачи: Lunin критикует MW как замену t-test для сравнения средних (где он действительно неподходящ); X5/Varioqub защищают MW как тест на однородность (где он валиден). Для читателя: важно явно формулировать H₀ перед выбором критерия.