Mann-Whitney — синтез

Сводка по 17 заметкам из AB/, где обсуждается критерий Манна-Уитни и непараметрические тесты. 6 «ядра» (≥3 упоминаний) — основные источники. Уникальность темы: две статьи противоположных мнений — Avito ругает, X5 защищает.

§ 01 В чём метод

Манн-Уитни (U-тест) — непараметрический критерий сравнения двух выборок. Не работает со значениями метрики, а с рангами (порядковыми позициями):

Объединить обе выборки, проранжировать от 1 до N
Посчитать сумму рангов в одной из групп
Сравнить с распределением сумм при случайном перемешивании

Что на самом деле проверяет U-тест: гипотезу «выборки взяты из одного распределения» (тест однородности). Не сравнивает ни средние, ни медианы — это распространённое заблуждение.

Формально: H₀ говорит «случайно выбранное значение из одной выборки равновероятно больше или меньше случайного значения из другой» — но это эквивалентно равенству распределений только при определённых условиях (например, симметричный сдвиг).

§ 02 Как применяют в компаниях

компания	позиция	особенность
Avito (Lunin)	❌ «Самый главный враг AB-тестов»	Показывает на симуляциях: U[−1,1] vs U[−100,100] даёт FPR 11% вместо 5%. Манн-Уитни даёт ложные «прокрасы» относительно T-test, и это не преимущество, а проблема
X5 (Varioqub)	✅ Защищают и используют	Под капотом Varioqub (AppMetrica) — Mann-Whitney. Авторы развенчивают мифы, объясняют, что критерий валиден в своих условиях; вводят Probability Index и связь с Wilcoxon
VK (Practitioner's Guide)	✅ Базовый стандарт	«Often more powerful and more stable» для skewed distributions; сравнение FPR vs sensitivity; baseline при выборе любого fancy теста
expf (ранговая трансформация)	Прагматично	T-test на рангах ≈ Mann-Whitney. Когда инфраструктурно сложно применить MW — берут t-test на ранжированных данных
expf (Лоладзе)	Подсветка	«U-тест не проверяет равенство медиан, так как медиана — параметр»
Uchi	Стандартная рекомендация	Для маленьких выборок и больших выбросов; устойчивость к выбросам
Glowbyte / Avito (Часть 1) / Okko / Kuper	Упоминание	«Используем для ненормальных распределений» — без углубления

§ 03 Где работает хорошо

Скошенные распределения / heavy tails — VK: «known to work well with skewed distributions»
Малые выборки — при n < 30 параметрические критерии нестабильны, ранговый U-тест работает (Uchi)
Много выбросов — поскольку считаются ранги, а не значения; устойчив к extreme values
Сравнение распределений — когда нужна не разница средних, а ответ «вообще ли выборки одинаковые» (X5/Varioqub)
При sample stratification — внутри страт MW часто стабильнее t-test (VK)
Как baseline для сравнения — VK: «when using a fancy statistical test, compare it with baselines» (MW = классический baseline)

§ 04 Подводные камни

MW не сравнивает средние и медианы. Самое распространённое заблуждение. Lunin (Avito) демонстрирует: на U[−1,1] vs U[−100,100] средние и медианы равны (обе 0), а MW отвергает H₀ в 11% случаев — это ошибка I рода, не корректное «обнаружение» эффекта.
MW «прокрашивает» чаще, чем t-test — это не преимущество. Если данные не сдвинуты симметрично, лишние прокрасы — ложные. Это критика Lunin: «больше прокрасов» ≠ «больше мощность».
Не считает абсолютные значения. Манн-Уитни смотрит только на порядок элементов — т.е. он по построению не может сравнить математические ожидания (X5/Varioqub: «он даже не знает абсолютные значения»).
Логарифмирование метрики ≠ решение проблемы ненормальности. Lunin: «это плохая идея» — меняется не критерий, а интерпретация метрики; направление эффекта может стать противоположным.
MW требует мало совпадающих значений (ties). На дискретных метриках с большим числом повторов (например, биномиальные конверсии) точность падает (Uchi).
При нормальных данных MW менее мощный, чем t-test. Если данные действительно нормальные — MW требует на ~5% больше выборки для того же эффекта (expf: ARE-эффективность 0.95).
Нельзя интерпретировать через «сумму рангов». X5/Varioqub: «фраза 'сумма рангов стат. значима, а поэтому…' — нонсенс. Нужно проверять конкретную гипотезу.»
Формулы для sample size сложнее. Для непараметрических — обычно через симуляции, а не аналитическую формулу (Лоладзе).

§ 05 Связанные методы

метод	роль рядом с MW
t-test	Параметрическая альтернатива; работает при нормальных данных или большом n (ЦПТ); более мощный при выполнении предпосылок
Ранговая трансформация	t-test на рангах ≈ MW; используется когда MW неудобно реализовать инфраструктурно (expf, Booking)
Wilcoxon signed-rank test	Парный вариант для зависимых наблюдений; X5/Varioqub упоминают
Probability Index	Альтернативная формулировка той же статистики — вероятность P(T > C); X5/Varioqub популяризируют
Bootstrap	Универсальная непараметрическая альтернатива; работает с любой статистикой, не только с рангами
Permutation test	Самый близкий концептуально метод — тоже работает с перестановками; в учебниках часто рядом с MW
CUPED + t-test	Если можно сократить дисперсию — иногда лучше CUPED+t-test, чем MW (Lunin)
Robust t-test / усечённый t-test	Trim outliers и применить t-test — альтернатива для устойчивости к выбросам (expf)
Симуляции	Для расчёта мощности MW (Лоладзе: «нет простой формулы»)

§ Источники

6 ядерных заметок (≥3 упоминаний):

Varioqub за Mann-Whitney замолвите слово (X5, 68) — защита и развенчание мифов
Критерий Манна-Уитни — самый главный враг AB-тестов (Avito/Lunin, 34) — разоблачение и симуляции
Practitioner's Guide to Statistical Tests (VK, 9) — академический baseline
Увеличиваем чувствительность экспериментов при помощи ранговой трансформации (expf, 6) — связь с ранговой трансформацией
Вся основная теория Лоладзе + expf (3) — концептуальная сводка
На что мы обращаем внимание при расчете статистической значимости AB-теста (Uchi, 3) — стандартная рекомендация

11 контекстных — см. grep -rliE "[Мм]анн|[Mm]ann|непараметр" AB/.

§ Бонус: спор Avito vs X5/Varioqub

Уникальный для коллекции случай прямой методологической дискуссии:

Avito (Lunin): «Манн-Уитни даёт ложные прокрасы при ненормальных данных — это враг, а не друг.» Решение: использовать CUPED + t-test или bootstrap.
X5 (Varioqub): «Манн-Уитни валиден в своих границах — проверяет гипотезу однородности распределений. Проблема не в критерии, а в неправильной интерпретации того, что он проверяет.»

Обе позиции корректны, но решают разные задачи: Lunin критикует MW как замену t-test для сравнения средних (где он действительно неподходящ); X5/Varioqub защищают MW как тест на однородность (где он валиден). Для читателя: важно явно формулировать H₀ перед выбором критерия.

Mann-Whitney.