Инструменты, которые помогают заранее поймать типичные ошибки — неверную классификацию метрики, игнорирование кластеров и некорректный выбор статистического теста.
Выбор теста
Карта выбора статкритерия
Интерактивная карта, которая задаёт вам вопросы о метрике и дизайне эксперимента и на основе ответов рекомендует корректный статистический тест.
Помогает проверить, не применяете ли вы t-test к ratio-метрике с treatment-affected знаменателем.
Напоминает учесть кластерную структуру (гео-эксперименты, marketplace, соцсети).
Показывает различие между per-user, пропорциями, ratio и conditional-метриками.
Встроенные пресеты демонстрируют как типично ошибочные конфигурации («user-level t-test на RPM при кластерной рандомизации»), так и корректные варианты анализа.
Используйте перед запуском теста, чтобы не выбирать тест «по привычке», а осознанно сопоставить метрику, дизайн и критерий.
Симулятор помогает правильно классифицировать метрику: per-user, пропорцию, ratio, conditional и т.д., а также показывает характерные риски для каждого типа.
Отлавливает ситуации, когда вы по ошибке считаете per-user метрику на event-level (fan-out).
Подсвечивает ratio-метрики, требующие delta-method или bootstrap, а не наивного t-test по пользователям.
Отдельно помечает conditional-метрики (ARPPU, CR среди активированных) и объясняет риски композиционных сдвигов.
Главная ошибка этого модуля — неверная классификация метрики до запуска теста. Пропустите вашу формулу через классификатор и сравните свой выбор метода анализа с рекомендацией симулятора.
Помогает сформулировать метрику «как в формуле», а не «как в отчёте», и тем самым избежать множества тонких логических ошибок.
Симулятор визуализирует, как кластерная структура и intraclass correlation (ICC) искажают результаты наивного анализа и увеличивают вероятность ложноположительных выводов.
Генерирует кластерный эксперимент с заданным числом кластеров, размером кластера и ICC.
Сравнивает наивный user-level t-test с кластерно-корректным анализом (агрегация по кластерам или cluster-robust SE).
Показывает, как эффективный размер выборки (neff) сжимается при росте ICC и размере кластеров.
При ICC > 0 вы увидите, как наивный p-value становится «слишком красивым», а кластерно-корректный тест честно отражает высокую неопределённость.
Наглядно показывает, как ошибка единицы анализа и игнорирование кластеров приводят к завышенной мощности и лишним раскаткам фич.
Проверьте свои текущие метрики в классификаторе. Введите формулы CR, AOV, RPM, ARPPU и убедитесь, что тип метрики и рекомендуемый тест совпадают с тем, как вы сейчас анализируете эксперименты.
Смоделируйте поломанный знаменатель. В test_selection_map задайте метрику CTR с treatment-affected impressions и посмотрите, какие тесты становятся недопустимыми и как меняются рекомендации.
Переиграйте ошибку единицы анализа. В cluster_simulator установите ненулевой ICC и большое число событий на кластер, сравните naive p-value и cluster-adjusted — это ровно та ошибка, которую мы разбирали в секции про fan-out.
Сделайте pre-flight check для нового эксперимента. Перед запуском очередного A/B-теста пройдите связку: сначала metric_classifier, затем test_selection_map, а для гео-дизайнов — ещё и cluster_simulator. Это простой способ уменьшить число типичных ошибок ещё до сбора данных.