Карта инструментов: A/B-эксперименты, AI-evals и продуктовая аналитика
Это справочная карта инструментов для трёх процессов — экспериментов, оценки LLM-систем и продуктовой аналитики. Не рейтинг и не рекомендации: таблицы фактов, по которым удобно ориентироваться и сравнивать. Для каждого инструмента — что делает, модель распространения (open-source, open-core или SaaS) и ключевая особенность. Состояние на май 2026; ландшафт меняется быстро, проверяйте актуальность под свой контекст.
A/B-эксперименты
Инструменты для управления выкаткой (feature flags), привязки изменений к метрикам и статистического анализа экспериментов.
| Инструмент | Что делает | Модель | Особенность |
|---|---|---|---|
| GrowthBook | feature flags + эксперименты, warehouse-native | open-source | self-host, Bayesian + Frequentist движки |
| Statsig | эксперименты, feature flags, CUPED, sequential | SaaS | cloud-only; куплен OpenAI (сен 2025) |
| Eppo | warehouse-native эксперименты, holdouts, bandits | SaaS | проприетарный, интеграции с Snowflake/BigQuery |
| Unleash | feature management, таргетинг выкатки | open-source | self-host, фокус на флагах, не на статистике |
| Flagsmith | feature flags, сегментация | open-source | self-host, лёгкий |
| Optimizely | эксперименты enterprise-уровня | SaaS | давний игрок, тяжёлый для малых команд |
| PlanOut (Meta) | фреймворк дизайна экспериментов | open-source | концептуальный референс, не активный продукт |
AI-evals
Здесь устоявшийся паттерн — два слоя: лёгкий фреймворк для гейтов в CI/CD (блокирует деплой при просадке качества) и отдельная платформа для трейсинга и мониторинга на проде.
Слой CI-гейтов
| Инструмент | Что делает | Модель | Особенность |
|---|---|---|---|
| DeepEval | юнит-тесты для LLM (галлюцинации, bias, токсичность) | open-source (MIT) | Python, встраивается в pytest |
| promptfoo | red-teaming, сравнение моделей и промптов | open-source | Node.js, YAML/CLI, 40+ red-team плагинов |
| RAGAS | метрики для RAG (faithfulness, context precision/recall) | open-source | Python, академическая методология |
Слой платформы (трейсинг, мониторинг, дашборды)
| Инструмент | Что делает | Модель | Особенность |
|---|---|---|---|
| Langfuse | трейсинг и observability вызовов | open-source | self-hostable |
| Phoenix (Arize) | трейсинг и анализ | open-source | интеграции с RAGAS |
| Braintrust | полный цикл оценки на одной платформе | SaaS | enterprise-ориентация |
Оценка самих моделей (а не приложений поверх них)
| Инструмент | Что делает | Модель | Особенность |
|---|---|---|---|
| lm-evaluation-harness (EleutherAI) | бенчмарки языковых моделей | open-source | стандарт для публичных бенчей |
| inspect_ai (UK AI Safety Institute) | строгие, безопасность-ориентированные evals | open-source | для аудита и safety-оценки |
| HELM (Stanford) | воспроизводимые сравнения по широкому набору сценариев | open-source | академический эталон |
Продуктовая аналитика
BI и продуктовая аналитика — дашборды, исследование данных, метрики.
| Инструмент | Что делает | Модель | Особенность |
|---|---|---|---|
| PostHog | аналитика + feature flags + эксперименты | open-source | all-in-one, частый дефолт для стартапов |
| Metabase | BI, дашборды, быстрый старт | open-core (AGPL) | часть фич за платным тиром; ~60k организаций |
| Superset (Apache) | BI, глубокая визуализация, масштаб | open-source (Apache 2.0) | полностью открыт, без гейтинга; Airbnb/Lyft |
| Lightdash | BI поверх dbt, метрики в YAML | open-source (Apache 2.0) | dbt-native, версионируемые метрики |
| evidence | BI-as-code (SQL + Markdown) | open-source | дашборды в git, для разработчиков |
| rill | быстрые дашборды на DuckDB | open-source | code-first, MCP-интеграция для агентов |
Как читать эту карту
Это справка, а не рейтинг. Таблицы дают факты — что инструмент делает и как распространяется, — но не отвечают, какой «лучше»: правильный выбор зависит от вашего стека, объёма, требований к данным и наличия инженерных рук. Несколько ориентиров, которые стоит держать в голове при чтении:
- Модель распространения важна не меньше функций. Open-source с self-host даёт контроль над данными и независимость от чужой стратегии; SaaS снимает заботу об инфраструктуре, но добавляет вендор-лок. История Statsig (отличная платформа, ушедшая под OpenAI в 2025) показывает, как быстро статус проприетарного инструмента может измениться.
- Для AI-evals обычно нужны два инструмента, а не один: фреймворк для CI-гейтов и платформа для наблюдаемости. Попытка закрыть оба слоя одним упирается в его слабую сторону.
- Ландшафт быстро меняется. Часть инструментов уходит в заморозку (например, Redash после покупки Databricks), часть меняет модель. Любая такая карта — снимок на дату, а не вечная истина.