Карта инструментов: A/B-эксперименты, AI-evals и продуктовая аналитика

Это справочная карта инструментов для трёх процессов — экспериментов, оценки LLM-систем и продуктовой аналитики. Не рейтинг и не рекомендации: таблицы фактов, по которым удобно ориентироваться и сравнивать. Для каждого инструмента — что делает, модель распространения (open-source, open-core или SaaS) и ключевая особенность. Состояние на май 2026; ландшафт меняется быстро, проверяйте актуальность под свой контекст.

A/B-эксперименты

Инструменты для управления выкаткой (feature flags), привязки изменений к метрикам и статистического анализа экспериментов.

Инструмент	Что делает	Модель	Особенность
GrowthBook	feature flags + эксперименты, warehouse-native	open-source	self-host, Bayesian + Frequentist движки
Statsig	эксперименты, feature flags, CUPED, sequential	SaaS	cloud-only; куплен OpenAI (сен 2025)
Eppo	warehouse-native эксперименты, holdouts, bandits	SaaS	проприетарный, интеграции с Snowflake/BigQuery
Unleash	feature management, таргетинг выкатки	open-source	self-host, фокус на флагах, не на статистике
Flagsmith	feature flags, сегментация	open-source	self-host, лёгкий
Optimizely	эксперименты enterprise-уровня	SaaS	давний игрок, тяжёлый для малых команд
PlanOut (Meta)	фреймворк дизайна экспериментов	open-source	концептуальный референс, не активный продукт

AI-evals

Здесь устоявшийся паттерн — два слоя: лёгкий фреймворк для гейтов в CI/CD (блокирует деплой при просадке качества) и отдельная платформа для трейсинга и мониторинга на проде.

Слой CI-гейтов

Инструмент	Что делает	Модель	Особенность
DeepEval	юнит-тесты для LLM (галлюцинации, bias, токсичность)	open-source (MIT)	Python, встраивается в pytest
promptfoo	red-teaming, сравнение моделей и промптов	open-source	Node.js, YAML/CLI, 40+ red-team плагинов
RAGAS	метрики для RAG (faithfulness, context precision/recall)	open-source	Python, академическая методология

Слой платформы (трейсинг, мониторинг, дашборды)

Инструмент	Что делает	Модель	Особенность
Langfuse	трейсинг и observability вызовов	open-source	self-hostable
Phoenix (Arize)	трейсинг и анализ	open-source	интеграции с RAGAS
Braintrust	полный цикл оценки на одной платформе	SaaS	enterprise-ориентация

Оценка самих моделей (а не приложений поверх них)

Инструмент	Что делает	Модель	Особенность
lm-evaluation-harness (EleutherAI)	бенчмарки языковых моделей	open-source	стандарт для публичных бенчей
inspect_ai (UK AI Safety Institute)	строгие, безопасность-ориентированные evals	open-source	для аудита и safety-оценки
HELM (Stanford)	воспроизводимые сравнения по широкому набору сценариев	open-source	академический эталон

Продуктовая аналитика

BI и продуктовая аналитика — дашборды, исследование данных, метрики.

Инструмент	Что делает	Модель	Особенность
PostHog	аналитика + feature flags + эксперименты	open-source	all-in-one, частый дефолт для стартапов
Metabase	BI, дашборды, быстрый старт	open-core (AGPL)	часть фич за платным тиром; ~60k организаций
Superset (Apache)	BI, глубокая визуализация, масштаб	open-source (Apache 2.0)	полностью открыт, без гейтинга; Airbnb/Lyft
Lightdash	BI поверх dbt, метрики в YAML	open-source (Apache 2.0)	dbt-native, версионируемые метрики
evidence	BI-as-code (SQL + Markdown)	open-source	дашборды в git, для разработчиков
rill	быстрые дашборды на DuckDB	open-source	code-first, MCP-интеграция для агентов

Как читать эту карту

Это справка, а не рейтинг. Таблицы дают факты — что инструмент делает и как распространяется, — но не отвечают, какой «лучше»: правильный выбор зависит от вашего стека, объёма, требований к данным и наличия инженерных рук. Несколько ориентиров, которые стоит держать в голове при чтении:

Модель распространения важна не меньше функций. Open-source с self-host даёт контроль над данными и независимость от чужой стратегии; SaaS снимает заботу об инфраструктуре, но добавляет вендор-лок. История Statsig (отличная платформа, ушедшая под OpenAI в 2025) показывает, как быстро статус проприетарного инструмента может измениться.
Для AI-evals обычно нужны два инструмента, а не один: фреймворк для CI-гейтов и платформа для наблюдаемости. Попытка закрыть оба слоя одним упирается в его слабую сторону.
Ландшафт быстро меняется. Часть инструментов уходит в заморозку (например, Redash после покупки Databricks), часть меняет модель. Любая такая карта — снимок на дату, а не вечная истина.