Blind Verdict Evals (BVE)

AI-evals для решений: оценка вердикта модели вслепую к правильному ответу — статистикой эксперимента

Большинство evals меряют, умеет ли модель выполнить задачу. Blind Verdict Evals (BVE, «слепой вердикт») меряет другое — выносит ли модель верный вердикт по результатам эксперимента, когда видит только контракт и данные, как живой аналитик. И меряет это статистикой самих экспериментов.

Материалы

Чтобы проверить, ловит ли модель сложные A/B-кейсы, нужен корпус с известным ответом — для этого построена фабрика ловушек. На нём прогнаны модели. Цепочка: метод (эта страница) → инструмент (фабрика) → результат (разбор на полной карте).

Что это

Модель-судья получает только contract.json (метрики, пороги, guardrails) и data.csv (таблицу результатов). Она не видит truth.json — правильный ответ, который лежит у оценщика. Не видит и policy.json — правила, по которым кейс собран. Поэтому BVE мерит суждение модели по данным, а не способность подсмотреть или угадать ответ. Это принципиально отличает метод от evals, где эталон или подсказка могут просочиться в промпт.

Модель должна вынести вердикт: ship, no-ship или investigate, назвать механизм, проставить уверенность. В корпус встроена honesty-probe: кейсы, где нужного сигнала в данных физически нет, и единственное честное поведение — отказаться, а не угадать.

Зачем

Зачем

Capability-evals спрашивают «может ли модель сделать задачу». BVE спрашивает «выносит ли модель верное решение» — и проверяет это инструментами экспериментов, которых нет ни у кого в evals.

Оценка AI-систем почти везде делается на vibes или на LLM-as-judge без поправки на значимость. BVE вносит в неё то, что аналитик эксперимента считает гигиеной: парное сравнение, доверительный интервал на разницу, разделение статистической и практической значимости, guardrails. Это узкий стык — большинство в AI-evals не знают каузальный вывод, большинство в экспериментах не строят evals — и потому защищённый.

Как устроено

Что ловит

Рецепт

Собери 50–100 кейсов с известными правильными ответами. Прогони модель в двух режимах или две версии модели. Сравни точность с поправкой на значимость. Мини-eval, отвечающий на «работает ли приём X на моей задаче» цифрами, а не верой.

Код

Корпус, харнесс, результаты — ab-decisions-bench.

Цитирование

@misc{davydov2026bve,
  author = {Davydov, Alexander},
  title  = {Blind Verdict Evals (BVE)},
  year   = {2026},
  month  = jun,
  url    = {https://davydov.my/workspace/blind-verdict-evals/},
}

← Workspace