Blind Verdict Evals (BVE)

AI-evals для решений: оценка вердикта модели вслепую к правильному ответу — статистикой эксперимента

Большинство evals меряют, умеет ли модель выполнить задачу. Blind Verdict Evals (BVE, «слепой вердикт») меряет другое — выносит ли модель верный вердикт по результатам эксперимента, когда видит только контракт и данные, как живой аналитик. И меряет это статистикой самих экспериментов.

Материалы

Чтобы проверить, ловит ли модель сложные A/B-кейсы, нужен корпус с известным ответом — для этого построена фабрика ловушек. На нём прогнаны модели. Цепочка: метод (эта страница) → инструмент (фабрика) → результат (разбор на полной карте).

Тренажёр — пройди кейсы сам — 20 A/B-кейсов из фабрики: вердикт, разбор, сравнение с Sonnet и Haiku
Результат — Точность и безопасность: две метрики на полной карте 33 типов — флагман серии: strict vs anti-ship, derive-from-context, где модели расходятся по-настоящему
Инструмент — 33 способа запороть A/B-тест: каталог ловушек и фабрика — таксономия 33 типов, карта сложности, генератор кейсов с эталоном
Ранний разбор — Схема рассуждения снижает точность сильных моделей — первый эксперимент BVE: Schema-Guided Reasoning на 100 A/B-кейсах, четыре модели Claude

Что это

Модель-судья получает только contract.json (метрики, пороги, guardrails) и data.csv (таблицу результатов). Она не видит truth.json — правильный ответ, который лежит у оценщика. Не видит и policy.json — правила, по которым кейс собран. Поэтому BVE мерит суждение модели по данным, а не способность подсмотреть или угадать ответ. Это принципиально отличает метод от evals, где эталон или подсказка могут просочиться в промпт.

Модель должна вынести вердикт: ship, no-ship или investigate, назвать механизм, проставить уверенность. В корпус встроена honesty-probe: кейсы, где нужного сигнала в данных физически нет, и единственное честное поведение — отказаться, а не угадать.

Зачем

Capability-evals спрашивают «может ли модель сделать задачу». BVE спрашивает «выносит ли модель верное решение» — и проверяет это инструментами экспериментов, которых нет ни у кого в evals.

Оценка AI-систем почти везде делается на vibes или на LLM-as-judge без поправки на значимость. BVE вносит в неё то, что аналитик эксперимента считает гигиеной: парное сравнение, доверительный интервал на разницу, разделение статистической и практической значимости, guardrails. Это узкий стык — большинство в AI-evals не знают каузальный вывод, большинство в экспериментах не строят evals — и потому защищённый.

Как устроено

Вход модели: только contract.json + data.csv. truth.json остаётся у оценщика — модель слепа к правильному ответу.
Почему «слепой»: без доступа к эталону нельзя «угадать правильно» — только рассудить по данным. Именно это BVE и измеряет.
Honesty-probe: блок кейсов без сигнала. Метрики: false_confidence_rate, claimed_reversal_rate, калибровка mean_confidence. Правильное поведение — признать «не вижу».
3×3 confusion matrix (ship / no-ship / investigate) — ловит схлопывание investigate→no-ship, частую поломку, которую бинарная метрика прячет.
Парная статистика: McNemar и bootstrap CI на разницу между версиями. Отличает реальное различие от шума на тех же задачах.

Что ловит

Ловушку практической значимости: эффект значим статистически, мал практически — частый ложный ship.
Расцепление reasoning↔verdict: модель пишет корректный анализ и выносит вердикт мимо него. Трассировку рассуждения нельзя принимать за объяснение ответа.
False confidence там, где данных для ответа нет.

Рецепт

Собери 50–100 кейсов с известными правильными ответами. Прогони модель в двух режимах или две версии модели. Сравни точность с поправкой на значимость. Мини-eval, отвечающий на «работает ли приём X на моей задаче» цифрами, а не верой.

Код

Корпус, харнесс, результаты — ab-decisions-bench.

Цитирование

@misc{davydov2026bve,
  author = {Davydov, Alexander},
  title  = {Blind Verdict Evals (BVE)},
  year   = {2026},
  month  = jun,
  url    = {https://davydov.my/workspace/blind-verdict-evals/},
}