AI-evals для решений: оценка вердикта модели вслепую к правильному ответу — статистикой эксперимента
Большинство evals меряют, умеет ли модель выполнить задачу. Blind Verdict Evals (BVE, «слепой вердикт») меряет другое — выносит ли модель верный вердикт по результатам эксперимента, когда видит только контракт и данные, как живой аналитик. И меряет это статистикой самих экспериментов.
Чтобы проверить, ловит ли модель сложные A/B-кейсы, нужен корпус с известным ответом — для этого построена фабрика ловушек. На нём прогнаны модели. Цепочка: метод (эта страница) → инструмент (фабрика) → результат (разбор на полной карте).
Модель-судья получает только contract.json (метрики, пороги, guardrails) и data.csv (таблицу результатов). Она не видит truth.json — правильный ответ, который лежит у оценщика. Не видит и policy.json — правила, по которым кейс собран. Поэтому BVE мерит суждение модели по данным, а не способность подсмотреть или угадать ответ. Это принципиально отличает метод от evals, где эталон или подсказка могут просочиться в промпт.
Модель должна вынести вердикт: ship, no-ship или investigate, назвать механизм, проставить уверенность. В корпус встроена honesty-probe: кейсы, где нужного сигнала в данных физически нет, и единственное честное поведение — отказаться, а не угадать.
Capability-evals спрашивают «может ли модель сделать задачу». BVE спрашивает «выносит ли модель верное решение» — и проверяет это инструментами экспериментов, которых нет ни у кого в evals.
Оценка AI-систем почти везде делается на vibes или на LLM-as-judge без поправки на значимость. BVE вносит в неё то, что аналитик эксперимента считает гигиеной: парное сравнение, доверительный интервал на разницу, разделение статистической и практической значимости, guardrails. Это узкий стык — большинство в AI-evals не знают каузальный вывод, большинство в экспериментах не строят evals — и потому защищённый.
contract.json + data.csv. truth.json остаётся у оценщика — модель слепа к правильному ответу.Собери 50–100 кейсов с известными правильными ответами. Прогони модель в двух режимах или две версии модели. Сравни точность с поправкой на значимость. Мини-eval, отвечающий на «работает ли приём X на моей задаче» цифрами, а не верой.
Корпус, харнесс, результаты — ab-decisions-bench.
@misc{davydov2026bve,
author = {Davydov, Alexander},
title = {Blind Verdict Evals (BVE)},
year = {2026},
month = jun,
url = {https://davydov.my/workspace/blind-verdict-evals/},
}