Select best output by behavior testing

execution-grounded-selectionskillsetup L3★64

What it does

Pick best candidate via execution fingerprinting instead of output voting

Best for

Code selection when semantic voting's 19-52pp improvement over output voting matters

Inputs

Outputs

Requires

Preconditions

Multiple candidates at temperature > 0, execution is feasible and side-effect-free

Failure modes

Expensive execution timeout, deterministic generation (no diversity), crash-as-distinct-fingerprint conflation

Trust signals