Measure agent reliability with formal evals

eval-harnessskillsetup L2★0

What it does

Define pass/fail criteria and measure agent reliability with pass@k

Best for

AI-assisted workflows where deterministic pass/fail is needed before implementation.

Inputs

Outputs

Requires

Preconditions

Success criteria articulated before coding

Failure modes

Evals too loose/strict, slow evals skipped, regression not tracked, grader subjectivity

Trust signals