Quantize without calibration data required

hqq-quantizationskillsetup L2★9,423

What it does

Quantize LLMs to 4/3/2-bit without calibration data via Half-Quadratic Quantization

Best for

Fast model quantization when calibration data unavailable and extreme compression (2-bit) is acceptable

Inputs

Outputs

Requires

Preconditions

NVIDIA GPU; model loaded in memory; no calibration data needed

Failure modes

2-bit quantization severe accuracy loss; groupsize too small → out-of-memory; bit-width mismatch causes dtype errors

Trust signals