2bit超低精度量化要进化了吗? Meta发了一篇论文:ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization

说重点,这个论文使用的ParetoQ量化方法,计算量会增加10%,但是效果相当好: LLama3-8B 全精度(FP?)得分为70%,而2bit量化得分在67%-68%之间。(仅损失3%)

(见图1,灰色圆点是全精度得分,粉色线三角形是量化得分, 粉色三角形在2bit量化全面领先其他量化方法)

当然论文中目前仅测试了最大为8B的模型,更大模型效果不得而知。但2bit量化无疑为移动设备和小型设备上实装本地大模型提供了更好的条件。

(8B模型如果是BF16,那就是16GB左右,如果量化到2bit,那只有4GB)

论文地址:arxiv.org/pdf/2502.02631

1
message-square
1