分享一下 llama-3.3-70b 不同量化版本之间的大小和性能描述

文件名 量化类型 文件大小 分割 描述
Llama-3.3-70B-Instruct-f16.gguf f16 141.12GB true 完整的F16权重。
Llama-3.3-70B-Instruct-Q8_0.gguf Q8_0 74.98GB true 极高质量,通常不需要,但最大可用量化。
Llama-3.3-70B-Instruct-Q6_K_L.gguf Q6_K_L 58.40GB true 使用Q8_0进行嵌入和输出权重。非常高的质量,几乎完美,推荐
Llama-3.3-70B-Instruct-Q6_K.gguf Q6_K 57.89GB true 非常高的质量,几乎完美,推荐
Llama-3.3-70B-Instruct-Q5_K_L.gguf Q5_K_L 50.60GB true 使用Q8_0进行嵌入和输出权重。高质量,推荐
Llama-3.3-70B-Instruct-Q5_K_M.gguf Q5_K_M 49.95GB true 高质量,推荐
Llama-3.3-70B-Instruct-Q5_K_S.gguf Q5_K_S 48.66GB false 高质量,推荐
Llama-3.3-70B-Instruct-Q4_K_L.gguf Q4_K_L 43.30GB false 使用Q8_0进行嵌入和输出权重。质量好,推荐
Llama-3.3-70B-Instruct-Q4_K_M.gguf Q4_K_M 42.52GB false 质量好,大多数使用情况下的默认大小,推荐
Llama-3.3-70B-Instruct-Q4_K_S.gguf Q4_K_S 40.35GB false 质量稍低,但节省空间,推荐
Llama-3.3-70B-Instruct-Q4_0.gguf Q4_0 40.12GB false 传统格式,提供ARM CPU推理的在线重新打包。
Llama-3.3-70B-Instruct-IQ4_NL.gguf IQ4_NL 40.05GB false 类似于IQ4_XS,但稍大。提供ARM CPU推理的在线重新打包。
Llama-3.3-70B-Instruct-Q4_0_8_8.gguf Q4_0_8_8 39.97GB false 为ARM和AVX推理优化。需要ARM的’sve’支持(见下文)。不要在Mac上使用
Llama-3.3-70B-Instruct-Q4_0_4_8.gguf Q4_0_4_8 39.97GB false 为ARM推理优化。需要’i8mm’支持(见下文)。不要在Mac上使用
Llama-3.3-70B-Instruct-Q4_0_4_4.gguf Q4_0_4_4 39.97GB false 为ARM推理优化。应在所有ARM芯片上良好运行,不适用于GPU。不要在Mac上使用
Llama-3.3-70B-Instruct-Q3_K_XL.gguf Q3_K_XL 38.06GB false 使用Q8_0进行嵌入和输出权重。质量较低但可用,适合低RAM可用性。
Llama-3.3-70B-Instruct-IQ4_XS.gguf IQ4_XS 37.90GB false 质量尚可,比Q4_K_S小,性能相似,推荐
Llama-3.3-70B-Instruct-Q3_K_L.gguf Q3_K_L 37.14GB false 质量较低但可用,适合低RAM可用性。
Llama-3.3-70B-Instruct-Q3_K_M.gguf Q3_K_M 34.27GB false 质量低。
Llama-3.3-70B-Instruct-IQ3_M.gguf IQ3_M 31.94GB false 中低质量,新方法,性能尚可,类似于Q3_K_M。
Llama-3.3-70B-Instruct-Q3_K_S.gguf Q3_K_S 30.91GB false 质量低,不推荐。
Llama-3.3-70B-Instruct-IQ3_XS.gguf IQ3_XS 29.31GB false 质量较低,新方法,性能尚可,比Q3_K_S稍好。
Llama-3.3-70B-Instruct-IQ3_XXS.gguf IQ3_XXS 27.47GB false 质量较低,新方法,性能尚可,类似于Q3量化。
Llama-3.3-70B-Instruct-Q2_K_L.gguf Q2_K_L 27.40GB false 使用Q8_0进行嵌入和输出权重。质量非常低但出乎意料地可用。
Llama-3.3-70B-Instruct-Q2_K.gguf Q2_K 26.38GB false 质量非常低但出乎意料地可用。
Llama-3.3-70B-Instruct-IQ2_M.gguf IQ2_M 24.12GB false 质量较低,使用SOTA技术,出乎意料地可用。
Llama-3.3-70B-Instruct-IQ2_S.gguf IQ2_S 22.24GB false 质量低,使用SOTA技术,可用。
Llama-3.3-70B-Instruct-IQ2_XS.gguf IQ2_XS 21.14GB false 质量低,使用SOTA技术,可用。
Llama-3.3-70B-Instruct-IQ2_XXS.gguf IQ2_XXS 19.10GB false 质量非常低,使用SOTA技术,可用。
Llama-3.3-70B-Instruct-IQ1_M.gguf IQ1_M 16.75GB false 质量极低,不推荐

如果不差那么几GB显存的话,建议上Q5,质量比Q4好不少

3
message-square
6
  • chraav
    3 months ago

    他官方给的指标是8b的模型,这里感觉Q4也还行,后面的话KL散度开始更快变大了

    perplexity/README.md

    • robt233
      3 months ago

      正确的,感觉看不全

  • AlphaAreaA
    3 months ago

    LLM入门第一步:rm *.guff

    llama.cpp全家都是一坨屎

    • chraav
      3 months ago

      有点极端了,个人认为llama.cpp的pipeline并行做的还可以,而且支持的硬件也挺多,另外也提供了从2bit到8bit的量化,综合起来其实挺适合低端机器