Qwen3 的长上下文召回测试出了!

Fiction.Livebench 公布了最新的测试结果,Qwen3 整个系列在16K上下文时召回均能保持在60%以上(除了Qwen3-30B-A3B, 毕竟激活只有3B).

能得出的结论有:

如果运行30B大小的模型,那么还是优先选择 Qwen3-32B 而非 MoE 的Qwen3-30B-A3B。

另外本次没有测试到极限长度的128K,所以不知道超过16K是什么水平,但通过其他模型推测一旦16K稳定在60%,那么长一点应该下降也没那么剧烈。

测试地址:fiction.live/stories/Fiction-liveBench-April-29-2025/oQdzQvKHw8JyXbN87

1
message-square
0