Gemini-2.5-Pro 这是获得了天顶星科技么？

Gemini-2.5-Pro 这是获得了天顶星科技么？

Gemini-2.5-Pro 这是获得了天顶星科技么？

来自 fiction.live 的大模型长文本理解（召回）测试，Gemini-2.5-Pro 竟然在120K上下文长度有 90.6% 的召回率, 这意味着你让AI在开篇埋个伏笔, 然后AI写了差不多10万字以后，仍然能记起来用这个伏笔…妈耶

不过这个测试的波动特别大，可以看到16K左右跌到了66.7 %（当然这个数值也很猛了，一般高于60%就是极好的水平），但是32K又恢复到了86.1%。

另外刚更新的 DeepSeek-V3-0324 也很不错，虽然略低于 DeepSeek-R1, 但仍然是很可用的。

如果有同学好奇测试方法，官方公布的测试方法大概是：写一个很大的故事，然后问你，主角见过的人都有谁？列出他们的名字。不过官方说不想公布测试中AI生成的数据。

1

You must log in or register to comment.

cryogeny
2 days ago
看起来 Gemini-2.5-Pro 是值得一试，尤其是120k时还有90%