Gemini-2.5-Pro 这是获得了天顶星科技么?
来自 fiction.live 的大模型长文本理解(召回)测试,Gemini-2.5-Pro 竟然在120K上下文长度有 90.6% 的召回率, 这意味着你让AI在开篇埋个伏笔, 然后AI写了差不多10万字以后,仍然能记起来用这个伏笔…妈耶
不过这个测试的波动特别大,可以看到16K左右跌到了66.7 %(当然这个数值也很猛了,一般高于60%就是极好的水平),但是32K又恢复到了86.1%。
另外刚更新的 DeepSeek-V3-0324 也很不错,虽然略低于 DeepSeek-R1, 但仍然是很可用的。
如果有同学好奇测试方法,官方公布的测试方法大概是:写一个很大的故事,然后问你,主角见过的人都有谁?列出他们的名字。不过官方说不想公布测试中AI生成的数据。

1
cryogeny2 days ago看起来 Gemini-2.5-Pro 是值得一试,尤其是120k时还有90%