LLama-3.3-70b 的指令跟随竟然排名第一了

LLama-3.3-70b 的指令跟随竟然排名第一了

livebench.ai 的评测显示 llama-3.3-70b 在指令跟随上获得了最高分数，比GPT4o 高了接近10%？？？这意味着llama-3.3很适合角色扮演类的应用。再加上llama几乎是现在最容易本地部署的大模型。感觉Meta是不是找到了流量密码了猛优化了一波[开学季]

(来个数据，有报道称 Character AI 明年估值能达到1900亿美元. intel 现在市值是870亿美元)

我来用gemini（仅比llama-3.3低0.8分）个小demo，给大家演示下什么是指令跟随：

我先设定AI的角色，这里设定为一个魂游死宅
然后跟他进行第一次对话
扯点别的话题来看指令跟随效果，看设定是否能继续下去
再扯回核心内容，看指令跟随效果

上面4图是 gemini-1.5-flash, 指令跟随72.97分（跟GPT4o1差1.7分，跟gemini-2-flash差8.98分，也接近10%）

上面4图是 gemini-2-flash，指令跟随81.86分。

我觉得只要耐心看完前4图，再对比下后4图，基本都不用我解释了，大家都能感觉到这10%的指令跟随差距是多么可怕。

gemini-1.5 连角色带入都没那么好
gemini-1.5 在第二个prompt还在跟随，但是效果很有限
gemini-1.5 在第三个扯开话题的prompt已经不跟随了
gemini-1.5 在第四个prompt完全gg

作为对比：

gemini-2 角色代入扑面而来，甚至味儿太冲了…
gemini-2 在第二个prompt发挥良好
gemini-2 在第三个扯开话题的prompt仍然稳定发挥，最牛逼的是我看前面几个只体现了死宅，没有体现是魂游死宅，感觉略微有点丢分，结果它神来之笔最后补充了个"推荐黑暗之魂"…绝了
gemini-2 在第四个切换回话题的prompt表现依然没有问题

如果你要问我结论，我只能说指令跟随达到80分+的是真牛逼。以及…玩AI记得设置个安全词以免退不出来…

2

You must log in or register to comment.

jingfelix
2 years ago
我编了段类似的 Prompt，简单测试了 GPT-4o 和 llama3.3 70B int4。

GPT-4o 在响应效果和知识准确率上明显优于 llama3.3，不过二者的指令跟随确实都很好。
- karminski-牙医OPMA
  2 years ago
  是的，毕竟受限大小感觉llama塞的东西很有限。