livebench.ai 的评测显示 llama-3.3-70b 在指令跟随上获得了最高分数,比GPT4o 高了接近10%??? 这意味着llama-3.3很适合角色扮演类的应用。再加上llama几乎是现在最容易本地部署的大模型。感觉Meta是不是找到了流量密码了猛优化了一波[开学季]
(来个数据,有报道称 Character AI 明年估值能达到1900亿美元. intel 现在市值是870亿美元)

我来用gemini(仅比llama-3.3低0.8分)个小demo,给大家演示下什么是指令跟随:
- 我先设定AI的角色,这里设定为一个魂游死宅
- 然后跟他进行第一次对话
- 扯点别的话题来看指令跟随效果,看设定是否能继续下去
- 再扯回核心内容,看指令跟随效果




上面4图是 gemini-1.5-flash, 指令跟随72.97分(跟GPT4o1差1.7分,跟gemini-2-flash差8.98分,也接近10%)




上面4图是 gemini-2-flash,指令跟随81.86分。
我觉得只要耐心看完前4图,再对比下后4图,基本都不用我解释了,大家都能感觉到这10%的指令跟随差距是多么可怕。
- gemini-1.5 连角色带入都没那么好
- gemini-1.5 在第二个prompt还在跟随,但是效果很有限
- gemini-1.5 在第三个扯开话题的prompt已经不跟随了
- gemini-1.5 在第四个prompt完全gg
作为对比:
- gemini-2 角色代入扑面而来,甚至味儿太冲了…
- gemini-2 在第二个prompt发挥良好
- gemini-2 在第三个扯开话题的prompt仍然稳定发挥,最牛逼的是我看前面几个只体现了死宅,没有体现是魂游死宅,感觉略微有点丢分,结果它神来之笔最后补充了个"推荐黑暗之魂"…绝了
- gemini-2 在第四个切换回话题的prompt表现依然没有问题
如果你要问我结论,我只能说指令跟随达到80分+的是真牛逼。以及…玩AI记得设置个安全词以免退不出来…
2
jingfelix3 months ago我编了段类似的 Prompt,简单测试了 GPT-4o 和 llama3.3 70B int4。
GPT-4o 在响应效果和知识准确率上明显优于 llama3.3,不过二者的指令跟随确实都很好。
是的,毕竟受限大小感觉llama塞的东西很有限。