livebench.ai 的评测显示 llama-3.3-70b 在指令跟随上获得了最高分数,比GPT4o 高了接近10%??? 这意味着llama-3.3很适合角色扮演类的应用。再加上llama几乎是现在最容易本地部署的大模型。感觉Meta是不是找到了流量密码了猛优化了一波[开学季]

(来个数据,有报道称 Character AI 明年估值能达到1900亿美元. intel 现在市值是870亿美元)

我来用gemini(仅比llama-3.3低0.8分)个小demo,给大家演示下什么是指令跟随:

  • 我先设定AI的角色,这里设定为一个魂游死宅
  • 然后跟他进行第一次对话
  • 扯点别的话题来看指令跟随效果,看设定是否能继续下去
  • 再扯回核心内容,看指令跟随效果

上面4图是 gemini-1.5-flash, 指令跟随72.97分(跟GPT4o1差1.7分,跟gemini-2-flash差8.98分,也接近10%)

上面4图是 gemini-2-flash,指令跟随81.86分。

我觉得只要耐心看完前4图,再对比下后4图,基本都不用我解释了,大家都能感觉到这10%的指令跟随差距是多么可怕。

  • gemini-1.5 连角色带入都没那么好
  • gemini-1.5 在第二个prompt还在跟随,但是效果很有限
  • gemini-1.5 在第三个扯开话题的prompt已经不跟随了
  • gemini-1.5 在第四个prompt完全gg

作为对比:

  • gemini-2 角色代入扑面而来,甚至味儿太冲了…
  • gemini-2 在第二个prompt发挥良好
  • gemini-2 在第三个扯开话题的prompt仍然稳定发挥,最牛逼的是我看前面几个只体现了死宅,没有体现是魂游死宅,感觉略微有点丢分,结果它神来之笔最后补充了个"推荐黑暗之魂"…绝了
  • gemini-2 在第四个切换回话题的prompt表现依然没有问题

如果你要问我结论,我只能说指令跟随达到80分+的是真牛逼。以及…玩AI记得设置个安全词以免退不出来…

2
message-square
2
  • jingfelix
    3 months ago

    我编了段类似的 Prompt,简单测试了 GPT-4o 和 llama3.3 70B int4。

    GPT-4o 在响应效果和知识准确率上明显优于 llama3.3,不过二者的指令跟随确实都很好。

    • karminski-牙医OPMA
      3 months ago

      是的,毕竟受限大小感觉llama塞的东西很有限。