微软发了篇新论文 ARTIST, 直接用大白话给大家总结下论文讲了啥

微软发了篇新论文 ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers, 使用自主推理与工具的自改进 Transformer 框架)

我刚看完, 直接用大白话给大家总结下论文讲了啥

这个框架集成了外部工具调用和自主推理, 来提升效果. 并且推理可以多步骤. 得到结果后进行强化学习, 不断反刍, 最终效果提升高达 22%.

大家也许会问了, 现在的 Agent 平台不也是干这个的? 有啥区别? 不是重复造轮子吗?

还真不是, 现有的 Agent 平台面临着扩展性和鲁棒性问题, 大部分的 Agent 策略都是人工编写的. 很难扩展到从来没见过的新的任务上.

尽管传统 Agent 平台可以使用大量提示词或者对模型微调可以改善, 但这些方法都限制于输入的数据质量, 仍然难以适应新任务并且很难进行错误恢复 (指一旦跑偏了, 再怎么人工纠正也很难拉回来的情况).

而 ARTIST 引入了一种新的范式, 内置了自我改进机制, 可以自动学习新的策略, 不断迭代, 并且工具使用的输入和输出都嵌入到推理链内部, 实现闭环.

框架里的工具使用也特别强大, 不仅仅是调用接口或者搜索引擎, 使用浏览器, 操作系统, 等等都可以.

论文中举的例子, 比如要解决一个奥数题, 传统大模型就在推理狂猜, 涉及到数值计算只能干瞪眼. 这个框架则可以生成 python 代码, 调用 python 运行时, 进行数值计算, 然后迭代修正.

这一切的核心是, ARTIST 并不需要对中间结果进行监督, 而是直接使用 GRPO 算法, 仅对结果进行奖励来指导模型. 这样能得到最大的鲁棒性和适应性.

那么, 这个 ARTIST 框架就没缺点吗? 当然有:

最大的问题还是步骤变多, 因此输出结果的时间会变长, 按照论文中的说法, 平均回复长度会提升2倍, 工具调用次数增加3.8倍, 那推理不知道还要高多少倍. 总之, 更适合研究性的项目, 而不是简单的日常应用.

其次, 框架得训练！复杂数学推理, 多轮函数调用这些都得针对场景自己练, 不是上来就能用的 (当然如果有别人练好的, 可以拿来用, 但可惜现在还没有)

另外, 现在这个框架只有论文, 还没看到开源代码.