写代码 Agent 哪家强?LiveBench 团队创建了一个新的测试——LiveSWEBench
简单来讲,这个测试使用各种AI代码编辑器内置的Agent 功能来测试,看哪个能不需要人工参与可以完整完成整个高级任务
排行榜如下,三列测试数值分别是,Agent完成比例,AI编辑功能完成比例,代码补全完成比例:
其中 SWE-Agent 总体排名第一(但它没有代码补全功能,因为是个纯Agent)
Agent功能最强是 SWE-Agent,Github Copilot, Windsurf 这三个并列第一 AI编辑功能(编辑现有代码)最强是SWE-Agent和 OpenHands。 代码补全则是 Github Copilot 第一
排行榜地址:liveswebench.ai

0