看到个终端编码AI Agent —— SuperCoder
这个工具可以在命令行中,让AI操作代码搜索,浏览项目结构,编辑代码,bug修复,以及cursor的代码更改支持(定位代码并修改等)
地址:github.com/huytd/supercoder
Llama-4可能要来了!
我在 ChatbotArena 随机测试的时候发现了2个新的 llama 模型:
代号跟别是 spider, cybele. 其中: cybele 这个模型输出特别慢,可能是个特别大的模型?400B+? 而spider特别话痨,输出了特别多并不需要的信息,可能用来创意写作会好一些,但是正常任务绝对不适合。 …
我比较好奇的是那个CX8,放在那么边角的位置,并且插头笼子也没散热,真的不会分分钟化掉么…
是的,感觉写作分数高就得靠传统媒体技能——瞎说…
EQBench 的大模型创意写作榜单更新了
目前最能打的还是 DeepSeek-R1 ,新更新的 GPT-4o 第二,DeepSeek-V3-0324 第三。所以写文不用考虑,第一时间用 DeepSeek-R1 即可。
地址:eqbench.com/about.html#creative-writing-v3
请看llama.cpp的参数文档
估计内存带宽还是最大273GB/s? 毕竟目前没看到除了果子家谁家LPDDR5X搞到800GB/s了
话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。
我还是比较信 Aider Leaderboard 一些哈哈哈
大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分。依旧是来自 ramondsq 同学的贡献。十分感谢。
Apple 平台的视觉推理框架 MLX-VLM 现在支持微调了!
这个发twi的是 mlx 核心贡献者之一。显示正在微调 Qwen2-VL-2B-Instruct。
千问3小时前发布了 QVQ-Max,一个图片/视频推理模型。
我测试了图片推理(吃惊的仓鼠),见图2。以及视频推理(win98屏保),见图3
HuggingFace 课程又又又更新了,这次是教你如何做一个推理大模型,使用之前复刻 DeeoSeek-R1 的开源项目 Open-R1
地址:huggingface.co/reasoning-course
更多的NVIDIA DGX Station GB300的图(图片来自STH)。
几个细节,图1,注意新的内存封装和安装方式,图2,ConnectX-8 800GB ,图3,可插拔BMC
在另外一个博主 cpldcpu 的 python 光线追踪渲染测试中,DeepSeek-V3-0324 的水平追上了 claude-3.7-sonnet
测试地址:github.com/cpldcpu/llmbenchmark/blob/master/raytracer/Readme.md
Gemini Code 支持Gemini-2.5-Pro 了! 这是个 VSCode插件,直接装了就能用!
地址:marketplace.visualstudio.com/items?itemName=robertpiosik.gemini-coder
可以试试,不过我还没来得及测
哈哈哈
Gemini-2.5-Pro 这是获得了天顶星科技么?
来自 fiction.live 的大模型长文本理解(召回)测试,Gemini-2.5-Pro 竟然在120K上下文长度有 90.6% 的召回率, 这意味着你让AI在开篇埋个伏笔, 然后AI写了差不多10万字以后,仍然能记起来用这个伏笔…妈耶
不过这个测试的波动特别大,可以看到16K左右跌到了66.7 %(当然这个数值也很猛了,一般高于60%就是极好的水平),但是32K又恢复到了86.1%。
另外刚更新的 DeepSeek-V3-0324 也很不错,虽然略低于 DeepSeek-R1, 但仍然是很可用的。 …
DeepSeek-V3-0324-GGUF 量化版本来啦!
仍然是来自 Unsloth 团队,提供了Q2_K (大约244GB) - Q8_0(大约730GB) 总计7个量化版本。
地址:huggingface.co/unsloth/DeepSeek-V3-0324-GGUF
给大家带来全网最速 DeepSeek-V3-0324 写代码实测!
直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型!
DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。
DeepSeek 3小时前刚刚更新了 DeepSeek-V3-0324 (685B). 目前还没上传模型卡。
而且deepseek官网貌似已经更新了(prompt提问 你的模型名称和版本是?,回答是知识截止日期为 2024年7月,之前的DeepSeek-V3 应该是2023年12月?)
总之我正在测试了!大模型竞技场稍后给出大家结果!
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3-0324 …
👍
好文👍
猪猪出品!必属精品!
写代码,用SDK或者curl调用llm。然后设置timeout,等到LLM出结果后处理后存储
所以评分规则里充分考虑了这种情况,目的就是增加能完整生成20个球和不能生成20个球增加区分度
👍
发布啦!感谢贡献♥
是的,需要增加到src文件夹。另外每个测试需要测试三次turn-1 - turn-3,并且分数最高的后面后缀-high-score 保持同样风格即可
牛逼,我的刚跑完还没来得及人肉评分 😇 老铁愿意提交PR吗?我根据结果再人肉复核下,没问题就合并了
其实内存够强,量化版用CPU跑也行
无
是,感觉大家也都在AI Studio玩文生图