BitNet 模型又增加了,来看 TII 的 Falcon-E-1B/3B
据官方说这个模型性能与 Qwen3-1.7B 相当,但内存占用仅有 Qwen3-1.7B 的 1/4
Qwen3 刚刚在新出的 MEDIC-Benchmark 上的医疗问答排行榜上得了个第一和第二,另外前五名也都是Qwen和DeepSeek
排行榜地址:huggingface.co/spaces/m42-health/MEDIC-Benchmark
也是下血本了,导风罩竟然是钣金的
阿里的移动端多模态大模型APP(完全开源且使用移动端本地的模型哈)——MNN 又更新了!现在支持 Qwen-2.5-omni-3b 和 7b 了。
这个APP搭配多模态模型可以支持 文本到文本、图像到文本、音频到文本和文本到图像生成。并且速度也可以。想学习移动端大模型应用开发的可以参考试试
地址:github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md
来看新模型——INTELLECT-2
这个模型最大的特点是,他是使用全球社区免费的 GPU 训练的,而为了实现这一点,使用了 prime-rl 框架,这是个分布式强化学习框架,并且集成了魔改版 GRPO,用于改善训练稳定性。
不过,这个模型并不是从0训练的,而是基于QWQ-32B。而它的得分,跟QWQ-32B差不多…所以炼了个寂寞?可能 prime-rl 这个框架更有意义一些。
地址: huggingface.co/PrimeIntellect/INTELLECT-2 技术报告:storage.googleapis.com/public-technical-paper/INTELLECT_2_Technical_Report.pdf…
微软发了篇新论文 ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers, 使用自主推理与工具的自改进 Transformer 框架)
我刚看完, 直接用大白话给大家总结下论文讲了啥
这个框架集成了外部工具调用和自主推理, 来提升效果. 并且推理可以多步骤. 得到结果后进行强化学习, 不断反刍, 最终效果提升高达 22%.
如果在苹果设备上用 MLX 量化模型的同学,务必试试新的 DWQ 量化。从数据上看 4bit-dwq 量化的困惑度甚至比老的 6bit 量化还低。
Qwen3-30B-A3B-4bit-DWQ 量化版本的MLX官方地址,17GB 内存就能跑:huggingface.co/mlx-community/Qwen3-30B-A3B-4bit-DWQ
👍
来个 Qwen3 愉快使用要规避的几个问题, 尤其是使用 Qwen3-30B-A3B 或者 Qwen3-32B :
1. 上下文避免触及到召回长度,尤其是快到 16K 就应该新开了,不然质量下降很快
2. 模型为了小又效果好,推理时长和 token 输出是要比其它模型高很多的。(想象一下神童小孩哥没学过高数,然后却能通过现有知识手撕吉米多维奇,那么他思考的时间肯定是要比同样的神人大学生要花时间的)。这个问题从 qwq 时代就存在。可以看我这个截图,运行同样数量的请求 qwq 消耗的 token 量是 claude-3.7-sonnet-thinking 的1.7倍。大部分都花在思考上了
大瓜:llama-4 用了 27 个模型刷榜 ChatBot Arena
来吃瓜昨天那个扒 ChatBot Arena 榜单造假的论文, 我看了一遍理了下,主要是这么几个地方。但在此之前,给不熟悉这个测试的同学说下他们是怎么测试的
小米 3小时前刚刚发布了四个模型!
MiMo-7B-Base 是基础模型 MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习) MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调) MiMo-7B-RL 是基于 SFT 模型再 RL 的模型
Qwen3 的长上下文召回测试出了!
Fiction.Livebench 公布了最新的测试结果,Qwen3 整个系列在16K上下文时召回均能保持在60%以上(除了Qwen3-30B-A3B, 毕竟激活只有3B).
能得出的结论有:
如果运行30B大小的模型,那么还是优先选择 Qwen3-32B 而非 MoE 的Qwen3-30B-A3B。 …
看来好多人都在熬夜肝,KTransformer 支持运行 Qwen3 啦!
Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4个请求并行可以达到总计 24.4 token/s
地址:github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md
Qwen3 发布啦!
本次发布的模型包括:
MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) …
好家伙,模型还没发,推理引擎已经支持完毕了。mlx 最新版本已经全部支持即将发布的 Qwen3。
(mlx是Apple的大模型推理框架,可以在MacOS上运行大模型)
大家都在等 DeepSeek-R2, 不过, 有没有想过把 DeepSeek-V3-0324 变成推理模型?
来看这个新模型 DeepSeek-R1T-Chimera,它基于DeepSeek-R1构建,并使用DeepSeek-V3-0324 数据进行微调。
模型作者的测试结果是水平与 DeepSeek-R1 一样好,但是思考时间显著变短了,可以当作 DeepSeek-R1 加强版使用。
地址:huggingface.co/tngtech/DeepSeek-R1T-Chimera …
看到个好玩的调色板生成项目,RampenSau
这个库利用色调循环和缓动函数来生成颜色渐变。它可以生成一系列色调,或者使用色调列表来生成颜色渐变。并且是开源的~
github: github.com/meodai/rampensau 网页直接用:meodai.github.io/rampensau
👍👍👍
我一般是拿来组集群用的,并不嵌入哈哈
建议 PCI-SIG 给PCIe-8 增加热插拔。反正马上电信号就要扛不住了,不如直接不向前兼容,然后全部光口PAM4热插拔完事了(x
我比较好奇的是那个CX8,放在那么边角的位置,并且插头笼子也没散热,真的不会分分钟化掉么…
是的,感觉写作分数高就得靠传统媒体技能——瞎说…
请看llama.cpp的参数文档
估计内存带宽还是最大273GB/s? 毕竟目前没看到除了果子家谁家LPDDR5X搞到800GB/s了
话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。
我还是比较信 Aider Leaderboard 一些哈哈哈
可以试试,不过我还没来得及测
哈哈哈
👍
好文👍
猪猪出品!必属精品!
写代码,用SDK或者curl调用llm。然后设置timeout,等到LLM出结果后处理后存储
所以评分规则里充分考虑了这种情况,目的就是增加能完整生成20个球和不能生成20个球增加区分度
👍
发布啦!感谢贡献♥