Unsloth 刚刚发布了一个强化学习小教程
教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。
地址: docs.unsloth.ai/basics/reinforcement-learning-guide
“磁碟”? 是台湾省的厂子产的吗?
昨天的 GCP 全球宕机事故报告出了,给大家解读下。
从 Google 的报告来看,是给全球的API管理系统下发了一个非法的配额策略(比如1小时只能请求1次这种离谱的策略),于是所有外部请求都403了(因为按照策略超请求配额了,于是403拒绝),工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了,让这些API不检查配额策略直接给用户服务。
但是,但是来了,us-central1 地区的配额数据库过载了 (这里猜测工程师发现手抖应用错了策略,于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略,然后写入新策略,然后一看怎么还没生效,反而旧策略还在应用,检查后发现旧策略在缓存中,于是直接清空缓存!缓存失效,请求全部打在了数据库上,数据库就炸了…). 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑,使用逐步逐出缓存的方法,这也可能是为什么2小时才恢复的原因。
以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告,写得是事无巨细: …
首先还是最重磅的, Intel 把还没正式发布的 Arc Pro B60 拿过来了, 24G GDDR6, 456 GB/s, TDP 200 W. 从贴纸看这个还是工程样品. 我跟现场的工作人员说能否拔下来多拍几张, 结果被拒绝了, 因为没有螺丝刀. 机器搭配的是平平无奇 DDR5 4800.
一张图搞定结构化3D建模——PartCrafter
这是一个来自北大+字节跳动+卡耐基梅隆大学的联合项目
简单来说,这个项目实现了从单张RGB图像直接生成多个语义部件的结构化3D模型,彻底告别了传统"先分割再重建"的繁琐流程,提供:
Mistral 刚又发了个小模型—— Magistral-Small-2506
这是个 Mistral Small 3.1 微调的版本,增加了推理能力的疯狂RL版本。这个大小很适合单卡 32G 跑。至于分数嘛… 跟 Qwen3-4B 差不多。GPQA 会高一些。但AIME甚至没有Qewn3-4B 高。
模型地址:huggingface.co/mistralai/Magistral-Small-2506 Unsloth 量化版本地址:huggingface.co/unsloth/Magistral-Small-2506-GGUF
草,自检几个小时怎么熬过去的,要我就以为纯纯的死机了
👍
苹果直接把 WWDC2025 上说的 apple/container 开源了,这个项目使用 Swift 编写,并且针对 Apple Silicon 进行了优化。项目是 Apache-2.0 协议
值得注意的是它是 OCI 兼容的,因此能直接用 Docker 镜像。
项目地址:github.com/apple/container 使用教程:github.com/apple/container/blob/main/docs/how-to.md
再来看小米发布的第二个新模型——MiMo-VL-7B-RL
这是个视觉模型,主打视觉推理,宣传也是在7B这个规模达到了领先,另外一个亮点是,它支持UI识别,因此可以当作各种界面操作MCP的前置模型。
由于官方没有放出在线使用地址,以及视觉测试我基本都没什么感知,所以感兴趣的朋友只能自己试试了。
地址:huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL …
“昨天的我狙击了今天的你”
小米刚刚发布了两个新模型,我来给大家分别介绍,这个是第一个—— MiMo-7B-RL-0530
这是一个文本推理模型,跟 DeepSeek-R1 是一个类型。小米宣称这个新模型在 7B 规模这个是目前最强的模型。
官方比较的也是之前 DeepSeek-R1 蒸馏的 Qwen2.5-7B, 甚至说 AIME24 数学测试超过了旧版 R1,估计是也没料到 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B。 我把数据整理到一起给大家看。结论就是——没打过 DeepSeek-R1-0528-Distilled-Qwen3-8B. …
有数据显示 DeepSeek-R1-0528 的后训练数据可能是使用 Gemini 合成的, 之前的旧版R1则是用 OpenAI 模型合成的。图中是一个针对 DeepSeek 输出内容进行聚类的树,可以看到新版的 R1 在输出内容聚类上更靠近 Google Gemini, 而之前的 R1 则更靠近 OpenAI
AI能挖掘 0-day 漏洞了?
看到个安全研究员的博客, 使用 OpenAI o3 成功发现了个 linux 内核 0-day 漏洞. 当然发现过程并不是直接把内核4000万行代码扔进去. 而是有针对的分析.
blog 作者一直在审查 ksmbd (内核中的 samba3 协议服务器) 相关漏洞, 并且构建相关验证场景. AI 最大的用处是帮助人分析代码, 相关的代码片段大概 3300 行, o3 目前上下文召回也是最强的, 所以很适合这个场景, 然后 o3 就发现了个变量释放的引用计数器bug, 导致其它线程可以访问.
搜沉浸式翻译,chrome插件
Qwen 又发新模型了! ParScale-1.8B-P1 (P2,P4,P8)
这个 P 是什么意思?没错,就是这个模型最新颖的点。大家知道提升模型能力要么增加参数量,要么疯狂推理(类似QwQ一个问题要想3分钟)。于是 Qwen 团队又搞出了一个新方法,干脆并行推理。于是他们发明了新的方法——ParScale
简单讲 ParScale,首先使用 n 个并行流进行推理 (就是模型后缀的Pn),但这些不是相同的推理启动多个,而是使用可学习的差异化变换(transformations),这些输入的内容在模型中前向传递(使学习变换后的内容具有关联性)。最后使用动态聚合机制合并所有输出结果。
Qwen 团队验证,使用这个方法能近似相当于给模型扩展参数,使用P个并行流的扩展相当于将参数数量增加 O(log P) 倍。比如 30B 的模型,如果 8 个并行,那么效果相当于一个 42.5B 的模型。 …
来看这个新技术 PTS (Pivotal Token Search, 关键token检索)
简单来讲, PTS的想法基于——大模型干活的时候不是所有输出的 token 都能成为决策点, 而是几个关键点 token 能决定大模型输出的东西对不对, 其它全是水词, 于是PTS方法提取这些 token, 形成 DPO(Direct Preference Optimization, 直接偏好优化)数据集. 数据集包含 “选择的 token” (增加成功率的 token), “拒绝的token” (降低成功率的 token)。然后进行针对性微调.
除了微调, PTS 方法还可以提取关键 token 的激活模式, 生成 steering vectors(引导向量)。然后在模型推理过程中引导,这样就不用微调了。(当然计算量会增加一些)
不过我咋感觉这个方法只是将一部分参数在向量空间的分布概率拉大?尤其是作者说是收到Phi4启发的。但Phi4的效果没啥惊艳的地方。那么这个方法真的有什么改进么?还是我理解的不太对?想听听有没有大佬的想法或者实践经验 …
想要一个安全MCP沙箱环境吗?不用自己搭建,来看这个项目——llmbasedos
llmbasedos 使用 Arch Linux 裁剪构成,然后内部将 Arch 的各种功能(文件系统,邮件,同步,代理等)包装成MCP服务。连接后即可调用。
当然,这其实就是个装了东西的操作系统。你需要用虚拟机或者用物理机从iso启动这个操作系统才能用。
地址:github.com/iluxu/llmbasedos …
Qwen 刚刚又发布了 4 个模型,WorldPM-72B,WorldPM-72B-HelpSteer2 ,WorldPM-72B-RLHFLow,WorldPM-72B-UltraFeedback
不过这些模型都是偏好建模模型,你可以简单理解为给其他模型的回答打分的模型。最大的用途是用来监督学习的。官方也说使用这个训练比从0开始训练效果要好。
地址:huggingface.co/Qwen/WorldPM-72B 还有论文:arxiv.org/pdf/2505.10527
也是下血本了,导风罩竟然是钣金的
👍
👍👍👍
我一般是拿来组集群用的,并不嵌入哈哈
建议 PCI-SIG 给PCIe-8 增加热插拔。反正马上电信号就要扛不住了,不如直接不向前兼容,然后全部光口PAM4热插拔完事了(x
我比较好奇的是那个CX8,放在那么边角的位置,并且插头笼子也没散热,真的不会分分钟化掉么…
是的,感觉写作分数高就得靠传统媒体技能——瞎说…
请看llama.cpp的参数文档
估计内存带宽还是最大273GB/s? 毕竟目前没看到除了果子家谁家LPDDR5X搞到800GB/s了
话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。
我还是比较信 Aider Leaderboard 一些哈哈哈
可以试试,不过我还没来得及测
哈哈哈
👍
好文👍
竟然还有跑马灯。
重要的是价格老铁,只要足够便宜,就能日用哈哈哈哈👍