开源大模型防火墙来了!——Wisent-Guard
这个框架能过滤大模型的输出,它的原理并不是简单的后置过滤(例如文本匹配敏感词)。而是会从基于词汇名单的潜在空间,创建激活向量或分类器,然后再模型的推理过程中监控模型激活。一旦发现触发了需要过滤的激活模式就会阻止模型继续输出。
更进一步的话,这个框架不仅能作为敏感词过滤,还可以纠正大模型表现,比如如果是确定要进行 function call 的模型 (AI Agent 用途),如果不发生 function call,可以提前终止并重写 prompt,让 function call 概率提高。
对本地部署大模型的独立开发者或者企业特别有用,建议有相关需求的可以mark一下。 …

来个 OpenWebUI 的超好用魔改版!
这个魔改版增加了更好用的代码展示和编辑界面,同时还有web页面预览窗口。大模型生成的前端代码在右侧可以直接预览运行(类似 Google 上周推出的 Canvas 功能)
地址:github.com/nick-tonjum/open-webui-artifacts-overhaul

刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来
目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击…
不过我还是希望开源模型会多一些的… 去年 Llama 用的真的很爽,然后 DeepSeek-V3 一出,就没 Llama 啥事情了…

Google 的开源模型 Gemma-3 的新 QAT (Quantization Aware Trained, 量化感知训练) 检查点量化版本放出了!
这个版本使用 Q4 量化并且能与之前 BF16 版本保持几乎一致的质量(我看到的是Q4量化比 bartowski 的Q5量化数据还好)
总之这个量化版本应该是目前最优的版本了, 有需要本地跑32B规模模型的同学可以试试
地址:huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b …

KTransformers 运行 DeepSeek 性能又提升啦!
KTransformers v0.2.4 16小时前刚刚发布!这个版本整合了SGLang一些特性,并且支持并发请求了!
通过提高并发性,总输出吞吐量从 17 token/s 增加到了 40 token/s。并且观察到性能瓶颈已经从 CPU 内存 转移到了显卡,即,换显卡就能有更大的提升!
(官方是用 Xeon6 + MRDIMM-8800 +4090D 测试的) …

AI 幻觉检测模型来了!HallOumi-8B
这个模型可以对照用户提供的上下文和引用资料,来帮用户校对AI生成的内容是否产生了幻觉。我做了个例子如 (图1) 。这个模型靠8B的参数量就在幻觉检测测试中打败了各种头部大模型 (图2)。

Diffusion 语言模型又进化啦!
之前我发过很多基于 Diffusion 的大语言模型,大家都知道目前仍然基于 transformer 的大语言模型是主流。而香港大学带来了全新的 Diffusion 语言模型——Dream 7B

Qwen-2.5-Omni-7B 现在面临一个非常大的问题——目前还没有更普适的量化版本
现在量化版本只有 GPTQ,没有 gguf/mlx. 导致大部分使用 ollama, llama.cpp, mlx 的用户根本没办法用。而原版 7B 大小达到了20GB+,使用小显存显卡的用户完全没办法单卡部署。
而 GPTQ 量化理论上能用在 vLLM/SGLang 上。但是这俩框架目前也不支持。或者说这俩框架更多是为纯本文模型准备的。我看到 vLLM 里面提的支持 Qwen2.5-Omni-7B 的 PR 甚至都没有维护者回复…
随着时间流逝,现在 Qwen-2.5-Omni-7B 下载量也在下降了,这表示人们的关注度也在下降。建议官方看看能不能支持一波 gguf,给 llama.cpp 提个 PR 好让我们这些单卡佬用一用 …

HuggingFace 上了一个新功能,只要之前在 “个人设置->本地APP和硬件” 中添加了硬件。就能在新模型的模型卡下面看到自己的硬件能不能运行这个模型。特别方便。
图1是我的M2Ultra 128G,可以看到能运行这个模型的各种量化版本。图2则是我的3080Ti,可以看到哪个都不能运行哈哈哈哈。

ubergarm 发布了一个他们的 DeepSeek-V3-0324 量化,这个量化版本搭配他们定制的 llama.cpp 性能特别强:
IQ4量化,单个 Intel 至强 6980P CPU 能达到 8.5 token/s, 同时保持良好的困惑度
量化模型地址:huggingface.co/ubergarm/DeepSeek-V3-0324-GGUF 需要的定制版 ik_llama.cpp 地址:github.com/ikawrakow/ik_llama.cpp/

看到个非常好的文章,如何在非 RDMA 环境下使用 DeepSeek 3FS
由于普通用户可能没有RDMA设备(笔记本或者板载网卡)。但是又想试一下3FS。所以这个文章讲了如何在非 RDMA 环境下部署DeepSeek 3FS。
地址:blog.open3fs.com/2025/04/01/deepseek-3fs-non-rdma-install-faster-ecosystem-app-dev-testing.html

最强开源 AI 搜索框架出现了!
就在刚刚 OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o Search 功能。成为了最强的开源AI搜索框架。
这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案)。并且专门为 AI Agent 优化。
(比较有意思的是,它的系统提示词有一句是:如果你成功解决了问题,你将得到一百万美元…) …

另一个流媒体Diffusion项目——StreamDiffusion
可以将实时视频AI风格化重绘,性能也是相当高。无论是用在直播还是视频风格化都是可以的。
地址:github.com/cumulo-autumn/StreamDiffusion

来个开源一键换脸应用,Deep-Live-Cam
这个程序最强的点是它的生成速度几乎是实时的,所以能用在摄像头视频上
(官方在页面放了一大堆免责声明,请不要用于非法用途)
地址:github.com/hacksider/Deep-Live-Cam …
