ubergarm 发布了一个他们的 DeepSeek-V3-0324 量化,这个量化版本搭配他们定制的 llama.cpp 性能特别强:
IQ4量化,单个 Intel 至强 6980P CPU 能达到 8.5 token/s, 同时保持良好的困惑度
量化模型地址:huggingface.co/ubergarm/DeepSeek-V3-0324-GGUF 需要的定制版 ik_llama.cpp 地址:github.com/ikawrakow/ik_llama.cpp/

HuggingFace 上了一个新功能,只要之前在 “个人设置->本地APP和硬件” 中添加了硬件。就能在新模型的模型卡下面看到自己的硬件能不能运行这个模型。特别方便。
图1是我的M2Ultra 128G,可以看到能运行这个模型的各种量化版本。图2则是我的3080Ti,可以看到哪个都不能运行哈哈哈哈。

看到个非常好的文章,如何在非 RDMA 环境下使用 DeepSeek 3FS
由于普通用户可能没有RDMA设备(笔记本或者板载网卡)。但是又想试一下3FS。所以这个文章讲了如何在非 RDMA 环境下部署DeepSeek 3FS。
地址:blog.open3fs.com/2025/04/01/deepseek-3fs-non-rdma-install-faster-ecosystem-app-dev-testing.html

最强开源 AI 搜索框架出现了!
就在刚刚 OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o Search 功能。成为了最强的开源AI搜索框架。
这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案)。并且专门为 AI Agent 优化。
(比较有意思的是,它的系统提示词有一句是:如果你成功解决了问题,你将得到一百万美元…) …

Qwen-2.5-Omni-7B 现在面临一个非常大的问题——目前还没有更普适的量化版本
现在量化版本只有 GPTQ,没有 gguf/mlx. 导致大部分使用 ollama, llama.cpp, mlx 的用户根本没办法用。而原版 7B 大小达到了20GB+,使用小显存显卡的用户完全没办法单卡部署。
而 GPTQ 量化理论上能用在 vLLM/SGLang 上。但是这俩框架目前也不支持。或者说这俩框架更多是为纯本文模型准备的。我看到 vLLM 里面提的支持 Qwen2.5-Omni-7B 的 PR 甚至都没有维护者回复…
随着时间流逝,现在 Qwen-2.5-Omni-7B 下载量也在下降了,这表示人们的关注度也在下降。建议官方看看能不能支持一波 gguf,给 llama.cpp 提个 PR 好让我们这些单卡佬用一用 …

另一个流媒体Diffusion项目——StreamDiffusion
可以将实时视频AI风格化重绘,性能也是相当高。无论是用在直播还是视频风格化都是可以的。
地址:github.com/cumulo-autumn/StreamDiffusion

来个开源一键换脸应用,Deep-Live-Cam
这个程序最强的点是它的生成速度几乎是实时的,所以能用在摄像头视频上
(官方在页面放了一大堆免责声明,请不要用于非法用途)
地址:github.com/hacksider/Deep-Live-Cam …

看到个终端编码AI Agent —— SuperCoder
这个工具可以在命令行中,让AI操作代码搜索,浏览项目结构,编辑代码,bug修复,以及cursor的代码更改支持(定位代码并修改等)
地址:github.com/huytd/supercoder

Llama-4可能要来了!
我在 ChatbotArena 随机测试的时候发现了2个新的 llama 模型:
代号跟别是 spider, cybele. 其中: cybele 这个模型输出特别慢,可能是个特别大的模型?400B+? 而spider特别话痨,输出了特别多并不需要的信息,可能用来创意写作会好一些,但是正常任务绝对不适合。 …

EQBench 的大模型创意写作榜单更新了
目前最能打的还是 DeepSeek-R1 ,新更新的 GPT-4o 第二,DeepSeek-V3-0324 第三。所以写文不用考虑,第一时间用 DeepSeek-R1 即可。
地址:eqbench.com/about.html#creative-writing-v3
