1
message-square
0

HuggingFace 上了一个新功能,只要之前在 “个人设置->本地APP和硬件” 中添加了硬件。就能在新模型的模型卡下面看到自己的硬件能不能运行这个模型。特别方便。

图1是我的M2Ultra 128G,可以看到能运行这个模型的各种量化版本。图2则是我的3080Ti,可以看到哪个都不能运行哈哈哈哈。

1
message-square
0

1
message-square
0

是不是天天听到 MCP 却不知道怎么用?来看这个——Dive

1
message-square
0

最强开源 AI 搜索框架出现了!

就在刚刚 OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o Search 功能。成为了最强的开源AI搜索框架。

这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案)。并且专门为 AI Agent 优化。

(比较有意思的是,它的系统提示词有一句是:如果你成功解决了问题,你将得到一百万美元…) …

1
message-square
0

Qwen-2.5-Omni-7B 现在面临一个非常大的问题——目前还没有更普适的量化版本

现在量化版本只有 GPTQ,没有 gguf/mlx. 导致大部分使用 ollama, llama.cpp, mlx 的用户根本没办法用。而原版 7B 大小达到了20GB+,使用小显存显卡的用户完全没办法单卡部署。

而 GPTQ 量化理论上能用在 vLLM/SGLang 上。但是这俩框架目前也不支持。或者说这俩框架更多是为纯本文模型准备的。我看到 vLLM 里面提的支持 Qwen2.5-Omni-7B 的 PR 甚至都没有维护者回复…

随着时间流逝,现在 Qwen-2.5-Omni-7B 下载量也在下降了,这表示人们的关注度也在下降。建议官方看看能不能支持一波 gguf,给 llama.cpp 提个 PR 好让我们这些单卡佬用一用 …

1
message-square
0

1
message-square
0

1
message-square
0

1
message-square
0

Qwen3 和 Qwen3-MoE 合并进入 transformers 了哈

就等发布了

1
message-square
0

1
message-square
0

1
message-square
0

Llama-4可能要来了!

我在 ChatbotArena 随机测试的时候发现了2个新的 llama 模型:

代号跟别是 spider, cybele. 其中: cybele 这个模型输出特别慢,可能是个特别大的模型?400B+? 而spider特别话痨,输出了特别多并不需要的信息,可能用来创意写作会好一些,但是正常任务绝对不适合。 …

1
message-square
0

分享一个 linux 下的下载工具 rTorrent

1
message-square
0

2
message-square
2

3
message-square
1

显卡终于能插内存了?

3
message-square
0

2
message-square
1

2
message-square
4

大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分。依旧是来自 ramondsq 同学的贡献。十分感谢。

1
message-square
0