AI/LLM
大模型竞技场为大家带来 baidu 文心-4.5 和 文心-x1 的写代码评测结果!
简单来讲,这不是个用来写代码的模型。详细评分如 图1. 仅仅比 Gemma-3-27B-it 强一些.
这次评测由 @anthony_hoo@cyberbus.net 同学完成,感谢他的贡献!他的 github 地址是:github.com/Anthony-Hoo
具体评测中: …

微软刚发了一篇论文 KBLaM,可以将外部知识引入大模型
(我简单读了一下应该就是把知识库扔进大模型里面了,不过它的存储是线性增长而非二次方增长,但我估计如果知识库足够大,还是会吃很多显存)
KBLaM 是一种将结构化知识库直接集成到预训练 LLM 中的方法,与传统 RAG 有很大不同:
知识表示方式:KBLaM 将知识三元组(实体-属性-值)转换为连续的键值向量对(使用预训练的句子编码器和轻量级线性适配器) …

Unsloth 现在支持微调 Gemma-3 了
他们与 Hugging Face 合作创建了一个免费的笔记本,使用 Gemma 3 和 GRPO 训练你自己的推理模型
另外团推提到:在旧 GPU 上,Gemma 3 的推理和训练都不支持 float16,这个问题影响了所有框架,包括Unsloth、transformers、vLLM 等,如果使用 float16,Gemma 3 会无限激活,因为 float16 的最大范围是 65504,而 Gemma 3 的值达到 800,000 或更大。Llama 3.1 8B 的最大激活值大约是 324。 …

NVIDIA 刚发布了一个 Llama-3.3-Nemotron-Super-49B-v1 模型。
这是一个基于llama-3.3的推理模型,这个模型是通过他们整理的蒸馏数据 (来自这些模型: Llama-3.3-70B-Instruct, DeepSeek-R1, Qwen-2.5-Math-7B-Instruct, Qwen-2.5-Coder-32B-Instruct 等等)
另外强调了这个模型适用于RAG,并且可以商用。(以下分数均开启推理模式)AIME25 分数大概是 58.4 (QwQ-32B 是60),GPQA66.67 (QwQ-32B 是 65.2),看测评跟QwQ-32B不相上下。
总之我已经在做中模型竞技场了。各位可以等一个中模型水平横评。 …

Mistral-Small-3.1-24B-Instruct-2503 的 GGUF量化发布了哈。(昨天刚发布的模型)
地址:huggingface.co/bartowski/mistralai_Mistral-Small-3.1-24B-Instruct-2503-GGUF

HuggingFace 刚出了一个 PDF转 markdown 的小模型——SmolDocling-256M
我试了一下,见图1,大家看看效果
不过这个在线demo并不支持直接上传PDF。所以我估计模型也得先将PDF转换为图片然后再进行识别?
模型地址:huggingface.co/ds4sd/SmolDocling-256M-preview 在线体验:huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo…

欧洲大模型的一只独苗 Mistral Small 3.1 发布了。
模型大小是24B,128K上下文,支持多模态输入。支持24种语言。其它的嘛。。。没啥了
我近期打算搞一个中模型竞技场,会横评最近的40B以下14B以上的中等大小模型,感兴趣的朋友欢迎关注。
模型地址:huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503 …

Anthropic 要发布 Claude-3.7-sonnet-Max?
这个消息是 cursor 刚发布的新版本的 change log。里面写了为 3.7-sonnet-max做准备。
change log 地址:https://www.cursor.com/cn/changelog

上周 HuggingFace 上最受关注的模型前10:
- sesame/csm-1b : 语音合成模型, 1B参数
- google/gemma-3-27b-it : 多模态模型, 27B参数
- Qwen/QwQ-32B : 具有推理能力的文本生成模型, 32B参数
- deepseek-ai/DeepSeek-R1 : 具有推理能力的文本生成模型, 685B参数
- RekaAI/reka-flash-3 : 具有推理能力的文本生成模型, 20.9B参数
- SparkAudio/Spark-TTS-0.5B : 语音合成模型, 0.5B参数…

才发现 GPT-SoVITS 发布新版本了,GPT-Sovits V3 TTS 407M,这个新模型提升了语音clone的效果。
另外,这个工具+模型是国产的哦,仅仅407M大小的模型,笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。
地址:github.com/RVC-Boss/GPT-SoVITS/releases/tag/20250228v3

来个霓虹灯风格的 FLUX 微调模型。可以生成霓虹灯风格的图片
注意生成的时候尾部要带单词 “neon” 才能触发生成这个风格的图片
地址:huggingface.co/glif-loradex-trainer/Hailey_Neon

MetaStone 刚发布了个 MetaStone-L1-7B 号称能打过 Claude-3.5-sonnet-1022 (去年10月的版本)…
就,这么自信?真的不是过拟合吗?
模型地址:huggingface.co/MetaStoneTec/MetaStone-L1-7B

使用如下提示词(第一版)可以让claude3.7自己思考起来:
<identity>
You are an AI assistant focused on providing comprehensive, well-reasoned responses. You must think step-by-step before providing any answers.
</identity>
<context>
Your task is to break down complex problems and show your complete thinking process before giving any answers.
</context>
<instructions>
For every response you must:
1. First think through the problem step-by-step in <thinking> tags
2. Then provide your final answer in <answer> tags
</instructions>
<format>
<thinking>
[Show your step-by-step reasoning process:
1. What is the core question/problem?
2. What key components need to be analyzed?
3. What approach will you take?
4. What potential challenges exist?
5. How will you structure your response?]
</thinking>
<answer>
[Provide your final, complete response based on your thinking]
</answer>
</format>
经测试,官网的和cursor的claude3.7不降智时均可以稳定触发,思考效果还不太稳定。
linuxdo上的一位老哥发现的,原帖