来看这个新技术 PTS (Pivotal Token Search, 关键token检索)

简单来讲, PTS的想法基于——大模型干活的时候不是所有输出的 token 都能成为决策点, 而是几个关键点 token 能决定大模型输出的东西对不对, 其它全是水词, 于是PTS方法提取这些 token, 形成 DPO(Direct Preference Optimization, 直接偏好优化)数据集. 数据集包含 “选择的 token” (增加成功率的 token), “拒绝的token” (降低成功率的 token)。然后进行针对性微调.

除了微调, PTS 方法还可以提取关键 token 的激活模式, 生成 steering vectors(引导向量)。然后在模型推理过程中引导,这样就不用微调了。(当然计算量会增加一些)

不过我咋感觉这个方法只是将一部分参数在向量空间的分布概率拉大?尤其是作者说是收到Phi4启发的。但Phi4的效果没啥惊艳的地方。那么这个方法真的有什么改进么?还是我理解的不太对?想听听有没有大佬的想法或者实践经验 …

1
message-square
0

1
message-square
0

1
message-square
0

1
message-square
0

4
message-square
2

BitNet 模型又增加了,来看 TII 的 Falcon-E-1B/3B

据官方说这个模型性能与 Qwen3-1.7B 相当,但内存占用仅有 Qwen3-1.7B 的 1/4

1
message-square
0

1
message-square
0

3
message-square
1

如下是几款五代至强ES处理器的性能表格

QDF包含 Q2T7 Q2SP Q2SR Q2Y6 Q2Y7 Q2Y8 Q30G

相比上次四代志强ES的数据表,新增了CPUZ跑分数据,以便于大家更好地进行比较

3
message-square
3

1
message-square
2

最近在网上冲浪的时候,在与某二手平台商家沟通过程中,发现一款有趣的CPU

QDF Q4G4

STEPPING B0

LGA 7529 …

2
message-square
3

[https://zhuanlan.zhihu.com/p/1905008654861734139] (这是我在知乎发的帖子转载过来,所以格式和图片有所丢失)

为什么选择本地AI与Copilot?

数据隐私:所有数据处理都在本地进行,无需担心笔记内容上传云端。 离线使用:一旦设置完成,部分功能可在无网络环境下使用。…

2
message-square
4

1
message-square
0

微软发了篇新论文 ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers, 使用自主推理与工具的自改进 Transformer 框架)

我刚看完, 直接用大白话给大家总结下论文讲了啥

这个框架集成了外部工具调用和自主推理, 来提升效果. 并且推理可以多步骤. 得到结果后进行强化学习, 不断反刍, 最终效果提升高达 22%.

1
message-square
0

速报:Manus 不用邀请码就能用了哈

1
message-square
0

包含Q071, Q074, Q075, Q076, Q079五个QDF代号对应的CPU

这几款CPU在闲鱼上价格比较便宜,可以为大家玩机提供一个参考

3
message-square
0

4
message-square
4

1
message-square
0

HiDream i1 full在3070m上生成1920x1088分辨率的图片要12分钟,dev版本要3.5分钟,fast版本要2分钟,因结构表现下降不推荐使用。目前TeaCache还没有支持。

生成效果方面,HiDream i1 dev效果优于Flux.1 dev,但细节和光照表现还是明显低于HiDream i1 full,后者生成效果也接近比较优秀的闭源绘画模型。考虑后续有TeaCache支持的速度情况,个人还是偏向full版本。

HiDream i1发布有一段时间了,在这个适合测试是因为刚开始看到光照不如Pixelwave FLux.1 dev,但使用后者遇到细节问题,就决定尝试HiDream i1。个人认为综合光照表现,HiDream i1仍然是更好的选择。

3
message-square
0

2
message-square
0