2
message-square
3

考虑到提供了Enhance a Video等功能且支持模块化和量化后的VACE模型,虽然显存优化差一些但还是在Comfyui改用WanVideoWrapper而非官方工作流进行部署。

使用文生视频时,8g显存能生成33帧1152x640分辨率的视频,在3070m用时约26分钟。

1
message-square
3

本来只是想买 PA27JCV 替换掉现有的 U3219Q,但买回来后旧显示器又不想扔了,某日灵机一动能不能每台电脑都输出到双屏,比划了一下似乎有戏:

2
message-square
0

由于旧版Deepseek R1前端开发能力一般,而GitHub Pages以及这一页面需要展示的网页的开发对模型的前端开发要求较高,因此在Deepseek R1 0528发布后才开发这部分项目。

4
message-square
3

2
message-square
1

“昨天的我狙击了今天的你”

小米刚刚发布了两个新模型,我来给大家分别介绍,这个是第一个—— MiMo-7B-RL-0530

这是一个文本推理模型,跟 DeepSeek-R1 是一个类型。小米宣称这个新模型在 7B 规模这个是目前最强的模型。

官方比较的也是之前 DeepSeek-R1 蒸馏的 Qwen2.5-7B, 甚至说 AIME24 数学测试超过了旧版 R1,估计是也没料到 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B。 我把数据整理到一起给大家看。结论就是——没打过 DeepSeek-R1-0528-Distilled-Qwen3-8B. …

2
message-square
0

有数据显示 DeepSeek-R1-0528 的后训练数据可能是使用 Gemini 合成的, 之前的旧版R1则是用 OpenAI 模型合成的。图中是一个针对 DeepSeek 输出内容进行聚类的树,可以看到新版的 R1 在输出内容聚类上更靠近 Google Gemini, 而之前的 R1 则更靠近 OpenAI

1
message-square
0

1
message-square
0

3
message-square
1

由于前段时间使用的Hidream i1 full等模型速度较慢,近期希望查找速度更快的模型用于非正式作品,总体要求是绘画模型在3070m上生成时间10秒内,视频模型单帧生成时间4秒内。

绘画模型用LCM比较快,但有LCM的模型较少,考虑速度因素,选择了以SD1.5为底模的Cyberrealistic v32,在人物等用途的总体效果也优于不少专用模型,只有航拍效果略低于ArchitectureRealMix。30步生成1024x680分辨率的图片在3070m上用时8.2秒。至于其它底模,SANA Sprint速度还要快不少但生成效果较差。

视频模型考虑速度和效果,选择了AnimateLCM SVD xt,是SVD xt的LCM版本,虽然后段画质有一定下降但总体上能用,8步生成1024x680分辨率的视频在3070m上单帧用时3.8秒。至于其它模型,AnimateDiff Lightning和LTX Video 0.9.6速度更快,但前者细节表现较差,后者只适用于部分题材。

以下是几组生成案例: …

3
message-square
0

据三位了解内情人士透露,芯片制造商英特尔正在考虑剥离其网络和边缘业务,因为新任首席执行官认为公司中的一些部分并非关键。

2
message-square
3

Qwen 又发新模型了! ParScale-1.8B-P1 (P2,P4,P8)

这个 P 是什么意思?没错,就是这个模型最新颖的点。大家知道提升模型能力要么增加参数量,要么疯狂推理(类似QwQ一个问题要想3分钟)。于是 Qwen 团队又搞出了一个新方法,干脆并行推理。于是他们发明了新的方法——ParScale

简单讲 ParScale,首先使用 n 个并行流进行推理 (就是模型后缀的Pn),但这些不是相同的推理启动多个,而是使用可学习的差异化变换(transformations),这些输入的内容在模型中前向传递(使学习变换后的内容具有关联性)。最后使用动态聚合机制合并所有输出结果。

Qwen 团队验证,使用这个方法能近似相当于给模型扩展参数,使用P个并行流的扩展相当于将参数数量增加 O(log P) 倍。比如 30B 的模型,如果 8 个并行,那么效果相当于一个 42.5B 的模型。 …

5
message-square
4

来看这个新技术 PTS (Pivotal Token Search, 关键token检索)

简单来讲, PTS的想法基于——大模型干活的时候不是所有输出的 token 都能成为决策点, 而是几个关键点 token 能决定大模型输出的东西对不对, 其它全是水词, 于是PTS方法提取这些 token, 形成 DPO(Direct Preference Optimization, 直接偏好优化)数据集. 数据集包含 “选择的 token” (增加成功率的 token), “拒绝的token” (降低成功率的 token)。然后进行针对性微调.

除了微调, PTS 方法还可以提取关键 token 的激活模式, 生成 steering vectors(引导向量)。然后在模型推理过程中引导,这样就不用微调了。(当然计算量会增加一些)

不过我咋感觉这个方法只是将一部分参数在向量空间的分布概率拉大?尤其是作者说是收到Phi4启发的。但Phi4的效果没啥惊艳的地方。那么这个方法真的有什么改进么?还是我理解的不太对?想听听有没有大佬的想法或者实践经验 …

1
message-square
0

1
message-square
0

1
message-square
0

1
message-square
0

BitNet 模型又增加了,来看 TII 的 Falcon-E-1B/3B

据官方说这个模型性能与 Qwen3-1.7B 相当,但内存占用仅有 Qwen3-1.7B 的 1/4

1
message-square
0

1
message-square
1

5
message-square
2

5
message-square
2