AI/LLM

c/ai_llm

sdxl和sd1.5生态上大部分漫画风格模型结构表现不如照片风格模型。但最近测试的wai illustrators v14在结构表现有一定优势,并且可用分辨率在2.5k以上,正式工作流使用1080p分辨率,比cosmos predict2快不少。

3
message-square
0

之前尝试使用SD1.5以及LCM版本的微调模型作为高速绘画模型,但分辨率、细节和位置关系等方面表现差一些。今天引入了基于SDXL Lightning的Dreamshaper XL,一定程度上解决了这些问题并且可以在部分场景实现动漫风格。

1
message-square
0

由于Hidream i1速度较慢以及部分提示词光照有问题,改用Cosmos Predict2 2b作为主力绘画模型,不过细节较多的场景生成效果有一定问题。

1
message-square
1

2
message-square
0

Gemini-2.5-Pro 和 Gemini-2.5-Flash 移除了 Preview 标签了。看来是版本固定了?加下来要向 Gemini Ultra 或者 Gemini-3迈进了

1
message-square
2

meta 刚刚又发了新模型——V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)

这是个视频理解模型,能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制(如果用yolo需要针对训练,但是大模型的知识具有迁移性,视觉中出现新东西不用训练也能操作)

根据官方报告,这个模型的技术创新有:

  • 自我监督学习:模型不需要大量标注数据,而是通过"自己教自己"的方式学习
  • 遮挡预测机制:模型通过"填空题"的方式学习 - 遮住视频的某些部分,让模型预测被遮住的内容
  • 抽象表征学习:模型不是简单地记忆像素,而是学习视频的"抽象含义"…

1
message-square
0

没错进门就是 TRAE, 红色的牌子特别显眼, 这次实装了 doubao-seed-1.6-thinking 很多人都在当场试用

2
message-square
0

Intel 展位

首先还是最重磅的, Intel 把还没正式发布的 Arc Pro B60 拿过来了, 24G GDDR6, 456 GB/s, TDP 200 W. 从贴纸看这个还是工程样品. 我跟现场的工作人员说能否拔下来多拍几张, 结果被拒绝了, 因为没有螺丝刀. 机器搭配的是平平无奇 DDR5 4800.

2
message-square
0

面壁智能刚刚发了一堆小模型,包括: MiniCPM4-0.5B/8B/MCP/Survey 等等

  • MiniCPM4-0.5B 是面向端侧设备的,8B是旗舰模型
  • BitCPM4-0.5B/BitCPM4-1B 是类似 bitnet 的1bit 量化模型
  • MiniCPM4-Survey 是个专门用于生成报告的模型
  • MiniCPM4-MCP 是个MCP专用模型

另外还有一些视觉模型组件。目前从跑分上看,与 Qwen3-8B 不相上下,感兴趣的朋友可以试试。…

1
message-square
0

一张图搞定结构化3D建模——PartCrafter

这是一个来自北大+字节跳动+卡耐基梅隆大学的联合项目

简单来说,这个项目实现了从单张RGB图像直接生成多个语义部件的结构化3D模型,彻底告别了传统"先分割再重建"的繁琐流程,提供:

  • 端到端生成:无需预分割输入,一步到位生成完整的部件化3D场景
  • 组合式潜在空间:每个3D部件用独立的潜在token集合表示,支持灵活编辑…

1
message-square
0

1
message-square
0

考虑到提供了Enhance a Video等功能且支持模块化和量化后的VACE模型,虽然显存优化差一些但还是在Comfyui改用WanVideoWrapper而非官方工作流进行部署。

使用文生视频时,8g显存能生成33帧1152x640分辨率的视频,在3070m用时约26分钟。

2
message-square
3

由于旧版Deepseek R1前端开发能力一般,而GitHub Pages以及这一页面需要展示的网页的开发对模型的前端开发要求较高,因此在Deepseek R1 0528发布后才开发这部分项目。

5
message-square
4

2
message-square
1

“昨天的我狙击了今天的你”

小米刚刚发布了两个新模型,我来给大家分别介绍,这个是第一个—— MiMo-7B-RL-0530

这是一个文本推理模型,跟 DeepSeek-R1 是一个类型。小米宣称这个新模型在 7B 规模这个是目前最强的模型。

官方比较的也是之前 DeepSeek-R1 蒸馏的 Qwen2.5-7B, 甚至说 AIME24 数学测试超过了旧版 R1,估计是也没料到 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B。 我把数据整理到一起给大家看。结论就是——没打过 DeepSeek-R1-0528-Distilled-Qwen3-8B. …

2
message-square
0

有数据显示 DeepSeek-R1-0528 的后训练数据可能是使用 Gemini 合成的, 之前的旧版R1则是用 OpenAI 模型合成的。图中是一个针对 DeepSeek 输出内容进行聚类的树,可以看到新版的 R1 在输出内容聚类上更靠近 Google Gemini, 而之前的 R1 则更靠近 OpenAI

1
message-square
0

1
message-square
0

3
message-square
1

由于前段时间使用的Hidream i1 full等模型速度较慢,近期希望查找速度更快的模型用于非正式作品,总体要求是绘画模型在3070m上生成时间10秒内,视频模型单帧生成时间4秒内。

绘画模型用LCM比较快,但有LCM的模型较少,考虑速度因素,选择了以SD1.5为底模的Cyberrealistic v32,在人物等用途的总体效果也优于不少专用模型,只有航拍效果略低于ArchitectureRealMix。30步生成1024x680分辨率的图片在3070m上用时8.2秒。至于其它底模,SANA Sprint速度还要快不少但生成效果较差。

视频模型考虑速度和效果,选择了AnimateLCM SVD xt,是SVD xt的LCM版本,虽然后段画质有一定下降但总体上能用,8步生成1024x680分辨率的视频在3070m上单帧用时3.8秒。至于其它模型,AnimateDiff Lightning和LTX Video 0.9.6速度更快,但前者细节表现较差,后者只适用于部分题材。

以下是几组生成案例: …

3
message-square
0

Qwen 又发新模型了! ParScale-1.8B-P1 (P2,P4,P8)

这个 P 是什么意思?没错,就是这个模型最新颖的点。大家知道提升模型能力要么增加参数量,要么疯狂推理(类似QwQ一个问题要想3分钟)。于是 Qwen 团队又搞出了一个新方法,干脆并行推理。于是他们发明了新的方法——ParScale

简单讲 ParScale,首先使用 n 个并行流进行推理 (就是模型后缀的Pn),但这些不是相同的推理启动多个,而是使用可学习的差异化变换(transformations),这些输入的内容在模型中前向传递(使学习变换后的内容具有关联性)。最后使用动态聚合机制合并所有输出结果。

Qwen 团队验证,使用这个方法能近似相当于给模型扩展参数,使用P个并行流的扩展相当于将参数数量增加 O(log P) 倍。比如 30B 的模型,如果 8 个并行,那么效果相当于一个 42.5B 的模型。 …

5
message-square
4