karminski-牙医

站长 | 码农 | homelab 级垃圾佬 | 服务器命理师 | 专业服务器开光15年 | 有问题请反馈到站务频道 c/site | 关于我 bento

cake
Cake day: September 16th, 2024Joined 11 months ago

1
message-square
0

之前网传的 B60 二合一 48G 显存版本终于要来了。单个核心 24G GDDR6 带宽456GB/s 俩并行是 921GB/s 这个性能已经能跑 70B 4bit 规模的模型了(14 token/s 左右)。价格合适会是本地部署模型的有一个不错的选择。

2
message-square
1

看到个带触摸功能的键盘 clvx-s

2
message-square
0


乔思伯这个一体水冷也太卷了… 建议装机界立个君子协议,水冷搭载的屏幕数量不得超过冷排的风扇数量

6
message-square
3

瑞芯微发了 RK3668,参数是 10 核 Arm Cortex-A730/Cortex-A530 ,外加 16 TOPS NPU,RK182X LLM/VLM 协处理器。

说实话从参数上看算力绝对够了,更多的是虽然配了 LPDDR5,甚至5X/6,但是内存带宽还是不太够,只有100GB/s. (NUP部分最高能支持 200GB/s LPDDR6) 建议至少拉到 400GB/s 这样绝对是跑本地小模型的神奇盒子。

5
message-square
1

2025年已经过去了一半, 文本生成大模型是否已经进入下半场? OpenAI 完全不重视 API市场? Grok3根本没人用? 未来会怎样走向?

来看我花费4小时精心为大家整理的大模型 API 市场解读(使用 OpenRouter 数据) —— 2025上半年谁是 AI API 服务王者

5
message-square
3


2
message-square
0

Gemini-2.5-Pro 和 Gemini-2.5-Flash 移除了 Preview 标签了。看来是版本固定了?加下来要向 Gemini Ultra 或者 Gemini-3迈进了

1
message-square
2


昨天的 GCP 全球宕机事故报告出了,给大家解读下。

从 Google 的报告来看,是给全球的API管理系统下发了一个非法的配额策略(比如1小时只能请求1次这种离谱的策略),于是所有外部请求都403了(因为按照策略超请求配额了,于是403拒绝),工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了,让这些API不检查配额策略直接给用户服务。

但是,但是来了,us-central1 地区的配额数据库过载了 (这里猜测工程师发现手抖应用错了策略,于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略,然后写入新策略,然后一看怎么还没生效,反而旧策略还在应用,检查后发现旧策略在缓存中,于是直接清空缓存!缓存失效,请求全部打在了数据库上,数据库就炸了…). 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑,使用逐步逐出缓存的方法,这也可能是为什么2小时才恢复的原因。

以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告,写得是事无巨细: …

5
message-square
0

meta 刚刚又发了新模型——V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)

这是个视频理解模型,能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制(如果用yolo需要针对训练,但是大模型的知识具有迁移性,视觉中出现新东西不用训练也能操作)

根据官方报告,这个模型的技术创新有:

  • 自我监督学习:模型不需要大量标注数据,而是通过"自己教自己"的方式学习
  • 遮挡预测机制:模型通过"填空题"的方式学习 - 遮住视频的某些部分,让模型预测被遮住的内容
  • 抽象表征学习:模型不是简单地记忆像素,而是学习视频的"抽象含义"…

1
message-square
0

没错进门就是 TRAE, 红色的牌子特别显眼, 这次实装了 doubao-seed-1.6-thinking 很多人都在当场试用

2
message-square
0

Intel 展位

首先还是最重磅的, Intel 把还没正式发布的 Arc Pro B60 拿过来了, 24G GDDR6, 456 GB/s, TDP 200 W. 从贴纸看这个还是工程样品. 我跟现场的工作人员说能否拔下来多拍几张, 结果被拒绝了, 因为没有螺丝刀. 机器搭配的是平平无奇 DDR5 4800.

3
message-square
1

面壁智能刚刚发了一堆小模型,包括: MiniCPM4-0.5B/8B/MCP/Survey 等等

  • MiniCPM4-0.5B 是面向端侧设备的,8B是旗舰模型
  • BitCPM4-0.5B/BitCPM4-1B 是类似 bitnet 的1bit 量化模型
  • MiniCPM4-Survey 是个专门用于生成报告的模型
  • MiniCPM4-MCP 是个MCP专用模型

另外还有一些视觉模型组件。目前从跑分上看,与 Qwen3-8B 不相上下,感兴趣的朋友可以试试。…

1
message-square
0

一张图搞定结构化3D建模——PartCrafter

这是一个来自北大+字节跳动+卡耐基梅隆大学的联合项目

简单来说,这个项目实现了从单张RGB图像直接生成多个语义部件的结构化3D模型,彻底告别了传统"先分割再重建"的繁琐流程,提供:

  • 端到端生成:无需预分割输入,一步到位生成完整的部件化3D场景
  • 组合式潜在空间:每个3D部件用独立的潜在token集合表示,支持灵活编辑…

1
message-square
0

1
message-square
0



2
message-square
0

2
message-square
1

“昨天的我狙击了今天的你”

小米刚刚发布了两个新模型,我来给大家分别介绍,这个是第一个—— MiMo-7B-RL-0530

这是一个文本推理模型,跟 DeepSeek-R1 是一个类型。小米宣称这个新模型在 7B 规模这个是目前最强的模型。

官方比较的也是之前 DeepSeek-R1 蒸馏的 Qwen2.5-7B, 甚至说 AIME24 数学测试超过了旧版 R1,估计是也没料到 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B。 我把数据整理到一起给大家看。结论就是——没打过 DeepSeek-R1-0528-Distilled-Qwen3-8B. …

2
message-square
0

有数据显示 DeepSeek-R1-0528 的后训练数据可能是使用 Gemini 合成的, 之前的旧版R1则是用 OpenAI 模型合成的。图中是一个针对 DeepSeek 输出内容进行聚类的树,可以看到新版的 R1 在输出内容聚类上更靠近 Google Gemini, 而之前的 R1 则更靠近 OpenAI

1
message-square
0

1
message-square
0











  • 话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。






Karma

  • 363 Posts
  • 414 Comments

Homelab

  • coming soon

Trophy Case