AI/LLM

c/ai_llm

其中单IC的是 Wormhole n150s, 双IC的是 Wormhole n300s

6
message-square
0

使用 exo 连接的 MacMini M4 集群, 运行Nemotron 70B大概在 8 token/s.

4
message-square
9

karminski-牙医MA ·
edit-2
17 days ago

xAI API 已经上线, 每月免费赠送 25USD API用量

马斯克的 xAI 上线了, 现在注册即可每月免费试用 25USD 的免费API用量 (twitter账号验证即可).

1
message-square
0

看到一个比较抽象的设备 Lemony Node. 号称可以支持5个用户, 有2个预加载的 AI 模型, 并且能存储 1TB 企业文件做本地 RAG.

1
message-square
5

karminski-牙医MA ·
edit-2
17 days ago

Apple MacMini M4 能用来跑大模型吗?

Apple MacMini M4 刚刚发布, 有很多朋友觉得跑 LLM(大语言模型) 或者炼丹等 AI 应用应该很性感, 我之前搞了个显存天梯, 刚刚更新了 M4 设备, 让我们来直接看天梯分数 (图1).

Apple MacMini M4 Pro 24GB x4 来到了 22.75 分, 这意味着什么呢? 这意味着 4 台 Apple MacMini M4 Pro 24GB 可以在运行 Llama-3.2-70b-instruct 模型时每秒钟生成 23 个 token (最大理论值, 实际还会更少).

1
message-square
2

karminski-牙医MA · 1 month ago

NVIDIA 刚刚发布了他们魔改后的 llama-3.1-nemotron-70b-instruct, 据说比GPT-4o和Sonnet-3.5要猛

llama-3.1-nemotron-70b-instruct

1
message-square
0

和 @AlphaArea 搞了一个大语言模型推理显卡天梯,这个天梯会根据现存速度来计算显卡用于推理的理论最大 token/s 的数值。因为LLM计算的本质就是扫内存,所以在相同模型大小下,扫的越快的显卡每秒钟输出token越多。

这里计算使用的是 llama-3.1-70b,该模型大约需要 48GB 的显存。对于显存不够的显卡假设他们使用无损耗的并行计算来进行推理(即总速度=单卡显存速度*显卡数量)。

从数据来看会发现单卡性能很强的情况(例如单卡A100),并不能得到碾压的推理速度,所以最好的推理方案仍然是多卡并行。

KCORES 大语言模型推理专用显存天梯

2
message-square
2