使用 exo 连接的 MacMini M4 集群, 运行Nemotron 70B大概在 8 token/s.
视频来自 alexocheema@twitter: https://x.com/alexocheema/status/1855238474917441972
9
- naivekun14 days ago
看起来只是用雷电网桥互联?还以为雷电支持cxl/ccix了
- naivekun14 days ago
10G以太网居然比雷电跑得还快
- haswelliris13 days ago
雷电网桥互联实际就是虚拟了一个20G网卡出来吧?至少在win下面是这样
这种模型蜈蚣,1token也就传递一次数据。只要别慢成RS232,有个网串起来速度都差不多
另外注意它两边的配置不一样
- qwq13 days ago
雷电网桥会延迟更低吗
不管高低,那点延迟差异在这里都不影响整体性能
- chopin199813 days ago
~~ 8 token/s 这么慢的吗 这是量化后的, 还是原始精度的?
不造,但根据测算,跑十几tps就到头了 https://vmem-for-llms.kcores.com/index-cn
- CatFly13 days ago
真行啊。大哥。