使用 exo 连接的 MacMini M4 集群, 运行Nemotron 70B大概在 8 token/s.
视频来自 alexocheema@twitter: https://x.com/alexocheema/status/1855238474917441972
10
chopin19985 months ago~~ 8 token/s 这么慢的吗 这是量化后的, 还是原始精度的?
不造,但根据测算,跑十几tps就到头了 https://vmem-for-llms.kcores.com/index-cn
naivekun5 months ago看起来只是用雷电网桥互联?还以为雷电支持cxl/ccix了
naivekun5 months ago10G以太网居然比雷电跑得还快
这种模型蜈蚣,1token也就传递一次数据。只要别慢成RS232,有个网串起来速度都差不多
另外注意它两边的配置不一样
qwq5 months ago雷电网桥会延迟更低吗
不管高低,那点延迟差异在这里都不影响整体性能
haswelliris5 months ago雷电网桥互联实际就是虚拟了一个20G网卡出来吧?至少在win下面是这样
CatFly5 months ago真行啊。大哥。