wumoetoc/ai_llm•Apple MacMini M4 能用来跑大模型吗?17 days ago实际上有很多问题没有考虑,比如首字回复速度。还有flash attention支持,FP8等等 🤪 。 vllm,sglang一票加速库甚至还不支持sm70/75的卡。
实际上有很多问题没有考虑,比如首字回复速度。还有flash attention支持,FP8等等 🤪 。 vllm,sglang一票加速库甚至还不支持sm70/75的卡。