这个不知道好不好用捏
这个不知道好不好用捏
这图差不多是p的了
dify也挺好的 配合bgem3
实际情况是官方算子没写好,新版已经取消了mla相关的更新 今天刚修完 🫠
实际测下来 0.21效果并不是很好 😂 再优化一段时间吧 我甚至遇到死循环了233333
嗯 内存带宽始终都是最大瓶颈 其次就是cpu了 志强支持amx应该会好很多 gpu反倒不怎么吃
先贴个链接Ktransformers 官方目前暂时更新到了0.2版本 0.3版本还在测试,由于0.3版本需要AMX指令集支持,所以只对0.2版本进行了测试
具体部署流程在仓库的doc已经写的很清楚了 其中有两个小坑 第一个要更新工具链,已经在仓库中FAQ给出;第二个是flash_attn的编译安装(这一步非常慢,所以建议能直接装whl就直接装)
效果测试👇
消费级板子的layout就是一坨 5.0跑硬盘降速 不认卡有很多案例了
所以prompt呢(●‘◡’●)