2
message-square
6
  • chraav
    2 months ago

    llama.cpp的cpu部分接好也有amx优化,不知道为啥暴会差这么大,是不是参数设置有点问题

    • AlphaAreaA
      2 months ago

      ktransformers 是利用 sparsity of attention 加速的正经 CPU/GPU 混合推理框架

      llama.cpp是纯粹的pipeline parallelism草履虫,除了代码简单蹭新模型热点速度快以外,就别指望它有任何性能亮点了

      • chraav
        1 month ago

        没必要拉踩吧,其实业界利用sparsity of attention的最佳实践应该是MoE的模型,每层激活少量专家,计算量大大减少,不过这个算是模型架构的问题了,和框架关系不大

    • karminski-牙医OPMA
      2 months ago

      不知道…不过我AMX要4代铂金,感觉群垃圾佬上3代铂金的都少…

      • li2244578
        2 months ago

        AMX 1代可扩展志强没amx吧.

  • naivekun
    2 months ago

    内存涨疯了,去年1500的96g ddr5我嫌贵没买,今天看了下要2900