阿里的移动端多模态大模型APP(完全开源且使用移动端本地的模型哈)——MNN 又更新了!现在支持 Qwen-2.5-omni-3b 和 7b 了。

这个APP搭配多模态模型可以支持 文本到文本、图像到文本、音频到文本和文本到图像生成。并且速度也可以。想学习移动端大模型应用开发的可以参考试试

地址:github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

1
message-square
2
  • Anthony-Hoo
    4 days ago

    omni模型在本地跑的话,似乎可以做离线的语音翻译器,回头试试看。 手机的内存带宽还是瓶颈,也许他这个iOS版本在m系列的iPad上运行更快?

  • William7004
    5 days ago

    今天测试了一下,音频输入用长音频可能有问题。以后如果添加滑动窗口,还是有望在实现实时交互的同时代替常规的ASR/TTS模型。音频输出的问题问过了,实际上还没有添加回放功能。