稚晖君这个视觉识别到语音合成那段的速度有点猛的,超越了我的理解。好奇是本地计算吗?如果是本地的话,SoC功耗电池能跟得上吗?
除非能上手体验真机,不然我是不信的。具身智能搞虚假宣传已经司空见惯了,端侧那点算力多模态能有这个响应速度我觉得不太可能,大概率是剧本