卧槽,我刚试了一下这个,SesameAILabs 实现了一个几乎无延迟的AI数字音频模型 ,应该是我体验过的最强的模型了。

我给大家录了个视频,大家可以听听看(一定要开声音,请忽略我的垃圾口语)。同时也建议直接访问试试,体验下延迟 (说实话别说延迟了,太快了,连气口都不给我)。

demo 我发现不仅可以顺畅聊天,甚至还有记忆,我跟他聊小米的车,结果我每次重新开始她就问我你的黄色车怎么样了… 要说缺点,也不是没有,她太多俚语了,我听不懂… (当然这其实是我的缺点… [苦涩][苦涩][苦涩])

顺便,这个是开源的!分三个大小:1B,3B,8B。本地轻松运行。

在线地址:www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo#

开源项目地址(目前还在准备):github.com/SesameAILabs/csm

3
message-square
0