安爸-超级家庭

Kyutai发布MoshiVis:首个能够描述图像的开源实时语音模型

安爸 发布于

人工智能在过去几年取得了显著进展,但将实时语音交互与视觉内容相结合仍然是一个复杂挑战。传统的系统通常依赖于语音活动检测、语音识别、文本对话和文本到语音合成的各自独立组件。这种分段方法可能导致延迟,并且可能无法捕捉到人类对话的细微差别,例如情感或非语音声音。这些局限性在专为辅助视障人士设计的应用中尤为明显,在这些应用中,及时和准确的视觉场景描述至关重要。

为了解决这些挑战,Kyutai推出了MoshiVis,一个开源的视觉语音模型(VSM),它能够实现关于图像的自然实时语音交互**。在他们的Moshi——一个为实时对话设计的语音文本基础模型——早期工作的基础上,MoshiVis扩展了这些能力以包括视觉输入。这一增强功能使用户能够就视觉内容进行流畅的对话,标志着AI发展的一个重要进步。

技术上,MoshiVis通过整合轻量级交叉注意力模块来增强Moshi,这些模块将现有视觉编码器中的视觉信息注入Moshi的语音标记流中。这种设计确保Moshi原有的会话能力得以保留,同时引入了处理和讨论视觉输入的能力。交叉注意力模块内的门控机制使模型能够有选择地与视觉数据进行交互,保持效率和响应性。值得注意的是,MoshiVis在消费级设备(例如带有M4 Pro芯片的Mac Mini)上每一步推理增加了大约7毫秒的延迟,每一步推理总共约为55毫秒。这一性能远低于80毫秒的实时延迟阈值,确保了流畅自然的交互。

在实用性应用中,MoshiVis展示了其通过自然语音提供视觉场景详细描述的能力。例如,当展示一张描绘树叶围绕着绿色金属结构以及带有浅棕色外墙的建筑物时,MoshiVis是这样表述的:

“我看到两个带有网格顶部的绿色金属结构,它们被大树木包围。在背景中,你可以看到一座带有浅棕色外墙和黑色屋顶的建筑物,看起来像是石头做的。”

这一能力为音频描述、提高无障碍性和使视觉信息交互更加自然等应用开辟了新的途径。将MoshiVis作为一个开源项目发布,Kyutai鼓励研究社区和开发者探索和扩展这项技术,从而推动视觉-语音模型的创新。模型权重、推理代码和视觉语音基准的可用性进一步支持了以合作方式完善和多样化MoshiVis应用的努力。

总之,MoshiVis代表了人工智能的一个重要进步,将视觉理解和实时语音交互结合起来。由于其开源性质,它促进了广泛的采用和发展,为更易访问和自然的与技术的交互铺平了道路。随着人工智能的不断进化,像MoshiVis这样的创新将我们更接近多模态理解的无缝结合,增强用户在各个领域中的体验。查看技术细节在此试用。所有关于这项研究的研究人员的贡献都应该得到认可。您也可以关注我们的Twitter,并加入我们的80k+ 机器学习SubReddit

原文链接:Kyutai 发布 MoshiVis:首个可以谈论图像的开源实时语音模型 首先出现在 MarkTechPost


扫描二维码,在手机上阅读