安爸-超级家庭

多研发团队共同开源,AI超自然声音克隆TTS,支持中文。

安爸 发布于

TTS现在已经比较成熟了,前几期给大家推荐了几个,不过有的不支持中文。

今天特意找了个支持中英双语的。

多个团队联合开发的项目,这开发人员数量有点多啊。

大家有什么类型项目的需求可以告诉我,我抽出时间就会专门去找一下。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

Spark-TTS是由SparkAudio开发的一个高效开源TTS工具,基于Qwen2.5 LLM和BiCodec技术,参数规模达5亿。Spark-TTS支持零样本语音克隆,能精准复刻任意声音,并实现中英文混合生成,适用于跨语言和代码切换场景。通过细粒度控制性别、音调、语速等属性,生成自然流畅的音频。

DEMO

英文,听听川普的吧。

中文,播音腔不知道你们会不会喜欢,听具有代表性的。

原音频

生成音频

智能生活,触手可及,本节目由致力于人工智能创新的未来公司冠名播出。数据驱动决策,为你加速未来,本节目由深度学习技术领导者,未来科技特约播出。打造智慧城市新时代,本节目由未来智能硬件先锋,未来科技赞助播出。

功能特点

  • 高效文本转语音:基于5亿参数的Qwen2.5 LLM和BiCodec技术,生成自然流畅的音频。
  • 零样本语音克隆:支持任意声音复刻,无需额外训练即可生成高保真语音。
  • 多语言支持:实现中英文混合生成,适配跨语言场景和代码切换需求。
  • 细粒度控制:可调整性别、音调、语速等属性,满足个性化语音需求。
  • 开源资源:提供预训练模型、推理代码及VoxBox数据集。

项目链接

https://github.com/SparkAudio/Spark-TTS

关注「开源AI项目落地」公众号

(文:开源AI项目落地)

多研发团队共同开源,AI超自然声音克隆TTS,支持中文。最先出现在每时AI


扫描二维码,在手机上阅读