爆火开源TTS,支持零样本克隆,200ms超低延迟,情感语调超自然。
安爸
发布于

最近TTS的开源项目大爆发了吗?
看了好多,有亮点的慢慢给大家推荐,具体用哪个得看你实际应用场景了。
TTS的开源项目本来就挺多的,我们最近有个项目也在用,选起来真是费时费力。
尽可能的多帮大家找一些,帮大家省一些去找项目和对比的时间。
一共有4个型号。
- Medium – 3B parameters
- Small – 1B parameters
- Tiny – 400M parameters
- Nano – 150M parameters
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
Orpheus TTS 是一个基于 Llama – 3b 架构的开源文本转语音工具。它能生成自然流畅、情感丰富的说话音频,支持零样本语音克隆,可通过简单标签控制语音情感和语调,且低延迟非常低适合实时输出场景。项目提供英语和多语言模型,包含预训练和微调版本。
DEMO
功能特点
出色的语音合成能力
- 类人语音:拥有自然的语调、情感和节奏,优于当前大多数闭源模型。
- 零样本语音克隆:无需事先微调,即可克隆语音。
- 情感语调引导:通过简单标签就能控制语音的情感和语调特征。
- 低延迟:实时应用的流式传输延迟约 200ms,使用输入流时可降至约 100ms。
多种模型选择
- 英语模型:提供 “Finetuned Prod” 和 “Pretrained” 两款模型,分别适用于日常 TTS 应用和作为基础模型。
- 多语言模型:推出多语言模型家族,包含 7 对预训练和微调模型。
推理方式
- 标准提示格式:跨语言提供标准化提示格式,并给出英文使用示例。
- 流式推理:支持流式推理,给出详细的代码示例。
- 附加功能:可对音频添加水印,支持无 GPU 推理。
模型训练
- 微调模型:过程简单,类似使用 Trainer 和 Transformers 微调 LLM,约 50 个示例可见效果,300 个示例 / 说话人效果最佳。
- 预训练模型:与训练 LLM 类似,不建议使用合成数据训练,提供详细训练说明。
项目链接
https://github.com/canopyai/Orpheus-TTS
关注「开源AI项目落地」公众号
(文:开源AI项目落地)
扫描二维码,在手机上阅读