SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成(TTS)系统,专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。
🔍 项目核心特点
1. 长篇多轮多说话人对话生成
支持生成多人交替对话的播客内容(如主持人 + 嘉宾);
能处理长文本输入,保持语音连贯性和角色一致性;
适用于访谈、对谈类播客场景。
2. 跨方言零样本语音克隆(Zero-shot Voice Cloning)
仅需一段普通话参考音频,即可生成多种中文方言的语音,包括:
四川话(Sichuanese)
河南话(Henanese)
粤语(Cantonese / Yue)
无需目标方言的说话人数据,实现真正的跨方言零样本迁移。
3. 副语言控制(Paralinguistic Controls)
支持在文本中插入特殊标记,控制非语言发声行为,例如:
<|laughter|>:笑声<|sigh|>:叹气极大提升语音的自然度与情感表现力,贴近真实人类对话。
4. 双语支持
同时支持 中文(普通话 + 方言) 和 英文 的播客生成。
5. 高性能基础模型
提供 1.7B 参数规模 的预训练模型:
SoulX-Podcast-1.7B:普通话/英文基础版SoulX-Podcast-1.7B-dialect:支持方言的增强版
🧪 技术亮点
基于 FlashCosyVoice 架构改进;
支持 Hugging Face 模型下载、vLLM 加速推理(未来计划);
提供命令行脚本、JSON 格式输入、示例音频;
开源协议:Apache 2.0(允许学术与商业使用,需遵守伦理规范)。
⚠️ 使用伦理声明
项目明确强调:
❌ 禁止用于:未经授权的语音克隆、身份冒充、诈骗、深度伪造(deepfake)等非法用途;
✅ 鼓励用于:个性化语音合成、无障碍辅助技术、语言学研究、教育等合法场景;
开发者不承担滥用责任,倡导负责任的 AI 使用。
💡 适用场景
AI 播客自动生成
虚拟主播对话合成
方言保护与语音存档
无障碍阅读(为视障用户提供对话式内容)
游戏/NPC 多角色语音生成
该项目代表了当前对话式 TTS 领域的前沿水平,尤其在自然度、方言支持、副语言建模方面具有显著优势,是学术研究与工业应用的理想选择。



默认示例生成的音频
整合包说明
1 基于SoulX-Podcast二次开发,增加了gradio界面
2 最低英伟达8G显卡就可以运行,支持50系显卡
3 下一版会提供更多的音频参考,以及自定义音频
4 因为是第一个版所以有些简陋,后续会继续开发
20251031 更新记录
1 增加了自定义参考音频。
2 在audio放了46个参考音频,请勿用于商用,后果自负
3 增加一个官方原版webui。修正一个小bug
如果点击启动官方出错,下载这2个文件覆盖 启动官方原版 - 方言模型.bat和 启动官方原版.bat
20251101 更新记录
1 修正一些小BUG
2 增加语气标签,生成的语音更像人了
3 升级到了官方最新版,并保留了官方原版启动
20251103 更新记录
1 修正目前发现的所有bug。
2 部分语气标签无效,需要官方后续更新版本了。就暂时保留了
每天都在回复基础的电脑操作,实在是厌倦了,暂关闭留言,如果不信请去留言页面查看。
如果需要技术交流,进Q群交流