AI 播客：一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发一键整合包 v20251103

2025-11-03 AI,开源 5334

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成（TTS）系统，专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。

🔍 项目核心特点

1. 长篇多轮多说话人对话生成

支持生成多人交替对话的播客内容（如主持人 + 嘉宾）；
能处理长文本输入，保持语音连贯性和角色一致性；
适用于访谈、对谈类播客场景。

2. 跨方言零样本语音克隆（Zero-shot Voice Cloning）

仅需一段普通话参考音频，即可生成多种中文方言的语音，包括：

四川话（Sichuanese）
河南话（Henanese）
粤语（Cantonese / Yue）

无需目标方言的说话人数据，实现真正的跨方言零样本迁移。

3. 副语言控制（Paralinguistic Controls）

支持在文本中插入特殊标记，控制非语言发声行为，例如：

<|laughter|>：笑声
<|sigh|>：叹气

极大提升语音的自然度与情感表现力，贴近真实人类对话。

4. 双语支持

同时支持中文（普通话 + 方言）和英文的播客生成。

5. 高性能基础模型

提供 1.7B 参数规模的预训练模型：

SoulX-Podcast-1.7B：普通话/英文基础版
SoulX-Podcast-1.7B-dialect：支持方言的增强版

🧪 技术亮点

基于 FlashCosyVoice 架构改进；
支持 Hugging Face 模型下载、vLLM 加速推理（未来计划）；
提供命令行脚本、JSON 格式输入、示例音频；
开源协议：Apache 2.0（允许学术与商业使用，需遵守伦理规范）。

⚠️ 使用伦理声明

项目明确强调：

❌ 禁止用于：未经授权的语音克隆、身份冒充、诈骗、深度伪造（deepfake）等非法用途；
✅ 鼓励用于：个性化语音合成、无障碍辅助技术、语言学研究、教育等合法场景；
开发者不承担滥用责任，倡导负责任的 AI 使用。

💡 适用场景

AI 播客自动生成
虚拟主播对话合成
方言保护与语音存档
无障碍阅读（为视障用户提供对话式内容）
游戏/NPC 多角色语音生成

该项目代表了当前对话式 TTS 领域的前沿水平，尤其在自然度、方言支持、副语言建模方面具有显著优势，是学术研究与工业应用的理想选择。

默认示例生成的音频

整合包说明

1 基于SoulX-Podcast二次开发，增加了gradio界面

2 最低英伟达8G显卡就可以运行，支持50系显卡

3 下一版会提供更多的音频参考，以及自定义音频

4 因为是第一个版所以有些简陋，后续会继续开发

20251031 更新记录

1 增加了自定义参考音频。

2 在audio放了46个参考音频，请勿用于商用，后果自负

3 增加一个官方原版webui。修正一个小bug

如果点击启动官方出错，下载这2个文件覆盖启动官方原版 - 方言模型.bat和启动官方原版.bat

20251101 更新记录

1 修正一些小BUG

2 增加语气标签，生成的语音更像人了

3 升级到了官方最新版，并保留了官方原版启动

20251103 更新记录

1 修正目前发现的所有bug。

2 部分语气标签无效，需要官方后续更新版本了。就暂时保留了

点击查看

下载地址

迅雷网盘夸克网盘 123 网盘

下载有疑问看下这里

工具日常应用绿色软件音频音频处理开源人工智能 AI 效率工具整合包 Tag

不只是语音合成：MiMo-Audio 能理解、能生成、还能创作声音，一键整合包 v20251018

中文错别字检测与修正工具（基于 MacBERT模型）jiucuo v1.0 一键整合包，有英伟达显卡就能运行不限字数

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

仅有一条评论

指甲油感动

2025-12-30

感谢！！！不会本地部署愁死我了

回复

只显示最新的15条留言

AI 播客 ：一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103