AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

AI,开源 3374

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成(TTS)系统,专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。


🔍 项目核心特点

1. 长篇多轮多说话人对话生成

  • 支持生成多人交替对话的播客内容(如主持人 + 嘉宾);

  • 能处理长文本输入,保持语音连贯性和角色一致性;

  • 适用于访谈、对谈类播客场景。

2. 跨方言零样本语音克隆(Zero-shot Voice Cloning)

  • 仅需一段普通话参考音频,即可生成多种中文方言的语音,包括:

    • 四川话(Sichuanese)

    • 河南话(Henanese)

    • 粤语(Cantonese / Yue)

  • 无需目标方言的说话人数据,实现真正的跨方言零样本迁移

3. 副语言控制(Paralinguistic Controls)

  • 支持在文本中插入特殊标记,控制非语言发声行为,例如:

    • <|laughter|>:笑声

    • <|sigh|>:叹气

  • 极大提升语音的自然度与情感表现力,贴近真实人类对话。

4. 双语支持

  • 同时支持 中文(普通话 + 方言)英文 的播客生成。

5. 高性能基础模型

  • 提供 1.7B 参数规模 的预训练模型:

    • SoulX-Podcast-1.7B:普通话/英文基础版

    • SoulX-Podcast-1.7B-dialect:支持方言的增强版


🧪 技术亮点

  • 基于 FlashCosyVoice 架构改进;

  • 支持 Hugging Face 模型下载vLLM 加速推理(未来计划);

  • 提供命令行脚本、JSON 格式输入、示例音频;

  • 开源协议:Apache 2.0(允许学术与商业使用,需遵守伦理规范)。


⚠️ 使用伦理声明

项目明确强调:

  • 禁止用于:未经授权的语音克隆、身份冒充、诈骗、深度伪造(deepfake)等非法用途;

  • 鼓励用于:个性化语音合成、无障碍辅助技术、语言学研究、教育等合法场景;

  • 开发者不承担滥用责任,倡导负责任的 AI 使用

💡 适用场景

  • AI 播客自动生成

  • 虚拟主播对话合成

  • 方言保护与语音存档

  • 无障碍阅读(为视障用户提供对话式内容)

  • 游戏/NPC 多角色语音生成


该项目代表了当前对话式 TTS 领域的前沿水平,尤其在自然度、方言支持、副语言建模方面具有显著优势,是学术研究与工业应用的理想选择。

默认示例生成的音频

整合包说明

1 基于SoulX-Podcast二次开发,增加了gradio界面

2 最低英伟达8G显卡就可以运行,支持50系显卡

3 下一版会提供更多的音频参考,以及自定义音频

4 因为是第一个版所以有些简陋,后续会继续开发

20251031 更新记录

1 增加了自定义参考音频。

2 在audio放了46个参考音频,请勿用于商用,后果自负

3 增加一个官方原版webui。修正一个小bug

如果点击启动官方出错,下载这2个文件覆盖 启动官方原版 - 方言模型.bat和 启动官方原版.bat

20251101 更新记录

1 修正一些小BUG

2 增加语气标签,生成的语音更像人了

3 升级到了官方最新版,并保留了官方原版启动

20251103 更新记录

1 修正目前发现的所有bug。

2 部分语气标签无效,需要官方后续更新版本了。就暂时保留了

点击查看

下载有疑问看下这里


每天都在回复基础的电脑操作,实在是厌倦了,暂关闭留言,如果不信请去留言页面查看。
如果需要技术交流,进Q群交流

相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。