GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

AI,开源 2342

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。

核心特性

  • 🗣️ 零样本语音克隆
    仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说话人注册。

  • 🎭 强化学习增强的情感控制
    采用多奖励强化学习框架,实现更自然的情感表达韵律控制,语音不再机械单调。

  • ⚡ 流式推理
    支持实时流式音频生成,适用于语音助手、实时播报等交互式场景

  • 🎧 高质量合成
    生成语音自然、清晰、富有表现力,音质可与主流商业 TTS 系统媲美

  • 🌐 多语言支持
    主要支持中文,同时兼容中英文混合文本输入。

  • 🔠 音素级建模
    支持音素级别的文本转语音转换,实现对多音字、生僻字等发音的精细控制


技术架构

两阶段设计

  1. LLM 阶段
    基于Llama 架构的大语言模型,将输入文本转换为语音 token 序列

  2. 流式生成阶段
    通过Flow Matching 模型将 token 序列转换为高质量mel 频谱图,再经声码器(如 Vocos)生成最终音频波形

✅ 该架构天然支持零样本语音克隆:系统从提示音频中自动提取说话人特征嵌入,无需为特定人重新训练模型。


精细发音控制:Phoneme-in 机制

面对多音字(如“行”读xíngháng)和生僻字的发音歧义,GLM-TTS 引入Phoneme-in 机制

  • 混合输入支持:允许“音素 + 原始文本”混合输入,对特定词精确指定发音。

  • 混合训练策略:训练时对部分文本随机进行G2P(字素转音素),使模型适应混合输入。

  • 目标推理流程

    1. 全局 G2P 转换:获取全文音素序列

    2. 动态词典替换:通过“动态可控词典”识别并替换目标词的音素

    3. 混合生成:将替换后的音素与原文本拼接输入,精准控制发音,同时保持自然韵律

🎯 特别适用于教育评测、有声书、播客等对发音准确性要求高的场景。


多奖励强化学习对齐

为解决传统 TTS情感平淡、语调呆板的问题,项目引入多奖励强化学习框架

  • 多维奖励设计

    • 相似度奖励(Speaker Similarity)

    • 字符错误率(CER)奖励

    • 情感表现奖励

    • 笑声检测奖励等

  • 分布式奖励服务器
    并行计算多个奖励信号,提升训练效率。

  • GRPO 算法优化
    采用 **Group Relative Policy Optimization **(GRPO) 算法,基于奖励信号优化 LLM 的生成策略。

  • Token 级精细奖励
    支持对每个语音 token 分配独立奖励,提供更精准的优化信号

📊实验结果:RL 优化版GLM-TTS_RL将 CER 从1.03 降至 0.89,同时保持高相似度(76.4),显著提升语音质量与自然度。


核心组件

模块
功能说明
LLM 后端(llm/glmtts.py)
基于 Llama 架构,将文本转为语音 token;支持PRETRAIN / SFT / LoRA三种模式
Flow Matching(flow/)
包含 Diffusion Transformer 与流式推理实现,负责token → mel 频谱转换
前端处理(cosyvoice/cli/frontend.py)
文本归一化、中英文混合处理、音素转换、说话人嵌入提取等
强化学习模块(grpo/)
实现 GRPO 算法、多奖励函数、分布式奖励服务器,用于情感与表现力优化

性能表现

seed-tts-eval zh testset中文测试集上的评估结果(未启用音素模式):

模型
CER ↓
相似度 ↑
开源
GLM-TTS(基线)
1.03
76.1
GLM-TTS_RL(强化学习优化)
0.89
76.4
商业系统平均
0.83–1.52
73.6–79.6

💡 GLM-TTS_RL 在完全开源的前提下,性能接近甚至超越部分闭源商业系统


典型应用场景

  • 📚有声读物 & 播客制作

  • 🎥视频配音 & 解说生成

  • 🤖智能客服 & 语音助手

  • 🎓教育语言学习工具(如发音评测)

  • 🎭个性化语音克隆(虚拟主播、数字人等)

GLM-TTS 不仅是技术前沿的 TTS 系统,更是开源社区推动高质量语音合的重要一步。

随手生成的音频 你们可以试听下


整合包说明

1 修正几个小bug

2 未修改任何功能

3 英伟达10G+16G 内存就可以愉快玩耍

这个AI语音生成工具跟其他类似工具比如index-tts 最大的优势就是克隆出来的声音和参考音频非常非常像

点击查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。