GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。
核心特性
🗣️ 零样本语音克隆
仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说话人注册。🎭 强化学习增强的情感控制
采用多奖励强化学习框架,实现更自然的情感表达与韵律控制,语音不再机械单调。⚡ 流式推理
支持实时流式音频生成,适用于语音助手、实时播报等交互式场景。🎧 高质量合成
生成语音自然、清晰、富有表现力,音质可与主流商业 TTS 系统媲美。🌐 多语言支持
主要支持中文,同时兼容中英文混合文本输入。🔠 音素级建模
支持音素级别的文本转语音转换,实现对多音字、生僻字等发音的精细控制。
技术架构
两阶段设计
LLM 阶段
基于Llama 架构的大语言模型,将输入文本转换为语音 token 序列。流式生成阶段
通过Flow Matching 模型将 token 序列转换为高质量mel 频谱图,再经声码器(如 Vocos)生成最终音频波形。
✅ 该架构天然支持零样本语音克隆:系统从提示音频中自动提取说话人特征嵌入,无需为特定人重新训练模型。
精细发音控制:Phoneme-in 机制
面对多音字(如“行”读xíng或háng)和生僻字的发音歧义,GLM-TTS 引入Phoneme-in 机制:
混合输入支持:允许“音素 + 原始文本”混合输入,对特定词精确指定发音。
混合训练策略:训练时对部分文本随机进行G2P(字素转音素),使模型适应混合输入。
目标推理流程:
全局 G2P 转换:获取全文音素序列
动态词典替换:通过“动态可控词典”识别并替换目标词的音素
混合生成:将替换后的音素与原文本拼接输入,精准控制发音,同时保持自然韵律
🎯 特别适用于教育评测、有声书、播客等对发音准确性要求高的场景。
多奖励强化学习对齐
为解决传统 TTS情感平淡、语调呆板的问题,项目引入多奖励强化学习框架:
多维奖励设计
相似度奖励(Speaker Similarity)
字符错误率(CER)奖励
情感表现奖励
笑声检测奖励等
分布式奖励服务器
并行计算多个奖励信号,提升训练效率。GRPO 算法优化
采用 **Group Relative Policy Optimization **(GRPO) 算法,基于奖励信号优化 LLM 的生成策略。Token 级精细奖励
支持对每个语音 token 分配独立奖励,提供更精准的优化信号。
📊实验结果:RL 优化版GLM-TTS_RL将 CER 从1.03 降至 0.89,同时保持高相似度(76.4),显著提升语音质量与自然度。
核心组件
性能表现
在seed-tts-eval zh testset中文测试集上的评估结果(未启用音素模式):
💡 GLM-TTS_RL 在完全开源的前提下,性能接近甚至超越部分闭源商业系统。
典型应用场景
📚有声读物 & 播客制作
🎥视频配音 & 解说生成
🤖智能客服 & 语音助手
🎓教育语言学习工具(如发音评测)
🎭个性化语音克隆(虚拟主播、数字人等)
GLM-TTS 不仅是技术前沿的 TTS 系统,更是开源社区推动高质量语音合的重要一步。




随手生成的音频 你们可以试听下
整合包说明
1 修正几个小bug
2 未修改任何功能
3 英伟达10G+16G 内存就可以愉快玩耍
这个AI语音生成工具跟其他类似工具比如index-tts 最大的优势就是克隆出来的声音和参考音频非常非常像