Qwen3-TTS 开源项目介绍
Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。
核心特性
1. 多语言支持
Qwen3-TTS 覆盖 10 种主要语言(中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语)以及多种方言语音配置,满足全球应用场景需求。
2. 强大的语音表示能力
基于自研的 Qwen3-TTS-Tokenizer-12Hz,该项目实现了高效的声学压缩和高维语义建模,完整保留了副语言信息和声学环境特征,通过轻量级非 DiT 架构实现高速、高保真语音重建。
3. 通用端到端架构
采用离散多码本 LM 架构,实现全信息端到端语音建模,完全绕过了传统 LM+DiT 方案固有的信息瓶颈和级联错误,显著提升模型的通用性、生成效率和性能上限。
4. 极低延迟流式生成
基于创新的 Dual-Track 混合流式生成架构,单模型同时支持流式和非流式生成。可在输入单个字符后立即输出首个音频包,端到端合成延迟低至 97ms,满足实时交互场景的严苛需求。
5. 智能文本理解和语音控制
支持由自然语言指令驱动的语音生成,可灵活控制音色、情感、韵律等多维声学属性。通过深度集成文本语义理解,模型能自适应调整语调、节奏和情感表达,实现"所想即所听"的逼真输出。
模型系列
Qwen3-TTS 提供多个不同功能和规模的模型:
VoiceDesign 系列:基于用户提供的自然语言描述创建定制化声音,实现"文字描述到声音"的直接转换
CustomVoice 系列:提供 9 种高级预设音色(涵盖不同性别、年龄、语言和方言组合),支持通过指令控制语音风格
Base 系列:基础模型,支持仅需 3 秒参考音频的快速语音克隆,也可作为其他模型的微调基础
技术优势
高质量语音生成:在多项语音生成基准测试中表现优异,内容一致性和音色相似度指标领先
上下文感知能力:强大的上下文理解能力使模型能根据文本语义自适应调整语音表现
抗噪能力:对噪声输入文本表现出显著提升的鲁棒性
灵活控制:通过自然语言指令精确控制语音的情感、语速、语调等维度
应用场景
Qwen3-TTS 适用于多种应用场景:
实时交互式语音助手
多语言内容创作和播客生成
个性化角色语音合成
无障碍技术中的文本转语音
教育和培训中的语音内容生成
游戏和虚拟世界中的动态角色语音
集成生态
项目与多个平台和框架深度集成:
支持 vLLM-Omni 部署,优化推理速度和流式能力
提供 DashScope API 服务
内置 Web UI 演示界面,便于快速体验
支持与主流深度学习框架无缝集成
Qwen3-TTS 代表了当前语音合成技术的前沿水平,通过将大语言模型的理解能力与语音生成技术深度融合,为用户提供前所未有的语音合成体验和控制能力。







随便生成的一些音频 你们听听
视频演示
https://www.bilibili.com/video/BV17qzTBUE99/
整合包说明
1 整合了Qwen3-TTS 所有的语音模型
2 最低英伟达8G+16G内存就可以愉快玩耍
3 人气高就继续二开
4 如果解压提示错误,用管理员身份运行winrar解压
20260130 更新记录
1 新增多人对话
2 修正一些小bug
3 升级要全新解压,不要覆盖
依然只能一次200字么?
不是
值得一试!
谢谢大佬分享
遥遥领先。。
谢谢大佬分享