TTS开源新王炸！Ming-omni-tts：一个模型搞定语音/音乐/音效，还能听懂你的情绪指令新增支持长文本一键整合包 v20260327

2026-03-26 AI 9142

Ming-omni-tts是一款高性能的统一音频生成模型，能够在单通道中实现语音、环境音和音乐的协同合成，并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模，同时保持高效的推理速度与专业的文本处理能力。

🚀 核心能力

1️⃣ 精细化语音控制

支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性
粤语方言控制准确率达93%，情绪控制准确率达46.7%，优于 CosyVoice3

2️⃣ 智能语音设计

内置100+ 高品质预设音色
支持通过自然语言描述实现Zero-shot 语音设计
在 Instruct-TTS-Eval-zh 基准测试中表现媲美 Qwen3-TTS

3️⃣ 沉浸式统一生成

行业首个基于自回归架构，单模型联合生成语音/环境音/音乐
采用自定义12.5Hz 连续 Tokenizer+DiT Head 架构，实现"场景化"听觉体验

4️⃣ 高效推理优化

创新"Patch-by-Patch" 压缩策略，将 LLM 推理帧率降至3.1Hz
显著降低延迟，支持播客风格长音频生成，同时保留音频细节与自然度

5️⃣ 专业文本归一化（TN）

精准解析并朗读数学公式、化学方程式等复杂格式
在专业测试集上 CER 达1.97%，接近 Gemini-2.5 Pro 水平

🧠 技术架构亮点

模块	技术特点	价值
统一连续音频 Tokenizer	基于 VAE 的 12.5Hz 连续编码器，将语音/音乐/音效映射到统一潜空间	高保真重建，跨模态兼容性强
统一音频语言模型	单 LLM 骨干 + Diffusion Head，支持端到端多模态音频生成	架构简洁，生成质量与可控性兼顾
Patch-by-Patch 生成策略	Patch size=4，look-back history=32，平衡局部细节与长程连贯性	降低计算开销，提升长音频生成稳定性

📊 关键评测表现

🔹 零样本语音合成（Zero-shot TTS）

Seed-TTS-Eval-ZH 测试集：WER 0.83%，相似度 0.75，优于 SeedTTS、GLM-TTS 等主流方案

🔹 语音属性控制

指令成功率平均92.33%（语速/音量/音高），显著高于对比模型

🔹 情绪表达控制

CV3-Eval 情绪测试集平均准确率76.7%，中性情绪集达45.0%，达到 SOTA 水平

🔹 方言生成能力

WSYue-TTS-Eval 粤语测试集准确率96.3%，WSC-TTS-Eval 普通话测试集88.44%

🔹 播客风格 TTS

ZipVoice-Dia-zh 测试集：CER 1.84%，UTMOS 主观质量分 2.19，适合长内容播报场景

🔹 语音设计（Voice Design）

InstructTTSEval-ZH 综合得分76.20，指令跟随能力与 Qwen3-TTS 相当

🔹 背景音乐/音效生成

在 Ming-BGM-Eval 与 AudioCaps 基准上，多项指标接近或优于专业音频生成模型

🎯 典型应用场景

🎙️智能语音助手：支持方言、情绪、语速的个性化语音交互
🎧有声内容创作：一键生成播客、有声书、广播剧等多角色音频
🎬影视游戏音效：同步生成对白、环境音与背景音乐的沉浸式音轨
📚专业内容朗读：精准处理公式、代码、化学式等复杂文本的语音合成
🎨创意语音设计：通过自然语言描述快速定制虚拟角色音色

💡 该项目代表了当前统一音频生成方向的前沿探索，在可控性、多模态融合与推理效率之间取得了良好平衡，适合对音频合成有高阶需求的研究者与开发者参考使用。

整合包说明：

1 最低英伟达6G显卡+16G内存就可以愉快玩耍

2 根据官方的示例，二次开发了web界面。

3 个人觉得这是一款非常不错的语音生成工具

20260225 更新记录

1 修正目前所有留言反馈的bug

2 只保留Ming-omni-tts-0.5B这个模型，其他全部删除，因为其他效果也不好

3 添加大量的使用示例，方便快速了解和上手这个工具

20260226 更新记录

1 修正偶尔出现生成的音频没有自动保存的问题，现在自动保存到output文件夹里

2 添加了无数的ip声音示例

3 修正一些小bug

20260303 更新记录

1 添加16.8B-A3B这个模型，未测试我无法加载，应该最小要24G显存

2 修正一些小bug

20260306 更新记录

1 删除16.8B-A3B模型文件，但是保留列表记录，选择这个模型会自动下载

2 修改操作界面，现在的界面操作更加简单明了。模型会自动加载0.5B，无需手动点加载模型

3 修正一些bug

20260322 更新记录

1 添加参考音频列表

2 修正这一段时间以来的所有bug

20260327 更新记录

1 添加支持长文本，我试过5万多字，当然再多也没问题。

2 修正部分bug

3 从这个版本开始应该是可以真正用于生产环境了

点击查看

下载地址

夸克网盘视频教程

下载有疑问看下这里

图像处理图像编辑批量处理在线免费 webp图片 Tag

FastGestures 鼠标/触控板/屏手势绿色免安装 v2.2.67

一键克隆任意音色，生成自然口语级语音 1B/3.5B 双模型自由切换，还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新一键整合包

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 16 条评论

蜻蜓老迟到

2026-06-20

"语音合成"在切换到"本文转音频"或其他的选项来生成音频,生成结果不会有下载链接,在你的視頻裡也是這樣,语音生成后无法下载

回复
1. 剑心
  
  2026-06-20
  
  生成的音频会自动保存
  
  回复
大山帅气

2026-03-14

文转音频的适合，一直卡在生成的进度，页面无法切换，后台在16%进度就不动了，我的显卡是RTX4060，这是什么原因？

回复
1. 剑心
  
  2026-03-14
  
  看看黑色窗口提示什么
  
  回复
小白菜超帅

2026-03-01

❌ 模型加载失败: FlashAttention2 has been toggled on, but it cannot be used due to the following error: Flash Attention 2 is not available on CPU. Please make sure torch can access a CUDA device.

回复
1. 剑心
  
  2026-03-01
  
  显卡过于远古
  
  回复
舒适扯毛衣

2026-02-27

模型加载失败: It looks like the config file at 'Models\hub\models--inclusionAI--Ming-omni-tts-0.5B\snapshots\9154772e7fbc585907b6237e3190790676f28975\config.json' is not a valid JSON file.

回复
1. 剑心
  
  2026-02-27
  
  解压有错误，导致缺失文件，用管理员身份运行winrar解压
  
  回复
俭朴用雨

2026-02-26

站长能提供百度网盘下载链接吗

回复
飞鸟魔幻

2026-02-24

--------更多AI工具，开源免费软件请前往 https://www.jian27.com--------
请关注我的微信公众号剑二十七
功能定制合作可以加我微信 jian27xxx
[!] 运行时错误
详情：错误 0x03
按回车键退出...
请问这是什么原因？

回复
1. 剑心
  
  2026-02-25
  
  缺失某些文件，有可能是解压缺失也有可能是你安装的安全工具误删
  
  回复
欣慰和云朵

2026-02-24

[!] Error: Core module not found or corrupted.
No module named 'key'
Press Enter to exit...
我使用7Z和解压专家解压出来后都是一样的结果，没有删除和修改任何文件，文件夹4没有任何中文

回复
1. 剑心
  
  2026-02-24
  
  用管理员身份运行winrar解压
  
  回复
欣慰和云朵

2026-02-24

我使用7Z和解压专家解压出来后都是一样的结果，没有删除和修改任何文件，没有任何中文

回复
欣慰和云朵

2026-02-24

[!] Error: Core module not found or corrupted No module named'key'
Press Enter to exit...

回复
月饼忐忑

2026-02-24

👍🏻👍🏻👍🏻👍🏻感谢站长的付出与分享。

回复