TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 一键整合包 v20260225

软件 7 3418
Ming-omni-tts是一款高性能的统一音频生成模型,能够在单通道中实现语音、环境音和音乐的协同合成,并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模,同时保持高效的推理速度与专业的文本处理能力。

🚀 核心能力

1️⃣ 精细化语音控制

  • 支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性

  • 粤语方言控制准确率达93%,情绪控制准确率达46.7%,优于 CosyVoice3

2️⃣ 智能语音设计

  • 内置100+ 高品质预设音色

  • 支持通过自然语言描述实现Zero-shot 语音设计

  • 在 Instruct-TTS-Eval-zh 基准测试中表现媲美 Qwen3-TTS

3️⃣ 沉浸式统一生成

  • 行业首个基于自回归架构,单模型联合生成语音/环境音/音乐

  • 采用自定义12.5Hz 连续 Tokenizer+DiT Head 架构,实现"场景化"听觉体验

4️⃣ 高效推理优化

  • 创新"Patch-by-Patch" 压缩策略,将 LLM 推理帧率降至3.1Hz

  • 显著降低延迟,支持播客风格长音频生成,同时保留音频细节与自然度

5️⃣ 专业文本归一化(TN)

  • 精准解析并朗读数学公式、化学方程式等复杂格式

  • 在专业测试集上 CER 达1.97%,接近 Gemini-2.5 Pro 水平


🧠 技术架构亮点

模块
技术特点
价值
统一连续音频 Tokenizer
基于 VAE 的 12.5Hz 连续编码器,将语音/音乐/音效映射到统一潜空间
高保真重建,跨模态兼容性强
统一音频语言模型
单 LLM 骨干 + Diffusion Head,支持端到端多模态音频生成
架构简洁,生成质量与可控性兼顾
Patch-by-Patch 生成策略
Patch size=4,look-back history=32,平衡局部细节与长程连贯性
降低计算开销,提升长音频生成稳定性

📊 关键评测表现

🔹 零样本语音合成(Zero-shot TTS)

  • Seed-TTS-Eval-ZH 测试集:WER 0.83%,相似度 0.75,优于 SeedTTS、GLM-TTS 等主流方案

🔹 语音属性控制

  • 指令成功率平均92.33%(语速/音量/音高),显著高于对比模型

🔹 情绪表达控制

  • CV3-Eval 情绪测试集平均准确率76.7%,中性情绪集达45.0%,达到 SOTA 水平

🔹 方言生成能力

  • WSYue-TTS-Eval 粤语测试集准确率96.3%,WSC-TTS-Eval 普通话测试集88.44%

🔹 播客风格 TTS

  • ZipVoice-Dia-zh 测试集:CER 1.84%,UTMOS 主观质量分 2.19,适合长内容播报场景

🔹 语音设计(Voice Design)

  • InstructTTSEval-ZH 综合得分76.20,指令跟随能力与 Qwen3-TTS 相当

🔹 背景音乐/音效生成

  • 在 Ming-BGM-Eval 与 AudioCaps 基准上,多项指标接近或优于专业音频生成模型


🎯 典型应用场景

  • 🎙️智能语音助手:支持方言、情绪、语速的个性化语音交互

  • 🎧有声内容创作:一键生成播客、有声书、广播剧等多角色音频

  • 🎬影视游戏音效:同步生成对白、环境音与背景音乐的沉浸式音轨

  • 📚专业内容朗读:精准处理公式、代码、化学式等复杂文本的语音合成

  • 🎨创意语音设计:通过自然语言描述快速定制虚拟角色音色

💡 该项目代表了当前统一音频生成方向的前沿探索,在可控性、多模态融合与推理效率之间取得了良好平衡,适合对音频合成有高阶需求的研究者与开发者参考使用。

整合包说明:

1 最低英伟达6G显卡+16G内存就可以愉快玩耍

2 根据官方的示例,二次开发了web界面。

3 个人觉得这是一款非常不错的语音生成工具

20260225 更新记录

1 修正目前所有留言反馈的bug

2 只保留Ming-omni-tts-0.5B这个模型,其他全部删除,因为其他效果也不好

3 添加大量的使用示例,方便快速了解和上手这个工具

点击查看

下载地址
夸克网盘 视频教程

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 7 条评论

  1. 飞鸟魔幻 飞鸟魔幻

    --------更多AI工具,开源免费软件 请前往 https://www.jian27.com--------
    请关注我的微信公众号 剑二十七
    功能定制 合作 可以加我微信 jian27xxx
    [!] 运行时错误
    详情:错误 0x03
    按回车键退出...

    请问这是什么原因?

    1. 剑心 剑心

      缺失某些文件,有可能是解压缺失 也有可能是你安装的安全工具误删

  2. 欣慰和云朵 欣慰和云朵

    [!] Error: Core module not found or corrupted.
    No module named 'key'

    Press Enter to exit...

    我使用7Z和解压专家解压出来后都是一样的结果,没有删除和修改任何文件,文件夹4没有任何中文

    1. 剑心 剑心

      用管理员身份运行winrar解压

  3. 欣慰和云朵 欣慰和云朵

    我使用7Z和解压专家解压出来后都是一样的结果,没有删除和修改任何文件,没有任何中文

  4. 欣慰和云朵 欣慰和云朵

    [!] Error: Core module not found or corrupted No module named'key'
    Press Enter to exit...

  5. 月饼忐忑 月饼忐忑

    👍🏻👍🏻👍🏻👍🏻感谢站长的付出与分享。

只显示最新的15条留言