🚀 核心能力
1️⃣ 精细化语音控制
支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性
粤语方言控制准确率达93%,情绪控制准确率达46.7%,优于 CosyVoice3
2️⃣ 智能语音设计
内置100+ 高品质预设音色
支持通过自然语言描述实现Zero-shot 语音设计
在 Instruct-TTS-Eval-zh 基准测试中表现媲美 Qwen3-TTS
3️⃣ 沉浸式统一生成
行业首个基于自回归架构,单模型联合生成语音/环境音/音乐
采用自定义12.5Hz 连续 Tokenizer+DiT Head 架构,实现"场景化"听觉体验
4️⃣ 高效推理优化
创新"Patch-by-Patch" 压缩策略,将 LLM 推理帧率降至3.1Hz
显著降低延迟,支持播客风格长音频生成,同时保留音频细节与自然度
5️⃣ 专业文本归一化(TN)
精准解析并朗读数学公式、化学方程式等复杂格式
在专业测试集上 CER 达1.97%,接近 Gemini-2.5 Pro 水平
🧠 技术架构亮点
📊 关键评测表现
🔹 零样本语音合成(Zero-shot TTS)
Seed-TTS-Eval-ZH 测试集:WER 0.83%,相似度 0.75,优于 SeedTTS、GLM-TTS 等主流方案
🔹 语音属性控制
指令成功率平均92.33%(语速/音量/音高),显著高于对比模型
🔹 情绪表达控制
CV3-Eval 情绪测试集平均准确率76.7%,中性情绪集达45.0%,达到 SOTA 水平
🔹 方言生成能力
WSYue-TTS-Eval 粤语测试集准确率96.3%,WSC-TTS-Eval 普通话测试集88.44%
🔹 播客风格 TTS
ZipVoice-Dia-zh 测试集:CER 1.84%,UTMOS 主观质量分 2.19,适合长内容播报场景
🔹 语音设计(Voice Design)
InstructTTSEval-ZH 综合得分76.20,指令跟随能力与 Qwen3-TTS 相当
🔹 背景音乐/音效生成
在 Ming-BGM-Eval 与 AudioCaps 基准上,多项指标接近或优于专业音频生成模型
🎯 典型应用场景
🎙️智能语音助手:支持方言、情绪、语速的个性化语音交互
🎧有声内容创作:一键生成播客、有声书、广播剧等多角色音频
🎬影视游戏音效:同步生成对白、环境音与背景音乐的沉浸式音轨
📚专业内容朗读:精准处理公式、代码、化学式等复杂文本的语音合成
🎨创意语音设计:通过自然语言描述快速定制虚拟角色音色
💡 该项目代表了当前统一音频生成方向的前沿探索,在可控性、多模态融合与推理效率之间取得了良好平衡,适合对音频合成有高阶需求的研究者与开发者参考使用。







整合包说明:
1 最低英伟达6G显卡+16G内存就可以愉快玩耍
2 根据官方的示例,二次开发了web界面。
3 个人觉得这是一款非常不错的语音生成工具
20260225 更新记录
1 修正目前所有留言反馈的bug
2 只保留Ming-omni-tts-0.5B这个模型,其他全部删除,因为其他效果也不好
3 添加大量的使用示例,方便快速了解和上手这个工具
20260226 更新记录
1 修正偶尔出现生成的音频没有自动保存的问题,现在自动保存到output文件夹里
2 添加了无数的ip声音示例
3 修正一些小bug
20260303 更新记录
1 添加16.8B-A3B这个模型,未测试 我无法加载,应该最小要24G显存
2 修正一些小bug
20260306 更新记录
1 删除16.8B-A3B模型文件,但是保留列表记录,选择这个模型会自动下载
2 修改操作界面,现在的界面操作更加简单 明了。模型会自动加载0.5B,无需手动点加载模型
3 修正一些bug
文转音频的适合,一直卡在生成的进度,页面无法切换,后台在16%进度就不动了,我的显卡是RTX4060,这是什么原因?
看看黑色窗口提示什么
❌ 模型加载失败: FlashAttention2 has been toggled on, but it cannot be used due to the following error: Flash Attention 2 is not available on CPU. Please make sure torch can access a CUDA device.
显卡过于远古
模型加载失败: It looks like the config file at 'Models\hub\models--inclusionAI--Ming-omni-tts-0.5B\snapshots\9154772e7fbc585907b6237e3190790676f28975\config.json' is not a valid JSON file.
解压有错误,导致缺失文件,用管理员身份运行winrar解压
站长能提供百度网盘下载链接吗
百度网盘到期了 需要续费 大概需要900的样子,你可以试试帮支付下。然后我会上传到百度网盘
--------更多AI工具,开源免费软件 请前往 https://www.jian27.com--------
请关注我的微信公众号 剑二十七
功能定制 合作 可以加我微信 jian27xxx
[!] 运行时错误
详情:错误 0x03
按回车键退出...
请问这是什么原因?
缺失某些文件,有可能是解压缺失 也有可能是你安装的安全工具误删
[!] Error: Core module not found or corrupted.
No module named 'key'
Press Enter to exit...
我使用7Z和解压专家解压出来后都是一样的结果,没有删除和修改任何文件,文件夹4没有任何中文
用管理员身份运行winrar解压
我使用7Z和解压专家解压出来后都是一样的结果,没有删除和修改任何文件,没有任何中文
[!] Error: Core module not found or corrupted No module named'key'
Press Enter to exit...
👍🏻👍🏻👍🏻👍🏻感谢站长的付出与分享。