一键克隆任意人声！VoxCPM 2.0.3 开源语音大模型，无需训练，3秒搞定声音复刻！支持30种语言，9种方言，支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行剑二十七二开汉化整合包 v20260722

2026-07-22 AI,开源 11282

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线（如文本分析 → 音素对齐 → 声码器），而是直接从文本生成高质量语音波形。

🎯 目标：打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。

🔧 核心特性（技术亮点）

1. ✅ 端到端架构（End-to-End）

输入：纯文本（支持中英文、混合、特殊符号、音素标记等）
输出：16kHz 高保真语音波形
无需强制对齐、无需声码器、无需预处理文本正则化（可选）

2. ✅ 零样本语音克隆（Zero-Shot Voice Cloning）

仅需提供一段任意说话人的参考语音（≥3秒），即可克隆其音色、语调、语速、情感。
无需微调、无需注册说话人 ID。
支持跨语种克隆（如用中文语音克隆说英文）。

3. ✅ 支持音素/公式输入（Phoneme & Symbol Level Control）

可输入音素标记，如 {ni3 hao3} 或 {HH AH0 L OW1}，实现精准发音控制。
可合成数学公式、特殊符号，如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。

4. ✅ 情感与风格可控（通过 CFG 和 Prompt）

通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。
调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。
参考音频可携带情感（如高兴、低沉、激动），模型可迁移该情感。

5. ✅ 支持文本正则化插件（可选）

可外接 WeTextProcessing 库自动将“2025年4月5日”转为“二零二五年四月五日”。
也可关闭，让模型直接理解原始文本（模型本身具备一定文本理解能力）。

6. ✅ 快速推理（Diffusion + Flow Matching）

使用扩散模型 + 流匹配（Flow Matching）技术，仅需 4~30 步即可生成高质量语音。
默认 10 步，兼顾速度与质量。

📦 模型规格

项目	内容
模型名称	VoxCPM-0.5B
参数量	5亿（0.5B）
训练数据	多语种、多说话人、多情感语音数据集（未公开细节）
输入	文本 +（可选）参考音频 & 参考文本
输出	16kHz 单声道 WAV 音频
推理设备	支持 CPU / GPU（推荐 GPU）
推理速度	约 1~3 秒/句（RTX 3090，10 steps）

🚀 应用场景

📱 个性化语音助手（克隆用户自己的声音）
🎧 有声书 / 教育内容自动生成
🎭 影视/游戏配音（快速切换角色音色）
🤖 虚拟主播 / 数字人语音驱动
🧑‍🏫 语言学习（模仿发音、语调）
🧮 科技内容朗读（支持公式、代码、符号）

🧪 局限性（当前版本）

仅提供 0.5B 版本，更大版本尚未开源
长文本（>50字）可能语调不稳定
极端情感或口音克隆效果依赖参考音频质量
中文支持更好，英文尚可，其他语言未验证

💡 总结一句话

VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移，开箱即用，适合研究与工业部署。

如果你正在做语音合成、数字人、教育科技、AIGC 相关项目，VoxCPM 是一个非常值得集成和探索的开源工具！

下面是2.0截图

整合包说明

1 支持50系显卡，最低6G 英伟达显卡，16G内存即可愉快玩耍

2 修改了生成的音频自动保存到output目录下

随便生成一段语音你们听下

20251207更新记录

1 更新到官方最新1.5

2 汉化界面

3 自动保存生成的语音文件到output

20260408 更新记录

1 更新到官方最新2.0

2 下一个版本会增加极强功能

20260409 更新记录

1 增加自动保存生成音频

2 增加n多示例，可以更方便使用

3 增加语气标签

4 修正上一版的一些小bug

20260410 更新记录

1 升级到官方最新版2.0.2

20260416 更新记录

1 新增支持超长文本，并能保持音色一致性

2 修正部分bug

20260426 更新记录

1 新增批量文本txt语音合成

2 修正一些bug

20260505 更新记录

1 新增音色保存

2 新增更多示例

3 修正部分bug

20260722更新记录

1 升级到官方最新版2.0.3

2 修正这些时间已发现的bug

点击查看

下载地址

夸克网盘视频教程

下载有疑问看下这里

Tag

0 基础也能当导演：输入一句话，AI 自动生成视频 Wan2GP 中文版 v12.34 支持JoyAI-Echo Bernini LTX-2.3 wan2.2 HunyuanVideo-1.5等数字人文生视频+图生视频+批量生成英伟达6G显卡就可以跑起来，有这个你其他视频生成的整合包都可以删了

开源 Dev-Sidecar 开发者边车辅助工具国外网站加速 v2.2.0

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 11 条评论

wujianmin

2026-07-24

使用最新20260722，在预设音色示例中，点击方言专区、英文风格或者多语言，界面就会卡死无反应

回复
1. 剑心
  
  2026-07-24
  
  换个浏览器
  
  回复
安静踢冬天

2025-12-31

大佬这个有openai兼容的接口调用的吗

回复
1. 剑心
  
  2025-12-31
  
  没关注过openai
  
  回复
芹菜忧心

2025-12-25

大神，有MAC版本吗？

回复
1. 剑心
  
  2025-12-25
  
  要不你先赞助我一台mac？
  
  回复
聪慧用金毛

2025-12-12

点启动.exe为啥是个广告呢

回复
1. 剑心
  
  2025-12-12
  
  什么广告？
  
  回复
  1. 聪慧用金毛
    
    2025-12-30
    
    没事了，是电脑反应慢
    
    回复
彪壮演变方盒

2025-11-24

怎么用cpu来跑啊？

回复
1. 剑心
  
  2025-11-24
  
  没人会去研究如何降低效率吧?
  
  回复