VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。
🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。
🔧 核心特性(技术亮点)
1. ✅ 端到端架构(End-to-End)
输入:纯文本(支持中英文、混合、特殊符号、音素标记等)
输出:16kHz 高保真语音波形
无需强制对齐、无需声码器、无需预处理文本正则化(可选)
2. ✅ 零样本语音克隆(Zero-Shot Voice Cloning)
仅需提供一段任意说话人的参考语音(≥3秒),即可克隆其音色、语调、语速、情感。
无需微调、无需注册说话人 ID。
支持跨语种克隆(如用中文语音克隆说英文)。
3. ✅ 支持音素/公式输入(Phoneme & Symbol Level Control)
可输入音素标记,如
{ni3 hao3}或{HH AH0 L OW1},实现精准发音控制。可合成数学公式、特殊符号,如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。
4. ✅ 情感与风格可控(通过 CFG 和 Prompt)
通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。
调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。
参考音频可携带情感(如高兴、低沉、激动),模型可迁移该情感。
5. ✅ 支持文本正则化插件(可选)
可外接
WeTextProcessing库自动将“2025年4月5日”转为“二零二五年四月五日”。也可关闭,让模型直接理解原始文本(模型本身具备一定文本理解能力)。
6. ✅ 快速推理(Diffusion + Flow Matching)
使用扩散模型 + 流匹配(Flow Matching) 技术,仅需 4~30 步 即可生成高质量语音。
默认 10 步,兼顾速度与质量。
📦 模型规格
🚀 应用场景
📱 个性化语音助手(克隆用户自己的声音)
🎧 有声书 / 教育内容自动生成
🎭 影视/游戏配音(快速切换角色音色)
🤖 虚拟主播 / 数字人语音驱动
🧑🏫 语言学习(模仿发音、语调)
🧮 科技内容朗读(支持公式、代码、符号)
🧪 局限性(当前版本)
仅提供 0.5B 版本,更大版本尚未开源
长文本(>50字)可能语调不稳定
极端情感或口音克隆效果依赖参考音频质量
中文支持更好,英文尚可,其他语言未验证
💡 总结一句话
VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移,开箱即用,适合研究与工业部署。
如果你正在做语音合成、数字人、教育科技、AIGC 相关项目,VoxCPM 是一个非常值得集成和探索的开源工具!







整合包说明
1 支持50系显卡,最低6G 英伟达显卡,16G内存即可愉快玩耍
2 修改了生成的音频自动保存到output目录下
随便生成一段语音你们听下
怎么用cpu来跑啊?
没人会去研究如何降低效率吧?