一键克隆任意人声!VoxCPM 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开整合包 v20250919

Tag
AI,开源 2 3631

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。

🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。


🔧 核心特性(技术亮点)

1. ✅ 端到端架构(End-to-End)

  • 输入:纯文本(支持中英文、混合、特殊符号、音素标记等)

  • 输出:16kHz 高保真语音波形

  • 无需强制对齐、无需声码器、无需预处理文本正则化(可选)

2. ✅ 零样本语音克隆(Zero-Shot Voice Cloning)

  • 仅需提供一段任意说话人的参考语音(≥3秒),即可克隆其音色、语调、语速、情感。

  • 无需微调、无需注册说话人 ID。

  • 支持跨语种克隆(如用中文语音克隆说英文)。

3. ✅ 支持音素/公式输入(Phoneme & Symbol Level Control)

  • 可输入音素标记,如 {ni3 hao3}{HH AH0 L OW1},实现精准发音控制。

  • 可合成数学公式、特殊符号,如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。

4. ✅ 情感与风格可控(通过 CFG 和 Prompt)

  • 通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。

  • 调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。

  • 参考音频可携带情感(如高兴、低沉、激动),模型可迁移该情感。

5. ✅ 支持文本正则化插件(可选)

  • 可外接 WeTextProcessing 库自动将“2025年4月5日”转为“二零二五年四月五日”。

  • 也可关闭,让模型直接理解原始文本(模型本身具备一定文本理解能力)。

6. ✅ 快速推理(Diffusion + Flow Matching)

  • 使用扩散模型 + 流匹配(Flow Matching) 技术,仅需 4~30 步 即可生成高质量语音。

  • 默认 10 步,兼顾速度与质量。


📦 模型规格

项目
内容
模型名称
VoxCPM-0.5B
参数量
5亿(0.5B)
训练数据
多语种、多说话人、多情感语音数据集(未公开细节)
输入
文本 +(可选)参考音频 & 参考文本
输出
16kHz 单声道 WAV 音频
推理设备
支持 CPU / GPU(推荐 GPU)
推理速度
约 1~3 秒/句(RTX 3090,10 steps)

🚀 应用场景

  • 📱 个性化语音助手(克隆用户自己的声音)

  • 🎧 有声书 / 教育内容自动生成

  • 🎭 影视/游戏配音(快速切换角色音色)

  • 🤖 虚拟主播 / 数字人语音驱动

  • 🧑‍🏫 语言学习(模仿发音、语调)

  • 🧮 科技内容朗读(支持公式、代码、符号)

🧪 局限性(当前版本)

  • 仅提供 0.5B 版本,更大版本尚未开源

  • 长文本(>50字)可能语调不稳定

  • 极端情感或口音克隆效果依赖参考音频质量

  • 中文支持更好,英文尚可,其他语言未验证


💡 总结一句话

VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移,开箱即用,适合研究与工业部署。


如果你正在做语音合成、数字人、教育科技、AIGC 相关项目,VoxCPM 是一个非常值得集成和探索的开源工具

整合包说明

1 支持50系显卡,最低6G 英伟达显卡,16G内存即可愉快玩耍

2 修改了生成的音频自动保存到output目录下

随便生成一段语音你们听下


点击查看

下载有疑问看下这里


Tag

相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 2 条评论

  1. 彪壮演变方盒 彪壮演变方盒

    怎么用cpu来跑啊?

    1. 剑心 剑心

      没人会去研究如何降低效率吧?

只显示最新的15条留言