一键克隆任意人声!VoxCPM 1.5 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开汉化整合包 v20251207

Tag
AI,开源 9 5211

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。

🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。


🔧 核心特性(技术亮点)

1. ✅ 端到端架构(End-to-End)

  • 输入:纯文本(支持中英文、混合、特殊符号、音素标记等)

  • 输出:16kHz 高保真语音波形

  • 无需强制对齐、无需声码器、无需预处理文本正则化(可选)

2. ✅ 零样本语音克隆(Zero-Shot Voice Cloning)

  • 仅需提供一段任意说话人的参考语音(≥3秒),即可克隆其音色、语调、语速、情感。

  • 无需微调、无需注册说话人 ID。

  • 支持跨语种克隆(如用中文语音克隆说英文)。

3. ✅ 支持音素/公式输入(Phoneme & Symbol Level Control)

  • 可输入音素标记,如 {ni3 hao3}{HH AH0 L OW1},实现精准发音控制。

  • 可合成数学公式、特殊符号,如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。

4. ✅ 情感与风格可控(通过 CFG 和 Prompt)

  • 通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。

  • 调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。

  • 参考音频可携带情感(如高兴、低沉、激动),模型可迁移该情感。

5. ✅ 支持文本正则化插件(可选)

  • 可外接 WeTextProcessing 库自动将“2025年4月5日”转为“二零二五年四月五日”。

  • 也可关闭,让模型直接理解原始文本(模型本身具备一定文本理解能力)。

6. ✅ 快速推理(Diffusion + Flow Matching)

  • 使用扩散模型 + 流匹配(Flow Matching) 技术,仅需 4~30 步 即可生成高质量语音。

  • 默认 10 步,兼顾速度与质量。


📦 模型规格

项目
内容
模型名称
VoxCPM-0.5B
参数量
5亿(0.5B)
训练数据
多语种、多说话人、多情感语音数据集(未公开细节)
输入
文本 +(可选)参考音频 & 参考文本
输出
16kHz 单声道 WAV 音频
推理设备
支持 CPU / GPU(推荐 GPU)
推理速度
约 1~3 秒/句(RTX 3090,10 steps)

🚀 应用场景

  • 📱 个性化语音助手(克隆用户自己的声音)

  • 🎧 有声书 / 教育内容自动生成

  • 🎭 影视/游戏配音(快速切换角色音色)

  • 🤖 虚拟主播 / 数字人语音驱动

  • 🧑‍🏫 语言学习(模仿发音、语调)

  • 🧮 科技内容朗读(支持公式、代码、符号)

🧪 局限性(当前版本)

  • 仅提供 0.5B 版本,更大版本尚未开源

  • 长文本(>50字)可能语调不稳定

  • 极端情感或口音克隆效果依赖参考音频质量

  • 中文支持更好,英文尚可,其他语言未验证


💡 总结一句话

VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移,开箱即用,适合研究与工业部署。


如果你正在做语音合成、数字人、教育科技、AIGC 相关项目,VoxCPM 是一个非常值得集成和探索的开源工具


整合包说明

1 支持50系显卡,最低6G 英伟达显卡,16G内存即可愉快玩耍

2 修改了生成的音频自动保存到output目录下

随便生成一段语音你们听下

20251207更新记录

1 更新到官方最新1.5

2 汉化界面

3 自动保存生成的语音文件到output

点击查看

下载有疑问看下这里


Tag

相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 9 条评论

  1. 安静踢冬天 安静踢冬天

    大佬这个有openai兼容的接口调用的吗

    1. 剑心 剑心

      没关注过openai

  2. 芹菜忧心 芹菜忧心

    大神,有MAC版本吗?

    1. 剑心 剑心

      要不 你先赞助我一台mac?

  3. 聪慧用金毛 聪慧用金毛

    点启动.exe为啥是个广告呢

    1. 剑心 剑心

      什么广告?

      1. 聪慧用金毛 聪慧用金毛

        没事了,是电脑反应慢

  4. 彪壮演变方盒 彪壮演变方盒

    怎么用cpu来跑啊?

    1. 剑心 剑心

      没人会去研究如何降低效率吧?

只显示最新的15条留言