轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

AI,开源 2 2805

LuxTTS 项目介绍

LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。

核心特性

1. 零样本语音克隆
仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外训练。支持跨语言、跨语调克隆,适用于个性化语音生成场景。
2. 超高速推理
基于流匹配(Flow Matching)技术优化,实现约 150 倍实时速度(1 秒音频生成耗时约 6.7 毫秒),远超传统扩散模型 TTS 系统,满足近实时应用需求。
3. 高保真音频输出
直接生成 48kHz 采样率波形,避免传统 Mel 谱转换带来的音质损失,输出声音清晰自然,接近录音室级质量。
4. 极致轻量化设计
  • 模型参数量仅约 120M

  • 推理时显存占用约 1GB(基础配置)

  • 模型文件体积约 500MB(FP16 格式)
    可在消费级 GPU 甚至多核 CPU 上稳定运行。


技术实现

  • 架构基础:基于 ZipVoice 架构改进,采用流匹配扩散生成技术,通过 4 步蒸馏采样实现高质量与高效率的平衡。

  • 声码器集成:内置 48kHz 专用 Vocos 声码器,直接输出高保真波形。

  • 多语言支持:依托多语言 Whisper 编码器,天然支持中文、英文、日文、韩文等主流语言,无需额外配置。

  • 参数效率:相比同类语音克隆模型(如 Coqui TTS XTTS v2 约 5GB),模型体积缩小 90%,推理速度提升 30 倍以上。

适用场景

✅ 短音频语音克隆(客服播报、有声书片段、短视频配音)
✅ 边缘设备部署(本地化语音助手、嵌入式设备)
✅ 低资源环境应用(2 核 CPU + 16GB GPU 可运行,需控制输入长度)
⚠️ 超长文本生成建议分段处理,避免显存溢出

使用建议(针对 16GB GPU 环境)

为避免 CUDA 显存不足(OOM)问题,推荐以下安全配置:
参数
建议值
说明
参考音频时长
≤ 3 秒
长音频显著增加显存占用
生成步数
2
4 步在 16GB GPU 上不稳定
语速
≥ 1.0
低速生成更长音频,加剧显存压力
文本长度
≤ 30 字
长文本导致生成音频过长,触发 OOM
提示:首次使用建议以短文本(10 字内)+ 短参考音频(3 秒内)测试,成功后再逐步增加复杂度。

开源协议

项目采用 Apache-2.0 许可证,允许商用及二次开发,无使用限制。

总结

LuxTTS 在“高质量”与“轻量化”之间取得良好平衡,是当前开源社区中参数效率最高的语音克隆方案之一。特别适合资源受限但对音质有要求的应用场景,为边缘计算、本地化部署提供了可行的高质量 TTS 解决方案。

随手生成的几个音频你们听下

整合包说明

1 对硬件要求极低。有英伟达显卡跑的快点,没有英伟达显卡 用CPU也可以就是稍微慢点

2 如果提示显存爆了,减少一次性生成的文字数量

3 非常轻巧 快速的,30秒时长的音频 大概1秒就可以生成完毕

4 人气高就会继续二次开发

点击查看

下载地址请登录后方可查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 2 条评论

  1. 尊云迷人 尊云迷人

    不错

  2. 飞鸟务实 飞鸟务实

    好好看看

只显示最新的15条留言