轻如羽，快如电 LuxTTS 语音克隆一键整合包 CPU也能跑，30秒音频 1秒生成 v20260206

2026-02-06 AI,开源 5503

LuxTTS 项目介绍

LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音（TTS）系统，专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时，显著降低了计算资源需求，适用于资源受限环境下的语音合成任务。

核心特性

1. 零样本语音克隆
仅需 3–5 秒参考音频即可克隆任意人声，无需针对目标说话人进行额外训练。支持跨语言、跨语调克隆，适用于个性化语音生成场景。

2. 超高速推理
基于流匹配（Flow Matching）技术优化，实现约 150 倍实时速度（1 秒音频生成耗时约 6.7 毫秒），远超传统扩散模型 TTS 系统，满足近实时应用需求。

3. 高保真音频输出
直接生成 48kHz 采样率波形，避免传统 Mel 谱转换带来的音质损失，输出声音清晰自然，接近录音室级质量。

4. 极致轻量化设计

模型参数量仅约 120M
推理时显存占用约 1GB（基础配置）
模型文件体积约 500MB（FP16 格式）
可在消费级 GPU 甚至多核 CPU 上稳定运行。

技术实现

架构基础：基于 ZipVoice 架构改进，采用流匹配扩散生成技术，通过 4 步蒸馏采样实现高质量与高效率的平衡。
声码器集成：内置 48kHz 专用 Vocos 声码器，直接输出高保真波形。
多语言支持：依托多语言 Whisper 编码器，天然支持中文、英文、日文、韩文等主流语言，无需额外配置。
参数效率：相比同类语音克隆模型（如 Coqui TTS XTTS v2 约 5GB），模型体积缩小 90%，推理速度提升 30 倍以上。

适用场景

✅ 短音频语音克隆（客服播报、有声书片段、短视频配音）
✅ 边缘设备部署（本地化语音助手、嵌入式设备）
✅ 低资源环境应用（2 核 CPU + 16GB GPU 可运行，需控制输入长度）
⚠️ 超长文本生成建议分段处理，避免显存溢出

使用建议（针对 16GB GPU 环境）

为避免 CUDA 显存不足（OOM）问题，推荐以下安全配置：

参数	建议值	说明
参考音频时长	≤ 3 秒	长音频显著增加显存占用
生成步数	2	4 步在 16GB GPU 上不稳定
语速	≥ 1.0	低速生成更长音频，加剧显存压力
文本长度	≤ 30 字	长文本导致生成音频过长，触发 OOM

提示：首次使用建议以短文本（10 字内）+ 短参考音频（3 秒内）测试，成功后再逐步增加复杂度。

开源协议

项目采用 Apache-2.0 许可证，允许商用及二次开发，无使用限制。

总结

LuxTTS 在“高质量”与“轻量化”之间取得良好平衡，是当前开源社区中参数效率最高的语音克隆方案之一。特别适合资源受限但对音质有要求的应用场景，为边缘计算、本地化部署提供了可行的高质量 TTS 解决方案。

随手生成的几个音频你们听下

整合包说明

1 对硬件要求极低。有英伟达显卡跑的快点，没有英伟达显卡用CPU也可以就是稍微慢点

2 如果提示显存爆了，减少一次性生成的文字数量

3 非常轻巧快速的，30秒时长的音频大概1秒就可以生成完毕

4 人气高就会继续二次开发

点击查看

下载地址

夸克网盘

下载有疑问看下这里

工具绿色软件音频音频处理开源人工智能 AI 整合包 Tag

免费 AI 人声替换AI 唱歌伴奏分离软件 Replay 附视频演示和教程 v8.7.0

微软常用运行库合集（Microsoft Visual C++ Redistributable） Windows电脑系统必装软件 2026.01.17 再次更新

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 22 条评论

标致与指甲油

2026-02-11

提示按任意键，什么原因

回复
1. 剑心
  
  2026-02-11
  
  如果没有任何错误提示就提示这个的话。就是内存不够
  
  回复
招牌暴躁

2026-02-07

win10 AMD 显卡 Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz 2.60 GHz

回复
1. 剑心
  
  2026-02-07
  
  应该是解压不全吧导致缺失某些文件了
  
  回复
招牌暴躁

2026-02-07

Transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English. This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`. See https://github.com/huggingface/transformers/pull/28687 for more details.
其餘AI大模型智能視頻自動生
Error processing file '/usr/share/espeak-ng-data\phontab': No such file or directory.

回复
1. 剑心
  
  2026-02-07
  
  什么显卡？什么操作系统？
  
  回复
招牌暴躁

2026-02-07

--------更多AI工具，开源免费软件请前往 https://www.jian27.com--------
请关注我的微信公众号剑二十七
功能定制合作可以加我微信 jian27xxx
🗝️ 检测到环境变量，尝试自动验证...
✅ 密钥有效！有效期：永久有效
🚀 验证通过，正在启动主程序...
Fetching 11 files: 100%|████████████████████████████████████████████████████████████| 11/11 [00:00

回复
招牌暴躁

2026-02-07

没有就是你这个网址下载的

回复
招牌暴躁

2026-02-07

提示 /usr/share/espeak-ng-data\phontab 没有这个目录

回复
1. 剑心
  
  2026-02-07
  
  你下错了吧？
  
  回复
招牌暴躁

2026-02-06

不能用出错的

回复
1. 剑心
  
  2026-02-06
  
  看看黑色窗口提示什么
  
  回复
小熊猫傲娇

2026-02-06

楼主辛苦了

回复
小熊猫傲娇

2026-02-06

下载地址请登录后方可查看

回复
1. 剑心
  
  2026-02-06
  
  可以了，点错了老年痴呆了
  
  回复
小熊猫傲娇

2026-02-06

显示要登录啊楼主

回复
1. 剑心
  
  2026-02-06
  
  账号登录不了，提示什么？
  
  回复
小熊猫傲娇

2026-02-06

账号登录不了楼主

回复
1. 剑心
  
  2026-02-06
  
  整合包又没有要登录，你要登录什么？
  
  回复
和谐方大象

2026-02-06

哎哟，不错哎~

回复
尊云迷人

2024-05-26

不错

回复
飞鸟务实

2024-01-21

好好看看

回复