LuxTTS 项目介绍
LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。
核心特性
1. 零样本语音克隆
仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外训练。支持跨语言、跨语调克隆,适用于个性化语音生成场景。
仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外训练。支持跨语言、跨语调克隆,适用于个性化语音生成场景。
2. 超高速推理
基于流匹配(Flow Matching)技术优化,实现约 150 倍实时速度(1 秒音频生成耗时约 6.7 毫秒),远超传统扩散模型 TTS 系统,满足近实时应用需求。
基于流匹配(Flow Matching)技术优化,实现约 150 倍实时速度(1 秒音频生成耗时约 6.7 毫秒),远超传统扩散模型 TTS 系统,满足近实时应用需求。
3. 高保真音频输出
直接生成 48kHz 采样率波形,避免传统 Mel 谱转换带来的音质损失,输出声音清晰自然,接近录音室级质量。
直接生成 48kHz 采样率波形,避免传统 Mel 谱转换带来的音质损失,输出声音清晰自然,接近录音室级质量。
4. 极致轻量化设计
模型参数量仅约 120M
推理时显存占用约 1GB(基础配置)
模型文件体积约 500MB(FP16 格式)
可在消费级 GPU 甚至多核 CPU 上稳定运行。
技术实现
架构基础:基于 ZipVoice 架构改进,采用流匹配扩散生成技术,通过 4 步蒸馏采样实现高质量与高效率的平衡。
声码器集成:内置 48kHz 专用 Vocos 声码器,直接输出高保真波形。
多语言支持:依托多语言 Whisper 编码器,天然支持中文、英文、日文、韩文等主流语言,无需额外配置。
参数效率:相比同类语音克隆模型(如 Coqui TTS XTTS v2 约 5GB),模型体积缩小 90%,推理速度提升 30 倍以上。
适用场景
✅ 短音频语音克隆(客服播报、有声书片段、短视频配音)
✅ 边缘设备部署(本地化语音助手、嵌入式设备)
✅ 低资源环境应用(2 核 CPU + 16GB GPU 可运行,需控制输入长度)
⚠️ 超长文本生成建议分段处理,避免显存溢出
✅ 边缘设备部署(本地化语音助手、嵌入式设备)
✅ 低资源环境应用(2 核 CPU + 16GB GPU 可运行,需控制输入长度)
⚠️ 超长文本生成建议分段处理,避免显存溢出
使用建议(针对 16GB GPU 环境)
为避免 CUDA 显存不足(OOM)问题,推荐以下安全配置:
提示:首次使用建议以短文本(10 字内)+ 短参考音频(3 秒内)测试,成功后再逐步增加复杂度。
开源协议
项目采用 Apache-2.0 许可证,允许商用及二次开发,无使用限制。
总结
LuxTTS 在“高质量”与“轻量化”之间取得良好平衡,是当前开源社区中参数效率最高的语音克隆方案之一。特别适合资源受限但对音质有要求的应用场景,为边缘计算、本地化部署提供了可行的高质量 TTS 解决方案。



随手生成的几个音频你们听下
整合包说明
1 对硬件要求极低。有英伟达显卡跑的快点,没有英伟达显卡 用CPU也可以就是稍微慢点
2 如果提示显存爆了,减少一次性生成的文字数量
3 非常轻巧 快速的,30秒时长的音频 大概1秒就可以生成完毕
4 人气高就会继续二次开发
下载地址请登录后方可查看
不错
好好看看