LongCat-AudioDiT 语音合成工具 - 功能说明
🎯 主要功能
本工具基于美团开源的 LongCat-AudioDiT 扩散模型,提供高质量的文本到语音合成,并支持零样本语音克隆(只需几秒参考音频即可克隆音色)。
界面采用 Gradio 构建,操作直观,适用于中文和英文混合文本。
📌 核心功能模块
1. 模型选择
支持 1B 和 3.5B 两个版本。
1B:速度较快,显存需求约 5-6 GB,适合日常使用。
3.5B:音质和克隆效果更优,显存需求约 10-12 GB,适合对质量要求高的场景。
切换模型时会自动释放旧模型并加载新模型,避免显存浪费。
2. TTS(纯文本合成)
文本输入:任意中英文混合文本,支持多行输入。
自动估算时长:根据文本长度(区分中英文字符)自动计算合适的 latent frames,确保生成的音频语速自然。
手动调节时长:可关闭自动估算,手动指定 latent frames(每帧约 13.3 毫秒,75 帧 ≈ 1 秒)。
高级参数:
引导方法:
cfg(classifier-free guidance)或apg(adaptive projection guidance)。cfg适合常规 TTS,apg在语音克隆中表现更佳。采样步数:1~64,步数越多质量越高但生成更慢,推荐 16~20。
引导强度:1.0~10.0,控制生成文本与条件的吻合度,过高可能导致发音不自然。
随机种子:固定种子可复现结果,或开启随机化。
3. 语音克隆(Voice Cloning)
参考音频:上传任意清晰的人声片段(建议 3~10 秒,24kHz 单声道),用于提取音色。
参考音频文本:需准确转录参考音频的内容(标点、语气需一致)。若安装 Whisper,可开启 自动转录 功能:
选择 Whisper 模型大小(
tiny最快但准确度一般,base平衡,small最准但稍慢)。上传音频后自动识别文本并填入文本框(自动转换为简体中文)。
可随时手动修改识别结果。
要合成的文本:输入目标文本,将使用参考音频的音色朗读。
时长自动估算:根据参考音频实际时长和合成文本长度自动计算总 latent frames(包含参考音频的帧数),避免音频截断或空白过多。
高级参数:与 TTS 相同,推荐使用
apg引导方法,引导强度可适当提高(4.0~5.0)以增强音色相似度。
4. 音频保存
所有生成的音频自动保存在项目根目录下的
output文件夹中。文件命名格式:
jian27_年月日_时分秒_三位随机数.wav(例如jian27_20260401_143022_357.wav),便于管理和追溯。
🖱️ 操作流程
TTS 合成
在“TTS”标签页输入文本。
确认“自动估算时长”已勾选(推荐),或手动指定帧数。
调整高级参数(可选)。
点击“生成语音”,等待片刻,音频将自动播放并保存。
语音克隆
切换到“语音克隆”标签页。
上传参考音频(WAV 格式,24kHz 单声道为佳)。
若开启“自动转录参考音频”,稍等几秒,参考文本将自动填充;否则手动输入参考文本。
输入要合成的文本。
确认“自动估算时长”已勾选(推荐),或手动指定总帧数。
选择引导方法(推荐
apg)和其他参数。点击“生成克隆语音”,等待生成完成。
⚙️ 参数说明
| 参数 | 说明 | 推荐值 |
|---|---|---|
| 模型 | 1B 或 3.5B | 根据显存选择 |
| 引导方法 | cfg / apg | TTS 用 cfg,克隆用 apg |
| 采样步数 | 扩散模型采样步数 | 16~20 |
| 引导强度 | 控制条件影响程度 | 4.0(可微调) |
| 随机种子 | 固定种子可复现结果 | 默认 1024 |
| 自动估算时长 | 根据文本长度自动计算帧数 | 开启 |
| 手动时长 | 自定义 latent frames | 仅关闭自动估算时生效 |
| Whisper 模型 | 自动转录使用的模型大小 | base(平衡) |
💡 注意事项
参考音频质量:尽量选择清晰、无背景噪音、语速适中的音频,时长控制在 3~10 秒。过长可能导致显存不足,过短可能影响音色提取。
文本准确性:语音克隆时,参考音频的文本必须与音频内容完全一致,否则克隆效果会下降。自动转录后请务必核对。
显存管理:生成大段音频或使用 3.5B 模型时,若显存不足,可适当降低
max_duration(模型配置默认 30 秒)或减小音频长度。生成文件:所有音频均保存在
output目录,请定期清理,避免磁盘占用过多。
📝 常见问题
Q: 为什么生成的语音语速偏快/偏慢?
A: 可调整“自动估算时长”中的语速系数(代码中 ZH_DUR_PER_CHAR 和 EN_DUR_PER_CHAR),或关闭自动估算后手动增减 duration 值。
Q: 语音克隆效果不理想怎么办?
A: 尝试:
使用更清晰的参考音频;
提高引导强度(5.0~6.0);
选择
apg引导方法;确保参考文本准确无误;
适当增加采样步数(20~30)。
Q: 自动转录识别错误较多?
A: 可选择 base 或 small 模型,并确保音频清晰、无回声。识别后仍可手动修正文本。




整合包说明:
1 最低支持英伟达6G显卡
2 解压失败的,请用winrar解压,不会解压的 点击这里 看教程
3 人气高就会继续开发
4 不要生成过长的语音文件,否则会很奇怪,以后修正
随手生成的一个语音你们听听