一键克隆任意音色,生成自然口语级语音 1B/3.5B 双模型自由切换,还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新 一键整合包

AI 1467

LongCat-AudioDiT 语音合成工具 - 功能说明

🎯 主要功能

本工具基于美团开源的 LongCat-AudioDiT 扩散模型,提供高质量的文本到语音合成,并支持零样本语音克隆(只需几秒参考音频即可克隆音色)。
界面采用 Gradio 构建,操作直观,适用于中文和英文混合文本。

📌 核心功能模块

1. 模型选择

  • 支持 1B 和 3.5B 两个版本。

  • 1B:速度较快,显存需求约 5-6 GB,适合日常使用。

  • 3.5B:音质和克隆效果更优,显存需求约 10-12 GB,适合对质量要求高的场景。

  • 切换模型时会自动释放旧模型并加载新模型,避免显存浪费。

2. TTS(纯文本合成)

  • 文本输入:任意中英文混合文本,支持多行输入。

  • 自动估算时长:根据文本长度(区分中英文字符)自动计算合适的 latent frames,确保生成的音频语速自然。

  • 手动调节时长:可关闭自动估算,手动指定 latent frames(每帧约 13.3 毫秒,75 帧 ≈ 1 秒)。

  • 高级参数

    • 引导方法cfg(classifier-free guidance)或 apg(adaptive projection guidance)。cfg 适合常规 TTS,apg 在语音克隆中表现更佳。

    • 采样步数:1~64,步数越多质量越高但生成更慢,推荐 16~20。

    • 引导强度:1.0~10.0,控制生成文本与条件的吻合度,过高可能导致发音不自然。

    • 随机种子:固定种子可复现结果,或开启随机化。

3. 语音克隆(Voice Cloning)

  • 参考音频:上传任意清晰的人声片段(建议 3~10 秒,24kHz 单声道),用于提取音色。

  • 参考音频文本:需准确转录参考音频的内容(标点、语气需一致)。若安装 Whisper,可开启 自动转录 功能:

    • 选择 Whisper 模型大小(tiny 最快但准确度一般,base 平衡,small 最准但稍慢)。

    • 上传音频后自动识别文本并填入文本框(自动转换为简体中文)。

    • 可随时手动修改识别结果。

  • 要合成的文本:输入目标文本,将使用参考音频的音色朗读。

  • 时长自动估算:根据参考音频实际时长和合成文本长度自动计算总 latent frames(包含参考音频的帧数),避免音频截断或空白过多。

  • 高级参数:与 TTS 相同,推荐使用 apg 引导方法,引导强度可适当提高(4.0~5.0)以增强音色相似度。

4. 音频保存

  • 所有生成的音频自动保存在项目根目录下的 output 文件夹中。

  • 文件命名格式:jian27_年月日_时分秒_三位随机数.wav(例如 jian27_20260401_143022_357.wav),便于管理和追溯。

🖱️ 操作流程

TTS 合成

  1. 在“TTS”标签页输入文本。

  2. 确认“自动估算时长”已勾选(推荐),或手动指定帧数。

  3. 调整高级参数(可选)。

  4. 点击“生成语音”,等待片刻,音频将自动播放并保存。

语音克隆

  1. 切换到“语音克隆”标签页。

  2. 上传参考音频(WAV 格式,24kHz 单声道为佳)。

  3. 若开启“自动转录参考音频”,稍等几秒,参考文本将自动填充;否则手动输入参考文本。

  4. 输入要合成的文本。

  5. 确认“自动估算时长”已勾选(推荐),或手动指定总帧数。

  6. 选择引导方法(推荐 apg)和其他参数。

  7. 点击“生成克隆语音”,等待生成完成。

⚙️ 参数说明

参数说明推荐值
模型1B 或 3.5B根据显存选择
引导方法cfg / apgTTS 用 cfg,克隆用 apg
采样步数扩散模型采样步数16~20
引导强度控制条件影响程度4.0(可微调)
随机种子固定种子可复现结果默认 1024
自动估算时长根据文本长度自动计算帧数开启
手动时长自定义 latent frames仅关闭自动估算时生效
Whisper 模型自动转录使用的模型大小base(平衡)

💡 注意事项

  • 参考音频质量:尽量选择清晰、无背景噪音、语速适中的音频,时长控制在 3~10 秒。过长可能导致显存不足,过短可能影响音色提取。

  • 文本准确性:语音克隆时,参考音频的文本必须与音频内容完全一致,否则克隆效果会下降。自动转录后请务必核对。

  • 显存管理:生成大段音频或使用 3.5B 模型时,若显存不足,可适当降低 max_duration(模型配置默认 30 秒)或减小音频长度。

  • 生成文件:所有音频均保存在 output 目录,请定期清理,避免磁盘占用过多。


📝 常见问题

Q: 为什么生成的语音语速偏快/偏慢?
A: 可调整“自动估算时长”中的语速系数(代码中 ZH_DUR_PER_CHAR 和 EN_DUR_PER_CHAR),或关闭自动估算后手动增减 duration 值。

Q: 语音克隆效果不理想怎么办?
A: 尝试:

  • 使用更清晰的参考音频;

  • 提高引导强度(5.0~6.0);

  • 选择 apg 引导方法;

  • 确保参考文本准确无误;

  • 适当增加采样步数(20~30)。

Q: 自动转录识别错误较多?
A: 可选择 base 或 small 模型,并确保音频清晰、无回声。识别后仍可手动修正文本。

整合包说明:

1 最低支持英伟达6G显卡

2 解压失败的,请用winrar解压,不会解压的 点击这里 看教程

3 人气高就会继续开发

4 不要生成过长的语音文件,否则会很奇怪,以后修正

随手生成的一个语音你们听听

点击查看

下载地址
夸克网盘

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。