一键克隆任意音色，生成自然口语级语音 1B/3.5B 双模型自由切换，还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新一键整合包

2026-04-02 AI 3067

LongCat-AudioDiT 语音合成工具 - 功能说明

🎯 主要功能

本工具基于美团开源的 LongCat-AudioDiT 扩散模型，提供高质量的文本到语音合成，并支持零样本语音克隆（只需几秒参考音频即可克隆音色）。
界面采用 Gradio 构建，操作直观，适用于中文和英文混合文本。

📌 核心功能模块

1. 模型选择

支持 1B 和 3.5B 两个版本。
1B：速度较快，显存需求约 5-6 GB，适合日常使用。
3.5B：音质和克隆效果更优，显存需求约 10-12 GB，适合对质量要求高的场景。
切换模型时会自动释放旧模型并加载新模型，避免显存浪费。

2. TTS（纯文本合成）

文本输入：任意中英文混合文本，支持多行输入。
自动估算时长：根据文本长度（区分中英文字符）自动计算合适的 latent frames，确保生成的音频语速自然。
手动调节时长：可关闭自动估算，手动指定 latent frames（每帧约 13.3 毫秒，75 帧 ≈ 1 秒）。
高级参数：

引导方法：cfg（classifier-free guidance）或 apg（adaptive projection guidance）。cfg 适合常规 TTS，apg 在语音克隆中表现更佳。
采样步数：1~64，步数越多质量越高但生成更慢，推荐 16~20。
引导强度：1.0~10.0，控制生成文本与条件的吻合度，过高可能导致发音不自然。
随机种子：固定种子可复现结果，或开启随机化。

3. 语音克隆（Voice Cloning）

参考音频：上传任意清晰的人声片段（建议 3~10 秒，24kHz 单声道），用于提取音色。
参考音频文本：需准确转录参考音频的内容（标点、语气需一致）。若安装 Whisper，可开启自动转录功能：

选择 Whisper 模型大小（tiny 最快但准确度一般，base 平衡，small 最准但稍慢）。
上传音频后自动识别文本并填入文本框（自动转换为简体中文）。
可随时手动修改识别结果。

要合成的文本：输入目标文本，将使用参考音频的音色朗读。
时长自动估算：根据参考音频实际时长和合成文本长度自动计算总 latent frames（包含参考音频的帧数），避免音频截断或空白过多。
高级参数：与 TTS 相同，推荐使用 apg 引导方法，引导强度可适当提高（4.0~5.0）以增强音色相似度。

4. 音频保存

所有生成的音频自动保存在项目根目录下的 output 文件夹中。
文件命名格式：jian27_年月日_时分秒_三位随机数.wav（例如 jian27_20260401_143022_357.wav），便于管理和追溯。

🖱️ 操作流程

TTS 合成

在“TTS”标签页输入文本。
确认“自动估算时长”已勾选（推荐），或手动指定帧数。
调整高级参数（可选）。
点击“生成语音”，等待片刻，音频将自动播放并保存。

语音克隆

切换到“语音克隆”标签页。
上传参考音频（WAV 格式，24kHz 单声道为佳）。
若开启“自动转录参考音频”，稍等几秒，参考文本将自动填充；否则手动输入参考文本。
输入要合成的文本。
确认“自动估算时长”已勾选（推荐），或手动指定总帧数。
选择引导方法（推荐 apg）和其他参数。
点击“生成克隆语音”，等待生成完成。

⚙️ 参数说明

参数	说明	推荐值
模型	1B 或 3.5B	根据显存选择
引导方法	`cfg` / `apg`	TTS 用 `cfg`，克隆用 `apg`
采样步数	扩散模型采样步数	16~20
引导强度	控制条件影响程度	4.0（可微调）
随机种子	固定种子可复现结果	默认 1024
自动估算时长	根据文本长度自动计算帧数	开启
手动时长	自定义 latent frames	仅关闭自动估算时生效
Whisper 模型	自动转录使用的模型大小	`base`（平衡）

💡 注意事项

参考音频质量：尽量选择清晰、无背景噪音、语速适中的音频，时长控制在 3~10 秒。过长可能导致显存不足，过短可能影响音色提取。
文本准确性：语音克隆时，参考音频的文本必须与音频内容完全一致，否则克隆效果会下降。自动转录后请务必核对。
显存管理：生成大段音频或使用 3.5B 模型时，若显存不足，可适当降低 max_duration（模型配置默认 30 秒）或减小音频长度。
生成文件：所有音频均保存在 output 目录，请定期清理，避免磁盘占用过多。

📝 常见问题

Q: 为什么生成的语音语速偏快/偏慢？
A: 可调整“自动估算时长”中的语速系数（代码中 ZH_DUR_PER_CHAR 和 EN_DUR_PER_CHAR），或关闭自动估算后手动增减 duration 值。

Q: 语音克隆效果不理想怎么办？
A: 尝试：

使用更清晰的参考音频；
提高引导强度（5.0~6.0）；
选择 apg 引导方法；
确保参考文本准确无误；
适当增加采样步数（20~30）。

Q: 自动转录识别错误较多？
A: 可选择 base 或 small 模型，并确保音频清晰、无回声。识别后仍可手动修正文本。

整合包说明：

1 最低支持英伟达6G显卡

2 解压失败的，请用winrar解压，不会解压的点击这里看教程

3 人气高就会继续开发

4 不要生成过长的语音文件，否则会很奇怪，以后修正

随手生成的一个语音你们听听

点击查看

下载地址

夸克网盘视频教程

下载有疑问看下这里

语音工具日常应用绿色软件音频处理开源人工智能 AI 语音工具效率工具整合包 Tag

VisoMaster +VisoMaster-Fusion v1.0 基于rope的二次开发一款功能强大、易于使用且高效的开源换脸工具中文版支持50系英伟达显卡运行一键整合包

DeepSeek 本地部署一键运行 DeepSeek-tool v18，解压即可使用最低支持2G显卡支持99%的语言大模型支持联网搜索+知识库

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 2 条评论

帅哥动人

2026-04-02

解压失败，用7z解压提示正在启动ing secure_core.run_pyarmor_entry()
File "secure_core.pyx", line 558, in secure_core.run_pyarmor_entry
File "secure_core.pyx", line 550, in secure_core.run_pyarmor_entry
File "src\jian27.py", line 596, in
File "src\jian27.py", line 172, in load_model
File "E:\BaiduNetdiskDownload\LongCat-AudioDiT\jian27\Lib\site-packages\transformers\modeling_utils.py", line 4002, in from_pretrained
config, model_kwargs = cls.config_class.from_pretrained(

回复
1. 剑心
  
  2026-04-02
  
  整合包说明第二条仔细看看
  
  回复

只显示最新的15条留言

一键克隆任意音色，生成自然口语级语音 1B/3.5B 双模型自由切换，还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新 一键整合包