Stable Audio 3 是 Stability AI(就是出 Stable Diffusion 那家公司)做的一款AI 音乐/音效生成工具。你只需要打字描述,它就能帮你生成一段音频——可以是一段背景音乐、一个音效、甚至是一首完整的歌。
这个增强版把原来的英文界面全部翻译成了中文,还加了一些方便国内用户使用的功能。
它能做什么?举几个例子
| 你想做的 | 你输入的 | 它给你的 |
|---|---|---|
| 做短视频需要背景音乐 | "一段轻快的电子音乐,适合旅行vlog" | 一段 30 秒的 BGM |
| 游戏开发需要音效 | "科幻风格的激光枪射击声" | 一个 wav 音效文件 |
| 做播客需要片头音乐 | "神秘氛围的钢琴曲,带一点悬疑感" | 一段原创音乐 |
| 有段音乐想改风格 | 上传你的音频 + "改成爵士风格" | 风格变了的版本 |
| 音乐中间某段不满意 | 上传音频,标记 10~20 秒 | 只替换那 10 秒,其他保留 |
和原版比,这个增强版多了什么?
1. 全中文界面
原版全是英文,这个版本所有按钮、滑块、提示文字都翻译成了中文,不用一边生成一边查词典。
2. 模型控制台 — 不用重启就能换配置
原版如果你发现模型选错了、或者想换个 LoRA(一种微调模型),必须关掉程序重新输入命令。
这个版本在网页顶部加了一个「🔧 模型控制台」,直接在网页里点几下就能:
这个版本在网页顶部加了一个「🔧 模型控制台」,直接在网页里点几下就能:
- 换别的模型(比如从 medium 换成 small)
- 开关半精度(省显存/保质量)
- 加载别的 LoRA 风格包
- 内存不够时点「卸载模型」释放显存
3. 自动保存文件
原版生成完音频,过 30 秒就自动删了,你只能赶紧下载。
这个版本会自动把音频存到
这个版本会自动把音频存到
output 文件夹,文件名是日期+随机码,比如 20250524_183022_a7k3m9.wav,永久保留,不怕丢失。4. 双击即用,不用记命令
页面长什么样?怎么用?
打开网页后,主要分两大块:
左边 — 调参数的地方
从上到下依次是:
- 提示词框:写你想要什么音乐(越具体越好,可以写风格、乐器、BPM、情绪)
- 反向提示词框:写你不想要什么(比如 "杂音、低质量")
- 总时长:要生成多少秒
- 采样步数:一般不用动,步数越多越精细但越慢
- CFG 强度:AI 听你的话的程度,默认 7 左右就行
- 随机种子:填 -1 就是每次随机,填固定数字可以复现同样的结果
下面还有几个折叠面板,点一下展开:
- 采样器参数:进阶玩家调细节用的,新手可以不管
- 输出参数:改输出格式(wav/mp3/flac)、开关自动播放/无限电台
- 初始音频:做「音频编辑」模式时上传参考音频
- 音频修复:做「修补/续写」模式时上传原音频并标记要改的部分
右边 — 看结果的地方
- 输出音频:生成好的音乐在这里播放
- 输出频谱图:音频的波形可视化图
- 保存路径:告诉你文件存到
output/2025xxxx_xxxxxx_xxxx.wav了
三种玩法,对号入座
玩法一:凭空生成(文生音频)
什么都不上传,直接在提示词里写你要什么,点「生成音频」。
适合:做 BGM、音效、灵感创作。
适合:做 BGM、音效、灵感创作。
玩法二:改风格(音频编辑)
在「初始音频」面板里上传一段你已有的音频,写提示词描述你想改成什么样。
比如上传一段钢琴曲,提示词写 "改成电子合成器风格"。
适合:给已有素材换风格、做 Remix。
比如上传一段钢琴曲,提示词写 "改成电子合成器风格"。
适合:给已有素材换风格、做 Remix。
玩法三:修修补补(音频修复)
在「音频修复 / 续写」面板里上传音频,用滑块标出哪几秒要重新生成。
比如一首歌 2:00~2:10 有个爆音,只标记这 10 秒,AI 只修这一段,其他地方完全不动。
适合:局部修改、续写结尾。
比如一首歌 2:00~2:10 有个爆音,只标记这 10 秒,AI 只修这一段,其他地方完全不动。
适合:局部修改、续写结尾。
文件保存到哪里?
程序运行目录下会自动创建一个 output 文件夹,所有生成的音频都存在这里




整合包说明:
1 生成音乐速度极快,120秒的音乐 大概3秒即可生成
2 英伟达8G显卡即可运行,甚至更低的也可以试试,古老的显卡可能不会支持
3 生成的音乐效果还不错
4 人气高就会继续开发