自媒体人的AI音乐工坊：打字描述，自动生成专属BGM stable-audio-3 AI音乐自动生成一键整合包 v20260524

2026-05-24 AI 4669

Stable Audio 3 是 Stability AI（就是出 Stable Diffusion 那家公司）做的一款AI 音乐/音效生成工具。你只需要打字描述，它就能帮你生成一段音频——可以是一段背景音乐、一个音效、甚至是一首完整的歌。

这个增强版把原来的英文界面全部翻译成了中文，还加了一些方便国内用户使用的功能。

它能做什么？举几个例子

你想做的	你输入的	它给你的
做短视频需要背景音乐	"一段轻快的电子音乐，适合旅行vlog"	一段 30 秒的 BGM
游戏开发需要音效	"科幻风格的激光枪射击声"	一个 wav 音效文件
做播客需要片头音乐	"神秘氛围的钢琴曲，带一点悬疑感"	一段原创音乐
有段音乐想改风格	上传你的音频 + "改成爵士风格"	风格变了的版本
音乐中间某段不满意	上传音频，标记 10~20 秒	只替换那 10 秒，其他保留

和原版比，这个增强版多了什么？

1. 全中文界面

原版全是英文，这个版本所有按钮、滑块、提示文字都翻译成了中文，不用一边生成一边查词典。

2. 模型控制台 — 不用重启就能换配置

原版如果你发现模型选错了、或者想换个 LoRA（一种微调模型），必须关掉程序重新输入命令。
这个版本在网页顶部加了一个「🔧 模型控制台」，直接在网页里点几下就能：

换别的模型（比如从 medium 换成 small）
开关半精度（省显存/保质量）
加载别的 LoRA 风格包
内存不够时点「卸载模型」释放显存

3. 自动保存文件

原版生成完音频，过 30 秒就自动删了，你只能赶紧下载。
这个版本会自动把音频存到 output 文件夹，文件名是日期+随机码，比如 20250524_183022_a7k3m9.wav，永久保留，不怕丢失。

4. 双击即用，不用记命令

页面长什么样？怎么用？

打开网页后，主要分两大块：

左边 — 调参数的地方

从上到下依次是：

提示词框：写你想要什么音乐（越具体越好，可以写风格、乐器、BPM、情绪）
反向提示词框：写你不想要什么（比如 "杂音、低质量"）
总时长：要生成多少秒
采样步数：一般不用动，步数越多越精细但越慢
CFG 强度：AI 听你的话的程度，默认 7 左右就行
随机种子：填 -1 就是每次随机，填固定数字可以复现同样的结果

下面还有几个折叠面板，点一下展开：

采样器参数：进阶玩家调细节用的，新手可以不管
输出参数：改输出格式（wav/mp3/flac）、开关自动播放/无限电台
初始音频：做「音频编辑」模式时上传参考音频
音频修复：做「修补/续写」模式时上传原音频并标记要改的部分

右边 — 看结果的地方

输出音频：生成好的音乐在这里播放
输出频谱图：音频的波形可视化图
保存路径：告诉你文件存到 output/2025xxxx_xxxxxx_xxxx.wav 了

三种玩法，对号入座

玩法一：凭空生成（文生音频）

什么都不上传，直接在提示词里写你要什么，点「生成音频」。
适合：做 BGM、音效、灵感创作。

玩法二：改风格（音频编辑）

在「初始音频」面板里上传一段你已有的音频，写提示词描述你想改成什么样。
比如上传一段钢琴曲，提示词写 "改成电子合成器风格"。
适合：给已有素材换风格、做 Remix。

玩法三：修修补补（音频修复）

在「音频修复 / 续写」面板里上传音频，用滑块标出哪几秒要重新生成。
比如一首歌 2:00~2:10 有个爆音，只标记这 10 秒，AI 只修这一段，其他地方完全不动。
适合：局部修改、续写结尾。

文件保存到哪里？

程序运行目录下会自动创建一个 output 文件夹，所有生成的音频都存在这里

整合包说明：

1 生成音乐速度极快，120秒的音乐大概3秒即可生成

2 英伟达8G显卡即可运行，甚至更低的也可以试试，古老的显卡可能不会支持

3 生成的音乐效果还不错

4 人气高就会继续开发

点击查看

下载地址

夸克网盘

下载有疑问看下这里

工具日常应用音乐绿色软件音频开源人工智能 AI 语音工具整合包 Tag

造相 Z-Image-Turbo AI生图大模型高性能AI图像生成工具 5秒一张图片支持批量生图+人物一致性图片+自定义lora 一键整合包 20260519 v19

高德开源项目 PilotTTS - 让AI学会"说话"的语音生成开源项目，支持11种情绪+14种方言一键整合包 v20260530 解压即可使用

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

自媒体人的AI音乐工坊：打字描述，自动生成专属BGM stable-audio-3 AI音乐自动生成一键整合包 v20260524

它能做什么？举几个例子

和原版比，这个增强版多了什么？

1. 全中文界面

2. 模型控制台 — 不用重启就能换配置

3. 自动保存文件

4. 双击即用，不用记命令

页面长什么样？怎么用？

左边 — 调参数的地方

右边 — 看结果的地方

三种玩法，对号入座

玩法一：凭空生成（文生音频）

玩法二：改风格（音频编辑）

玩法三：修修补补（音频修复）

文件保存到哪里？

相关推荐：

我要评论：