ACE-Step是一个开源的音乐生成基础模型项目,旨在通过全面的架构设计克服现有音乐生成方法的局限性,并实现最先进的性能。以下是对该项目的详细介绍:
项目背景与目标:
ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题,提出了一种新的解决方案。
项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型,使得在该模型上训练子任务变得容易,从而为音乐艺术家、制作人和内容创作者提供强大的工具,无缝集成到他们的创意工作流程中。
模型架构与特点:
ACE-Step结合了基于扩散的生成方法、Sana的深度压缩自动编码器(DCAE)和轻量级线性变换器。
模型利用MERT和m-hubert来对齐训练过程中的语义表示(REPA),实现快速收敛。
ACE-Step能够在A100 GPU上仅用20秒合成长达4分钟的音乐,比基于LLM的基线模型快15倍,同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。
模型还保留了精细的声学细节,支持高级控制机制,如声音克隆、歌词编辑、混音和音轨生成(如歌词到人声、演唱到伴奏)。
功能与特性:
多样风格与流派:支持所有主流音乐风格,包括简短标签、描述性文本或使用场景描述。
多语言支持:支持19种语言,包括英语、中文、俄语、西班牙语、日语、德语、法语、葡萄牙语、意大利语和韩语等。
乐器风格:支持各种乐器音乐的生成,能够产生具有适当音色和表现力的逼真乐器轨道。
声乐技巧:能够高质量地呈现各种声乐风格和技巧,支持不同的声乐表达。
可控性:包括变化生成(通过训练免费、推理时间优化技术实现)、重绘(通过在目标音频输入中添加噪声并在ODE过程中应用掩码约束实现)、歌词编辑(创新性地应用流编辑技术实现局部歌词修改)等。
应用与未来展望:
Lyric2Vocal:基于纯人声数据微调的LoRA,允许直接从歌词生成人声样本。
Text2Samples:类似于Lyric2Vocal,但针对纯乐器和样本数据进行微调,能够从文本描述中生成概念音乐制作样本。
未来计划:包括RapMachine(专门用于说唱生成的AI系统)和StemGen(从多轨数据中训练的控制网络,用于生成单个乐器音轨)等。
硬件性能与评估:
ACE-Step在不同硬件设置上进行了评估,通过RTF(实时因子)来衡量性能,展示了其在生成速度上的优势。
法律与伦理声明:
项目在Apache License 2.0下开源,鼓励负责任地使用,包括验证生成作品的原创性、明确披露AI参与以及在改编受保护的风格或材料时获得适当许可。
ACE-Step项目通过其创新的架构设计和丰富的功能特性,为音乐生成领域带来了新的可能性,有望推动音乐AI技术的发展和应用。
ACE-Step 20250512整合包说明
1 自行安装好cuda12.4
2 原汁原味未做任何修改增强之类
3 如果启动出错,执行一次 “如果启动出错,运行一次这个.bat”
4 8G 显卡就可以愉快玩耍
5 生成的音乐保存在outputs
5 激活conda环境.bat 这个文件没用,我忘记删除了
cuda12.4下载
https://pan.quark.cn/s/eea9851ecf20
视频演示
https://www.bilibili.com/video/BV1X4EJz3EJz
剑心大佬,能够生成纯音乐吗?给视频配BGM
纯音乐我没试过,但是之前有分享过 那个我试过可以
好的 我找找叫什么
A卡能玩不
不能