这个开源AI,让你0基础创作歌曲 YuE v20250902 支持50系显卡,最低英伟达12G 显卡

AI,开源 2730

YuE 是由 Multimodal Art Projection (MAP) 团队推出的开源音乐生成基础模型项目,旨在推动开放、可控、高质量的 AI 音乐生成技术发展。该项目专注于实现从文本(如歌词和风格描述)到完整歌曲的端到端生成,是当前 AI 音乐领域中一个功能强大且具有前瞻性的开源解决方案。


核心特点与技术亮点

  1. 全曲生成 (Full-Song Generation):

    • YuE 的核心目标是生成完整的、结构化的歌曲,而不仅仅是几秒钟的片段。它能够处理包含 Verse(主歌)、Chorus(副歌)、Bridge(桥段) 等多个段落的长序列歌词,并生成连贯、有结构的音乐。

  2. 多模态输入控制:

    • 文本驱动: 用户可以通过输入歌词 (Lyrics)风格描述 (Genre) 来精确控制生成音乐的内容和风格。例如,可以指定“rap piano street tough vocal hip-hop”来生成一首硬核说唱。

    • 音频提示 (Audio Prompt): 模型支持使用一段音频作为“提示”或“参考”,让生成的音乐在音色、旋律或节奏上与之保持一致,实现风格迁移或续写。

  3. 先进的模型架构:

    • 第一阶段: 使用一个经过专门训练的 7B 参数大语言模型(如 YuE-s1-7B-anneal-en-cot)来理解歌词和风格指令,并生成一种特殊的“音频标记”(audio tokens)序列。这个过程将音乐生成问题转化为一个序列生成问题。

    • 第二阶段: 使用一个高性能的神经音频编解码器xcodec_mini_infer)将第一阶段生成的标记序列解码回真实的、高保真的波形音频。这个编解码器基于 SoundStream 架构,并进行了优化,以保证音质。

    • 大语言模型 (LLM) + 专业音频编解码器: YuE 采用了创新的两阶段架构。

  4. 开源与开放性:

    • 该项目完全开源,代码、模型权重(在 Hugging Face 上托管)和演示(Gradio Space)都对公众开放。

    • 其目标是建立一个开放的音乐生成生态系统,鼓励研究者和开发者共同参与,推动该领域的发展。


总结

YuE 是一个雄心勃勃的开源项目,它将大语言模型的强大生成能力与专业的音频处理技术相结合,成功实现了从文本到完整歌曲的生成。它不仅在技术上取得了突破,更重要的是,它通过完全开放的姿态,为 AI 音乐创作的未来发展提供了一个重要的公共平台和研究基准。

随手生成的一首歌你们听听,歌词也是AI生成的


整合包说明

1 支持50系显卡,最低要求英伟达显卡12G,24G内存

2 修改了自动保存生成的音乐,保存在output

3 修改了默认最长时长45秒为60秒

这个项目其实出来了一段时间了,但是我之前没关注音乐生成类的,今天试了下 感觉还可以,转了一圈发现这个整合包其实都挺多的了,但是好像没有支持50系显卡的整合包,所以就抽空了做了这个整合包

点击查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。