这个开源AI，让你0基础创作歌曲 YuE v20250902 支持50系显卡，最低英伟达12G 显卡

2025-09-01 AI,开源 3424

YuE 是由 Multimodal Art Projection (MAP) 团队推出的开源音乐生成基础模型项目，旨在推动开放、可控、高质量的 AI 音乐生成技术发展。该项目专注于实现从文本（如歌词和风格描述）到完整歌曲的端到端生成，是当前 AI 音乐领域中一个功能强大且具有前瞻性的开源解决方案。

核心特点与技术亮点

全曲生成 (Full-Song Generation):

YuE 的核心目标是生成完整的、结构化的歌曲，而不仅仅是几秒钟的片段。它能够处理包含 Verse（主歌）、Chorus（副歌）、Bridge（桥段）等多个段落的长序列歌词，并生成连贯、有结构的音乐。

多模态输入控制:

文本驱动: 用户可以通过输入歌词 (Lyrics) 和风格描述 (Genre) 来精确控制生成音乐的内容和风格。例如，可以指定“rap piano street tough vocal hip-hop”来生成一首硬核说唱。
音频提示 (Audio Prompt): 模型支持使用一段音频作为“提示”或“参考”，让生成的音乐在音色、旋律或节奏上与之保持一致，实现风格迁移或续写。

先进的模型架构:

第一阶段: 使用一个经过专门训练的 7B 参数大语言模型（如 YuE-s1-7B-anneal-en-cot）来理解歌词和风格指令，并生成一种特殊的“音频标记”（audio tokens）序列。这个过程将音乐生成问题转化为一个序列生成问题。
第二阶段: 使用一个高性能的神经音频编解码器（xcodec_mini_infer）将第一阶段生成的标记序列解码回真实的、高保真的波形音频。这个编解码器基于 SoundStream 架构，并进行了优化，以保证音质。
大语言模型 (LLM) + 专业音频编解码器: YuE 采用了创新的两阶段架构。

开源与开放性:

该项目完全开源，代码、模型权重（在 Hugging Face 上托管）和演示（Gradio Space）都对公众开放。
其目标是建立一个开放的音乐生成生态系统，鼓励研究者和开发者共同参与，推动该领域的发展。

总结

YuE 是一个雄心勃勃的开源项目，它将大语言模型的强大生成能力与专业的音频处理技术相结合，成功实现了从文本到完整歌曲的生成。它不仅在技术上取得了突破，更重要的是，它通过完全开放的姿态，为 AI 音乐创作的未来发展提供了一个重要的公共平台和研究基准。

随手生成的一首歌你们听听，歌词也是AI生成的

整合包说明

1 支持50系显卡，最低要求英伟达显卡12G，24G内存

2 修改了自动保存生成的音乐，保存在output

3 修改了默认最长时长45秒为60秒

这个项目其实出来了一段时间了，但是我之前没关注音乐生成类的，今天试了下感觉还可以，转了一圈发现这个整合包其实都挺多的了，但是好像没有支持50系显卡的整合包，所以就抽空了做了这个整合包

下载地址

迅雷网盘夸克网盘百度网盘

下载有疑问看下这里

工具音乐绿色软件字体开源人工智能 AI 整合包音乐生成 Tag

Shark007Codecs 一款功能强大的视频解码器 v20.3.2

"字节跳动放大招：AI绘画终于能'换装不换人'了！" 能保持主体一致性 USO v20250903 一键整合包

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

个人中心

最近更新

热门软件

下载地址