一键整合包 Step-Audio-EditX v20251112 解压即用,支持情绪/方言/语气词!让AI说话像真人一样“有血有肉”

AI,开源 2 3565

🧠 什么是 Step-Audio-EditX?

Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数(3B)的大语言模型(LLM)驱动的先进音频编辑系统,专注于 高表现力、可迭代、细粒度的语音编辑与零样本语音合成(TTS)

它不仅能高质量克隆任意人声,还能对语音的情绪、说话风格、副语言特征(如笑声、叹息等)进行精确控制,并支持多轮迭代编辑,让合成语音更自然、更富表现力。


✨ 核心功能亮点

1. 零样本语音克隆(Zero-Shot TTS)

  • 仅需 1 段参考音频 + 对应文本,即可克隆出目标说话人的声音。

  • 支持 多种语言/方言:普通话、英语、四川话、粤语等。

    • 使用方式:在文本前加标签,如 [Sichuanese] 今天天气真好!

2. 情绪编辑(Emotion Editing)

  • 支持 8+ 种情绪控制:愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等。

  • 可对已有语音 多次迭代优化情绪表现,越调越精准。

3. 说话风格编辑(Speaking Style Editing)

  • 支持 多种说话风格:撒娇、老年音、儿童音、耳语、严肃、夸张等。

  • 同样支持迭代优化,风格控制更细腻。

4. 副语言编辑(Paralinguistic Editing)

  • 支持 10 种自然口语特征 的插入与控制:

    • [Laughter](笑声)、[Sigh](叹息)、[Uhm](嗯…)、[Breathing](呼吸声)等。

  • 示例:
    "今天[Laughter]真是个好日子[Surprise-ah]!" → 生成带自然语气的语音。

5. 可迭代编辑(Iterative Editing)

  • 所有编辑操作(情绪/风格/副语言)都支持多轮叠加,实现精细调控。

  • 每次编辑都基于上一轮输出,逐步逼近理想效果。

✨ 它能做什么?举个例子你就懂了:

1. 克隆声音(就像复制一个人说话)

  • 你上传一段朋友说“你好”的录音,

  • 再告诉 AI:“让他用同样的声音说‘今天天气真好’”,

  • 它就能生成一模一样语气和音色的新语音!
    👉 适合做配音、数字人、短视频配音等。

支持中文、英文、四川话、粤语,只需要在文字前加个标签就行,比如:[四川话]今天巴适得很!


2. 改变情绪(让声音变开心、生气、伤心……)

  • 原录音是平淡地说“我赢了”。

  • 你可以让它变成:“我赢了!”(兴奋地喊出来
    或者:“我赢了……”(伤心地说

  • 而且可以反复调整,越调越像你想要的感觉。


3. 改变说话风格(变小孩音、老人音、耳语、撒娇……)

  • 想让AI用“撒娇语气”说话?可以!

  • 想变成“老奶奶讲故事”的声音?也可以!

  • 甚至能模仿“夸张的播音腔”或“悄悄话耳语”。


4. 加自然语气词(让AI说话更像真人)

真人说话会带“嗯…”、“哈!”、“哎呀~”、叹气、笑声……
这个工具支持加这些细节,比如:

“今天[Laughter]真是太幸运了[Surprise-ah]!”

生成的语音就会有真实的笑声和惊讶语气,听起来不机械、更自然!

总结一句话:

Step-Audio-EditX 就是一个“声音 Photoshop”——你可以用它克隆声音、改情绪、调语气,让AI说话像真人一样自然又生动。

适合做视频、做数字人、配音、语音创作,普通人也能上手!

整合包说明

1 最低要求英伟达显卡12G 显存,内存24G+  

2 未修改任何官方任何代码

点击查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 2 条评论

  1. 啤酒故意 啤酒故意

    先评再试

  2. 碧蓝用银耳汤 碧蓝用银耳汤

    果真是神奇?

只显示最新的15条留言