🧠 什么是 Step-Audio-EditX?
Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数(3B)的大语言模型(LLM)驱动的先进音频编辑系统,专注于 高表现力、可迭代、细粒度的语音编辑与零样本语音合成(TTS)。
它不仅能高质量克隆任意人声,还能对语音的情绪、说话风格、副语言特征(如笑声、叹息等)进行精确控制,并支持多轮迭代编辑,让合成语音更自然、更富表现力。
✨ 核心功能亮点
1. 零样本语音克隆(Zero-Shot TTS)
仅需 1 段参考音频 + 对应文本,即可克隆出目标说话人的声音。
支持 多种语言/方言:普通话、英语、四川话、粤语等。
使用方式:在文本前加标签,如
[Sichuanese] 今天天气真好!
2. 情绪编辑(Emotion Editing)
支持 8+ 种情绪控制:愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等。
可对已有语音 多次迭代优化情绪表现,越调越精准。
3. 说话风格编辑(Speaking Style Editing)
支持 多种说话风格:撒娇、老年音、儿童音、耳语、严肃、夸张等。
同样支持迭代优化,风格控制更细腻。
4. 副语言编辑(Paralinguistic Editing)
支持 10 种自然口语特征 的插入与控制:
[Laughter](笑声)、[Sigh](叹息)、[Uhm](嗯…)、[Breathing](呼吸声)等。示例:
"今天[Laughter]真是个好日子[Surprise-ah]!"→ 生成带自然语气的语音。
5. 可迭代编辑(Iterative Editing)
所有编辑操作(情绪/风格/副语言)都支持多轮叠加,实现精细调控。
每次编辑都基于上一轮输出,逐步逼近理想效果。
✨ 它能做什么?举个例子你就懂了:
1. 克隆声音(就像复制一个人说话)
你上传一段朋友说“你好”的录音,
再告诉 AI:“让他用同样的声音说‘今天天气真好’”,
它就能生成一模一样语气和音色的新语音!
👉 适合做配音、数字人、短视频配音等。
支持中文、英文、四川话、粤语,只需要在文字前加个标签就行,比如:
[四川话]今天巴适得很!
2. 改变情绪(让声音变开心、生气、伤心……)
原录音是平淡地说“我赢了”。
你可以让它变成:“我赢了!”(兴奋地喊出来)
或者:“我赢了……”(伤心地说)而且可以反复调整,越调越像你想要的感觉。
3. 改变说话风格(变小孩音、老人音、耳语、撒娇……)
想让AI用“撒娇语气”说话?可以!
想变成“老奶奶讲故事”的声音?也可以!
甚至能模仿“夸张的播音腔”或“悄悄话耳语”。
4. 加自然语气词(让AI说话更像真人)
真人说话会带“嗯…”、“哈!”、“哎呀~”、叹气、笑声……
这个工具支持加这些细节,比如:
“今天[Laughter]真是太幸运了[Surprise-ah]!”
生成的语音就会有真实的笑声和惊讶语气,听起来不机械、更自然!
总结一句话:
Step-Audio-EditX 就是一个“声音 Photoshop”——你可以用它克隆声音、改情绪、调语气,让AI说话像真人一样自然又生动。
适合做视频、做数字人、配音、语音创作,普通人也能上手!





整合包说明
1 最低要求英伟达显卡12G 显存,内存24G+
2 未修改任何官方任何代码
先评再试
果真是神奇?