"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

AI,开源 2 3013

CosyVoice:基于大语言模型的先进语音合成系统

CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。

核心技术特点

Fun-CosyVoice 3.0作为最新版本,在内容一致性、说话人相似度和韵律自然度方面全面超越前代产品,专为"野外环境"(in-the-wild)下的零样本文本语音合成而设计。该项目的核心优势包括:

1. 全面的语言覆盖能力

  • 多语言支持:覆盖9种主流语言(中文、英文、日语、韩语、德语、西班牙语、法语、意大利语、俄语)

  • 中文方言:支持18+种中文方言和口音(广东、闽南、四川、东北、陕西、山西、上海、天津、山东、宁夏、甘肃等)

  • 跨语言能力:支持多语言/跨语言的零样本身音克隆

2. 专业的语音控制技术

  • 发音修复(Pronunciation Inpainting):支持对中文拼音和英文CMU音素进行精确控制,极大提升生产环境适用性

  • 指令控制:可通过自然语言指令调整语言、方言、情感、语速、音量等语音特征

  • 文本标准化:无需传统前端模块,直接处理数字、特殊符号和各种复杂文本格式

3. 高性能流式处理

  • 双向流式架构:同时支持文本输入流式处理和音频输出流式处理

  • 低延迟:在保持高质量音频输出的同时,实现低至150ms的推理延迟

  • 生产级优化:支持KV缓存、SDPA等技术优化实时吞吐率(RTF)

4. 卓越的性能指标

项目在多项权威评估中表现优异:

  • 中文测试集:字符错误率(CER)低至0.81%,说话人相似度达77.4%

  • 英文测试集:词错误率(WER)低至1.68%,说话人相似度达69.5%

  • 复杂场景:在高难度测试集上CER仅为5.44%,显著优于同类开源模型

技术演进

项目经历了清晰的技术演进路径:

  • 2024年7月:推出Flow matching训练支持和WeTextProcessing

  • 2024年8月:引入重复感知采样(RAS)和流式推理模式

  • 2024年9-12月:发布CosyVoice-300M系列和CosyVoice2-0.5B基础模型

  • 2025年:持续优化,增加vLLM支持、TensorRT-LLM加速,最终推出Fun-CosyVoice3-0.5B

应用价值

CosyVoice 不仅是一个学术研究项目,更是面向实际应用的生产级解决方案。其发音修复功能和指令控制能力使其特别适合客服系统、有声内容创作、无障碍辅助等需要精确语音控制的场景。通过开源,该项目为语音合成技术的普及和发展做出了重要贡献,推动了AI语音技术向更自然、更可控的方向发展。

随手生成一个语音 你们听下


整合包说明

1 最低8g英伟达显卡就可以愉快玩耍了

2 未修改任何功能

3 后续我会继续二次开发

20251218 更新记录

1 取消200字限制

2 生成的音频文件自动保存到output目录下

点击查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 2 条评论

  1. 积极就雨 积极就雨

    与GLM-TTS这个相比 哪个更像真人说话

    1. 剑心 剑心

      没仔细对比过 你试试

只显示最新的15条留言