文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

AI 3112

Dia是一个由Nari Labs创建的文本转语音(TTS)模型,它拥有16亿(1.6B)参数,能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力,可以直接从文本中生成高度逼真的对话,同时支持通过音频条件来控制输出,实现情感和语调的调整。

主要功能

  1. 高度逼真的对话生成:Dia能够直接从文本中生成高质量的对话,无需多轮处理或复杂的后期编辑。

  2. 音频条件控制:用户可以通过提供音频样本来控制输出的情感和语调,使生成的语音更加贴合特定的场景或需求。

  3. 非言语交流生成:除了基本的对话生成外,Dia还能生成笑声、咳嗽、清嗓子等非言语交流,使生成的语音更加自然和生动。

使用方式

  1. 预训练模型:Nari Labs提供了预训练的模型检查点和推理代码,用户可以通过这些资源快速上手并生成语音。

  2. Demo页面:项目还提供了一个Demo页面,用户可以在其中比较Dia与其他TTS模型(如ElevenLabs Studio和Sesame CSM-1B)的表现。

  3. 安装和使用:用户可以通过GitHub上的指导安装并运行Dia。目前,项目提供了一个Gradio用户界面供用户进行交互。同时,项目也计划在未来提供pypi包和命令行工具。

技术要求

  1. 硬件要求:Dia目前仅支持在GPU上运行(需要PyTorch 2.0+和CUDA 12.6)。项目团队表示,未来会添加CPU支持。同时,由于模型需要大量的计算资源,因此建议使用性能较好的GPU。

  2. 软件依赖:除了PyTorch和CUDA外,用户还需要安装其他必要的软件依赖项,如soundfile等。

使用限制

  1. 语言支持:目前,Dia仅支持英语生成。

  2. 声音变化:由于模型没有针对特定声音进行微调,因此每次运行模型时都会生成不同的声音。为了保持说话者的一致性,用户可以添加音频提示或固定随机种子。

  3. 使用许可:该项目受Apache License 2.0保护,并明确规定了禁止的用途。用户在使用模型时必须遵守相关法律和道德规范。

未来发展

  1. 量化版本:为了减少模型的计算资源需求,项目团队计划在未来推出一个量化版本。

  2. 硬件等待名单:对于没有硬件资源或希望尝试更大版本模型的用户,可以加入项目的等待名单。

社区和支持

  1. 贡献:项目团队表示欢迎任何贡献,并鼓励用户参与项目的改进和优化。

  2. 讨论:用户可以通过Discord服务器与项目团队和其他用户进行讨论和交流。

综上所述,Dia是一个功能强大且易于使用的文本转语音模型,适用于研究和教育领域。通过提供预训练模型和丰富的使用资源,Nari Labs为用户提供了一个快速上手并生成高质量语音的平台。

2025-04-25_13-44-04.png

整合包说明

1 未作任何修改,也未汉化

2 目前dia不支持中文,所以先关注一下看后续作者的更新

3 安装好cuda12.6 

随手生成的几个语音

点击查看

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。