文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频

2025-04-25 AI 3689

Dia是一个由Nari Labs创建的文本转语音（TTS）模型，它拥有16亿（1.6B）参数，能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力，可以直接从文本中生成高度逼真的对话，同时支持通过音频条件来控制输出，实现情感和语调的调整。

主要功能

高度逼真的对话生成：Dia能够直接从文本中生成高质量的对话，无需多轮处理或复杂的后期编辑。
音频条件控制：用户可以通过提供音频样本来控制输出的情感和语调，使生成的语音更加贴合特定的场景或需求。
非言语交流生成：除了基本的对话生成外，Dia还能生成笑声、咳嗽、清嗓子等非言语交流，使生成的语音更加自然和生动。

使用方式

预训练模型：Nari Labs提供了预训练的模型检查点和推理代码，用户可以通过这些资源快速上手并生成语音。
Demo页面：项目还提供了一个Demo页面，用户可以在其中比较Dia与其他TTS模型（如ElevenLabs Studio和Sesame CSM-1B）的表现。
安装和使用：用户可以通过GitHub上的指导安装并运行Dia。目前，项目提供了一个Gradio用户界面供用户进行交互。同时，项目也计划在未来提供pypi包和命令行工具。

技术要求

硬件要求：Dia目前仅支持在GPU上运行（需要PyTorch 2.0+和CUDA 12.6）。项目团队表示，未来会添加CPU支持。同时，由于模型需要大量的计算资源，因此建议使用性能较好的GPU。
软件依赖：除了PyTorch和CUDA外，用户还需要安装其他必要的软件依赖项，如soundfile等。

使用限制

语言支持：目前，Dia仅支持英语生成。
声音变化：由于模型没有针对特定声音进行微调，因此每次运行模型时都会生成不同的声音。为了保持说话者的一致性，用户可以添加音频提示或固定随机种子。
使用许可：该项目受Apache License 2.0保护，并明确规定了禁止的用途。用户在使用模型时必须遵守相关法律和道德规范。

未来发展

量化版本：为了减少模型的计算资源需求，项目团队计划在未来推出一个量化版本。
硬件等待名单：对于没有硬件资源或希望尝试更大版本模型的用户，可以加入项目的等待名单。

社区和支持

贡献：项目团队表示欢迎任何贡献，并鼓励用户参与项目的改进和优化。
讨论：用户可以通过Discord服务器与项目团队和其他用户进行讨论和交流。

综上所述，Dia是一个功能强大且易于使用的文本转语音模型，适用于研究和教育领域。通过提供预训练模型和丰富的使用资源，Nari Labs为用户提供了一个快速上手并生成高质量语音的平台。

整合包说明

1 未作任何修改，也未汉化

2 目前dia不支持中文，所以先关注一下看后续作者的更新

3 安装好cuda12.6

随手生成的几个语音

下载地址

迅雷网盘夸克网盘百度网盘

下载有疑问看下这里

工具绿色软件音频音频处理开源人工智能 AI 免费语音工具整合包 Tag

OmniGen：统一框架，高效灵活，图像生成从未如此简单基于最新模型一键整合包已经汉化

KaKaDa AI答题辅助工具V1.0.0.3

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

个人中心

最近更新

热门软件

下载地址