文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频,

AI 工具 # 日常应用 # 视频处理 # 音乐 # 绿色软件 # 音频处理 # 人工智能 # AI # 效率工具 # 整合包

音乐卡点视频一键生成支持图片+视频素材新增镜头分镜切割+人声分离+ MTV 模式+音频编辑支持A卡和N卡剑二十七原创作品 KA v20260316

卡点视频生成器是一款基于 AI大模型智能视频自动生成工具，专为音乐爱好者、短视频创作者、自媒体运营者设计。它能根据你上传的音乐节拍/鼓点，自动从指定图片或视频素材中智能选取片段，生成节奏精准、视觉流畅的“卡点”视频，适用于抖音、快手、B站、Instagram 等平台。无需剪辑经验，一键生成专业级卡点视频！🎯 核心功能1. 🖼️ 图片卡点模式...

2026-3-16 AI 9847 0

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具

语音识别 + 声音克隆 + 模型训练，一个工具全搞定！Easy-Voice-Toolkit v1.3.5

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱，旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性，支持多种主流语音任务，适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署：所有功能均可在本地运行，保障数据...

2026-3-10 AI,开源 4301 0

开源日常应用 # 视频处理 # 音频 # 音频处理 # 开源 # 免费 # 文本编辑 # 中文版

开源免费 Buzz 视频语音转成TXT、SRT、VTT工具无需联网中文版 v1.4.3

先说下我亲测的一些心得默认转化后的语言是英文记得要改成chinese音乐不能转化，比如我截图前面是一首beyond的歌就无法转化出来文字转化速度还不错。选择模型的话第一次需要下载模型到本地可能会要几分钟，后面就是离线操作了速度很快Buzz 功能导入音频和视频文件并导出文本到 TXT、SRT 和 VTT从你计算机的麦克风转录...

2026-2-9 开源 4962 5

开源音频 # 音频处理 # 开源 # 人工智能 # AI # 语音识别 # 免费 # 离线

开源离线语音识别输入工具CapsWriter ——支持无限时长语音+音视频文件转录字幕 v2.4

CapsWriter 是一款免费开源且可完全离线识别的语音输入工具，无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统，已经更新融合了语音输入以及音视频文件实现字幕转录的功能。相比某些必须在线识别又或者需要付费又有时长限制的app、软件或网站而言，此款良心多了，基本能满足大部分场合需求如会议记录或键盘失灵等。有需自取~~~...

2026-2-7 开源 5072 7

AI#开源工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

轻如羽，快如电 LuxTTS 语音克隆一键整合包 CPU也能跑，30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音（TTS）系统，专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时，显著降低了计算资源需求，适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声，无需针对目标说话人进行额外...

2026-2-6 AI,开源 4112 23

软件工具 # 音频处理 # 人工智能 # AI

免费 AI 人声替换AI 唱歌伴奏分离软件 Replay 附视频演示和教程 v8.7.0

上面是这个工具的视频演示和教程。基本上是有手就行了。早几天分享的文字转语音工具，有小伙伴在问是否有人声替换工具？今天分享这个的工具不仅是人声替换，还可以分离人声，AI唱歌就太简单了。像网上流传很广的孙燕姿唱周杰伦的歌这类的视频和教程已经很多了。我之前也不是没有研究过，但是一直没有分享是因为这类教程对于普通的小伙伴来讲入门的门槛有点高，操作...

2026-2-6 软件 2.4万 57

AI 语音 # 工具 # 日常应用 # 文本 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

Qwen3-TTS：让文字拥有灵魂的声音艺术家文字生成语音语音克隆新增多人对话一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型，于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力，包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制，为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...

2026-1-30 AI 6202 6

开源工具 # 音频处理 # 开源 # 音效工具 # 虚拟音效

免费开源虚拟声音效增强器FxSound 2 Pro 数字媒体音效增强工具中文免费版 v1.2.5.0

Fxsound 是一款免费无广告的且功能强大音效增强神器。通过对比输出声音的算法优化，让声音听起来更清晰，音质效果大幅提升。而且均衡器定制性强，内置多种预设，包含：3D环绕音响、超重低音、立体声音场、高保真还原、动态增强等等。自从由之前的付费转为免费软件之后，对于上古机型的声卡有较大的音质提升效果。软件特色：增强声音：全新算法改进音质提高音质...

2026-1-27 开源 5564 8

开源工具 # 系统工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

开源简易语音工具包用于语音识别、语音转录、语音转换等。Easy-Voice-Toolkit v1.3.4

🎙️ Easy-Voice-Toolkit —— 一体化开源语音处理工具箱将复杂的语音 AI 技术封装为直观易用的自动化工作流，零门槛构建从音频输入到语音合成的完整 pipeline。🔍 项目定位Easy-Voice-Toolkit 是一个模块化、全流程的语音处理平台，整合 Whisper、GPT-SoVITS 等主流开源技术，通过图形化界面...

2026-1-26 开源 5097 7

AI#开源工具 # 日常应用 # 音乐 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

输入歌词，AI自动作曲：你的音乐创作助手 HeartMuLa 一键中文整合包 v20260126

HeartMuLa/heartlib：开源音乐基础模型家族深度解析项目定位与愿景HeartMuLa是一个全面的开源音乐基础模型家族，旨在推动跨任务与多模态的大规模音乐理解与生成技术发展。该项目不仅仅是一个单一的模型，而是一个完整的生态系统，涵盖了从音乐理解到完整曲目生成的全链条能力。其核心目标是为研究社区和开发者提供可复现、可扩展的音乐AI工...

2026-1-26 AI,开源 7057 11

软件工具 # 音频 # 音频处理 # 人工智能 # AI

Echo(回声) 文字合成语音声音克隆AI工具 v1.1.0

B站UP主凯凯-你好开发的一款文字合成语音声音克隆工具，免费使用，操作简单“灵声妙语”是一款集创新、高效、个性化于一体的智能声音工具软件，它以其极简的设计风格、卓越的性能表现以及全球多平台覆盖的能力，赢得了广大用户的青睐。该软件以“让创意更简单，让艺术走进生活”为核心理念，致力于为用户提供极致的用户体验。从下载安装的那一刻起，用户就能感受...

2026-1-22 软件 4786 4

软件工具 # 绿色软件 # 音频处理

多图预览跨平台音频编辑工具 ocenaudio 绿色免安装可批量处理 v3.17.1

最近我正好需要编辑下音频，无意中居然发现我很久以前就分享了这个工具，这次截图多一点，让小伙伴能更好的看看这个强大的音频编辑工具，可以批量处理。ocenaudio 中文版是一款跨平台，易于使用，快速且功能强大的音频编辑器。对于需要编辑和分析音频文件而无需复杂的人来说，它是理想的软件。 ocenaudio 还具有强大的功能，可以满足更多高级用户的...

2026-1-20 软件 4325 3

开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

VoiceSculptor：基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室（Audio, Speech and Language Processing Laboratory）开发的一款先进的指令式文本到语音（instruct text-to-speech）开源模型。2该项目代表了语音合成技术的前沿发展方...

2026-1-7 开源 2470 0

AI#开源工具 # 神器 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成一键整合包

GPT-SoVITS是一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成。该工具由RVC-Boss团队开发，并在GitHub上公开分享，为用户提供了一个灵活且功能丰富的平台，以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本，就能即时体...

2026-1-4 AI,开源 1万 4

软件工具 # 音频处理 # 开源 # 免费

多图预览开源线谱打谱软件 MuseScore 中文多语免费版 v4.6.5

介绍MuseScore是一款功能强大的乐谱编辑软件，它以其跨平台、免费开源的特点，在音乐创作和乐谱编辑领域广受好评。以下是对MuseScore的详细介绍：一、软件概述MuseScore（中文有时译作缪斯乐谱或谬斯乐谱）是一个支持Linux、Microsoft Windows和Mac操作系统的乐谱编辑软件。它以其所见即所得的编辑器特性，让用户能...

2026-1-1 软件 2717 0

开源工具 # 绿色软件 # 音频处理 # 开源 # 音频编辑 # 免费

多图预览开源免费音频编辑裁剪与转换工具 Audacity v3.7.7

这几天因为要处理一些音频，就顺便把网站上一些音频处理工具更新下。希望有类似要求的小伙伴也可以用得上。Audacity是一款免费的开源音频编辑器，它提供了许多实用的音频裁剪、编辑和混音功能，可以让用户在音频处理方面进行更多的创作和实践。下面我将详细介绍Audacity的特点和功能。1、跨平台支持：Audacity可在Windows、Mac OS...

2025-12-31 开源 3166 1

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

"方言通+翻译官：一个AI，能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具一键整合包 v20251217

CosyVoice：基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音（TTS）系统，目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型（LLM）架构，在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本，在内容一致性、说...

2025-12-17 AI,开源 4202 2

AI#开源工具 # 日常应用 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声？GLM-TTS 做到了！声音克隆相似度极高一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音（Text-to-Speech, TTS）系统。它基于大语言模型（LLM），专注于实现可控、富有情感表达的零样本语音克隆，并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频，即可克隆任意声音，无需微调或说...

2025-12-12 AI,开源 3703 4

AI#开源工具 # 日常应用 # 音乐 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面不卡死，速度快英伟达显卡6g即可运行, 一键整合包

DiffRhythm：基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目，旨在通过创新的差分节奏建模（Differential Rhythm Modeling）框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术，从节奏这一音乐核心要素出发，构建了具有强解释性和泛化能力的分类模型。其代码已...

2025-12-7 AI,开源 5370 6

开源工具 # 音乐 # 音频处理 # 开源 # 多图预览

OpenUTAU 一款开源且免费的音频编辑和音高调整软件 v0.1.565

OpenUtau是一款开源且免费的音频编辑和音高调整软件，专为歌曲创作、翻唱制作以及声音设计而生。它基于Utau的源代码进行开发，但进行了诸多改进和优化，提供了更为强大和灵活的功能。OpenUtau的核心特色在于其强大的音高编辑能力。用户可以通过简单的拖拽操作，对音频文件中的音高进行精准调整，从而制作出完美的和声或翻唱版本。这种直观的编辑方式...

2025-12-3 开源 6405 1

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

一键整合包 Step-Audio-EditX v20251112 解压即用，支持情绪/方言/语气词！让AI说话像真人一样“有血有肉”

🧠 什么是 Step-Audio-EditX？Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数（3B）的大语言模型（LLM）驱动的先进音频编辑系统，专注于高表现力、可迭代、细粒度的语音编辑与零样本语音合成（TTS）。它不仅能高质量克隆任意人声，还能对语音的情绪、说话风格、副语言特征（如笑声、叹息等）...

2025-11-12 AI,开源 4203 2

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 大模型 # 效率工具 # 整合包

MOSS-TTSD：一个高质量的开源中文文本到语音合成系统一键整合包 v20251104 支持免费商业使用

MOSS-TTSD 是由 OpenMOSS 社区开发的一个开源项目，主要聚焦于文本到语音合成（Text-to-Speech, TTS）领域。该项目是 MOSS 系列模型生态的一部分，旨在提供高质量、低延迟的语音合成能力，适用于多种语言和场景。以下是对该项目的核心功能与技术特点的介绍说明：🎯 项目定位MOSS-TTSD 是一个专注于中文及多语...

2025-11-3 AI,开源 6605 11

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

AI 播客：一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发一键整合包 v20251103

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成（TTS）系统，专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。🔍 项目核心特点1. 长篇多轮多说话人对话生成支持生成多人交替对话的播客内容（如主持人 + 嘉宾）；能处理长文本输入，保持语音连贯性和角色一致性；适...

2025-11-3 AI,开源 4519 1

AI#开源语音 # 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

Kani TTS：轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音（TTS）系统，致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务，适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址：https://github.com/n...

2025-10-8 AI,开源 5175 0

AI#软件语音 # 工具 # 日常应用 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

IndexTTS v2.0 重新定义中文语音合成，让AI发音比真人更懂‘断句’！AI文本转语音一键整合包支持批量生成语音+生成字幕附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音（TTS）模型。该项目在中文文本转语音领域展现出显著的技术优势和应用，以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景：重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...

2025-9-20 AI,软件 2万 51

AI#开源工具 # 绿色软件 # 音频处理 # 人工智能 # AI # 效率工具 # 整合包

开源TTS新选择：FireRedTTS2 实现高质量对话语音合成一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音（Text-to-Speech, TTS）项目，由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力，适用于多种应用场景，如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术，采用了先进的神经网络架构（如 Tacotron、FastSpee...

2025-9-16 AI,开源 1.8万 16

AI#开源工具 # 视频处理 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

腾讯AI会“配音”了！给视频能自动配上声音+音乐一键整合包 HunyuanVideo-Foley v20250830

HunyuanVideo-Foley 是一个基于深度学习的音效生成系统，能够根据输入的视频内容，自动识别其中的视觉动作和场景（如脚步、关门、物体碰撞等），并生成与之同步、逼真的环境音效或动作音效。这类技术在影视后期、短视频制作、游戏开发、虚拟现实等领域具有广泛的应用前景，能够显著降低人工配音效的成本和时间。🔧 核心功能视频驱动音效生成（Vid...

2025-8-29 AI,开源 4274 16

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

字节出品 MegaTTS3 - AI智能语音合成系统，文字秒变自然语音，支持多语言高质量输出 v20250725

MegaTTS3 是字节跳动开源的一个先进的文本到语音（TTS）合成系统，具有以下特点：🌟 核心特性1. 高质量语音合成基于扩散模型的语音生成技术支持高保真度的语音合成生成自然、流畅的语音输出2. 强大的语音克隆能力能够克隆特定人的声音特征只需少量参考音频即可实现声音复制保持原始音色的同时合成新内容3. 多语言支持支持中文、英文等多种语言跨语...

2025-7-25 AI,开源 5646 0

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

FishAudio 推出 OpenAudio-S1-Mini：革新语音合成技术, 一键整合包 v20250627

openaudio-s1-mini 是一个开源的音频生成模型，主要特点是能够将文本高效地转换为自然流畅的语音。下面是对该模型的详细介绍：基本信息模型名称：openaudio-s1-mini开源平台：ModelScope.cn开发者：FishAudio 团队主要特点高效的文本转语音能力：该模型经过大量数据训练，能够将输入的文本快速转换为自然流畅...

2025-6-27 AI,开源 4675 13

软件工具 # 日常应用 # 视频处理 # 绿色软件 # 音频处理 # 效率工具

图片加音乐转视频,傻瓜卡点神器人工智障全自动卡点神器 v3.9

简介： “图片加音乐转视频，傻瓜卡点神器”是一款专为视频创作者设计的工具，旨在简化将图片和音乐结合生成视频的过程。这款工具特别适合那些在视频编辑软件中进行卡点操作时感到困难的用户。它提供了一种简单、直观的方式来创建具有音乐节奏的视频，无需复杂的编辑技巧。功能特点：时长控制：用户可以根据音频的长度和可用图片的数量，灵活控制视频的时长。如果音频时...

2025-6-14 软件 4781 0

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

一键提取伴奏/人声！轻松搞定音乐音轨分离支持批量处理开源一键整合包 6G N卡就可以愉快玩耍 UVR5 UI v1.8.4

UVR5-UI是基于 python-audio-separator（即 UVR5 的命令行版本）开发的，提供了友好的可视化界面，使得用户无需掌握编程知识或命令行操作即可使用强大的音频处理功能。它支持多种模型和功能，包括：所有主流音源分离模型：VR Arch 模型MDX-NET 模型Demucs v4 模型Mel-Band Roformer 和...

2025-5-24 AI,开源 5318 3

AI 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音（TTS）模型，它拥有16亿（1.6B）参数，能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力，可以直接从文本中生成高度逼真的对话，同时支持通过音频条件来控制输出，实现情感和语调的调整。主要功能高度逼真的对话生成：Dia能够直接从文本中生成高质量的对话，无需多轮处理...

2025-4-25 AI 3305 0