开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示,

专为无显卡的小伙伴打造的AI语音生成工具，小巧，免费，无字数限制，速度超快，解压即可使用 Edge-TTS-Text-to-Speech-2.0

🎙️ Edge TTS 文本转语音 - 功能说明一、核心功能表格功能说明文本转语音使用微软 Edge TTS 引擎，将输入文本转换为自然流畅的 MP3 音频长文本支持自动分段处理（每段 ≤800 字符），支持超长文本合成音频合并自动将分段音频合并为单一文件输出多国语言支持中文、英语、日语、韩语、法语、德语等数十种语言二、语音选择系统两级联动选...

2026-5-26 AI 0

AI#开源

一键克隆任意人声！VoxCPM 2.05 开源语音大模型，无需训练，3秒搞定声音复刻！支持30种语言，9种方言，支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行剑二十七二开汉化整合包 v20260505

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线（如文本分析 → 音素对齐 → 声码器），而是直接从文本生成高质量语音波形。🎯 目标：打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。🔧 核心特性（技术亮点）1. ✅ 端到端架构（End-to-End...

2026-5-4 AI,开源 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 大模型 # 效率工具 # 整合包

MOSS-TTSD+ MOSS-TTS-Nano 支持CPU运行，一个高质量的开源中文文本到语音合成系统一键整合包 v20260421 支持免费商业使用

MOSS-TTSD 是由 OpenMOSS 社区开发的一个开源项目，主要聚焦于文本到语音合成（Text-to-Speech, TTS）领域。该项目是 MOSS 系列模型生态的一部分，旨在提供高质量、低延迟的语音合成能力，适用于多种语言和场景。以下是对该项目的核心功能与技术特点的介绍说明：🎯 项目定位MOSS-TTSD 是一个专注于中文及多语...

2026-4-21 AI 0

语音 # 工具 # 日常应用 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # tts # 语音工具 # 效率工具 # 整合包

小米开源大模型AI语音合成，600种语言+声音克隆，生成速度提升40倍不限字数支持自动语气标签 OmniVoice v20260407 一键整合包

OmniVoice：600+语种的语音合成新纪元剑二十七 · 技术前沿🔹一句话了解由小米下一代 Kaldi 团队（k2-fsa）打造的超大规模多语言零样本 TTS 模型，支持600+ 语种，以卓越音质与极速推理，重新定义语音合成体验。✨ 核心能力一览🗣️全球语种覆盖支持 600+ 语言与方言，从英语、中文到低资源语种，一模型通全球。🔁声音克隆...

2026-4-7 AI 0

语音 # 工具 # 日常应用 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

一键克隆任意音色，生成自然口语级语音 1B/3.5B 双模型自由切换，还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新一键整合包

LongCat-AudioDiT 语音合成工具 - 功能说明🎯 主要功能本工具基于美团开源的 LongCat-AudioDiT 扩散模型，提供高质量的文本到语音合成，并支持零样本语音克隆（只需几秒参考音频即可克隆音色）。界面采用 Gradio 构建，操作直观，适用于中文和英文混合文本。📌 核心功能模块1. 模型选择支持 1B&nbs...

2026-4-2 AI 0

图像处理 # 图像编辑 # 批量处理 # 在线 # 免费 # webp图片

TTS开源新王炸！Ming-omni-tts：一个模型搞定语音/音乐/音效，还能听懂你的情绪指令新增支持长文本一键整合包 v20260327

Ming-omni-tts是一款高性能的统一音频生成模型，能够在单通道中实现语音、环境音和音乐的协同合成，并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模，同时保持高效的推理速度与专业的文本处理能力。🚀 核心能力1️⃣ 精细化语音控制支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性粤语方言控制准确率达93%，情绪控...

2026-3-26 AI 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具

语音识别 + 声音克隆 + 模型训练，一个工具全搞定！Easy-Voice-Toolkit v1.3.5

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱，旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性，支持多种主流语音任务，适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署：所有功能均可在本地运行，保障数据...

2026-3-10 AI,开源 0

工具 # 日常应用 # 绿色软件 # 开源 # 人工智能 # AI

"让AI有‘灵魂’的神器：开源项目免费下载，语音聊天不尬聊，打游戏能当军师，关键数据不传云端！" airi v0.8.4

Project AIRI 是一个基于大语言模型驱动的AI虚拟伴侣系统，旨在创建AI"女仆"（waifu）/虚拟角色的灵魂容器，将这些虚拟角色带入现实世界。该项目致力于重现Neuro-sama（一个知名的AI虚拟角色）的功能高度，完全由LLM和AI驱动。核心功能🎙️ 实时语音聊天支持与AI进行自然流畅的语音对话交互实现低延迟...

2026-2-7 AI,开源 0

工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

轻如羽，快如电 LuxTTS 语音克隆一键整合包 CPU也能跑，30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音（TTS）系统，专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时，显著降低了计算资源需求，适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声，无需针对目标说话人进行额外...

2026-2-6 AI,开源 0

语音 # 工具 # 日常应用 # 文本 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

Qwen3-TTS：让文字拥有灵魂的声音艺术家文字生成语音语音克隆新增多人对话一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型，于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力，包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制，为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...

2026-1-30 AI 0

语音 # 神器 # 人工智能 # AI # 文字 # 字幕 # 识别 # 利器 # 整合包

开源免费 AI语音识别转文字工具，制作视频字幕的利器 stt v20250805 整合包附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。部署或下载后，双击 start.e...

2026-1-23 AI,开源 0

语音 # 工具 # 日常应用 # 文本 # 绿色软件 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

Qwen3-TTS 通义千问推出的高质量文本转语音工具，API调用，无字数限制，批量生成，小巧，轻量，无需显卡即可快速生成语音，剑二十七二次开发一键整合包 v2060119 4.0

一、什么是 TTS？TTS（Text-To-Speech）是一种将文字转换为自然语音的技术，广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面（基于 Gradio），用户可以输入任意文本，并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...

2026-1-19 AI 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

VoiceSculptor：基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室（Audio, Speech and Language Processing Laboratory）开发的一款先进的指令式文本到语音（instruct text-to-speech）开源模型。2该项目代表了语音合成技术的前沿发展方...

2026-1-7 开源 0

工具 # 神器 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成一键整合包

GPT-SoVITS是一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成。该工具由RVC-Boss团队开发，并在GitHub上公开分享，为用户提供了一个灵活且功能丰富的平台，以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本，就能即时体...

2026-1-4 AI,开源 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

"方言通+翻译官：一个AI，能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具一键整合包 v20251217

CosyVoice：基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音（TTS）系统，目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型（LLM）架构，在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本，在内容一致性、说...

2025-12-17 AI,开源 0

工具 # 日常应用 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声？GLM-TTS 做到了！声音克隆相似度极高一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音（Text-to-Speech, TTS）系统。它基于大语言模型（LLM），专注于实现可控、富有情感表达的零样本语音克隆，并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频，即可克隆任意声音，无需微调或说...

2025-12-12 AI,开源 0

Android # 安卓 # 手机软件

不只是语音合成：MiMo-Audio 能理解、能生成、还能创作声音，一键整合包 v20251018

🎧 什么是 MiMo-Audio？MiMo-Audio 是小米推出的一个能听、会说、还能创作声音的智能 AI 模型。你可以把它想象成一个“超级语音大脑”——不仅能听懂你说的话，还能模仿你的声音说话、讲故事、主持节目，甚至帮你把一段话变成不同风格的语音（比如更温柔、更激昂）。🌟 它厉害在哪里？不用专门训练就能学会新任务（Few-Shot Lea...

2025-10-25 AI,开源 0

语音 # 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

Kani TTS：轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音（TTS）系统，致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务，适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址：https://github.com/n...

2025-10-8 AI,开源 0

语音 # 工具 # 日常应用 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

IndexTTS v2.0 重新定义中文语音合成，让AI发音比真人更懂‘断句’！AI文本转语音一键整合包支持批量生成语音+生成字幕附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音（TTS）模型。该项目在中文文本转语音领域展现出显著的技术优势和应用，以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景：重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...

2025-9-20 AI,软件 0

工具 # 绿色软件 # 音频处理 # 人工智能 # AI # 效率工具 # 整合包

开源TTS新选择：FireRedTTS2 实现高质量对话语音合成一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音（Text-to-Speech, TTS）项目，由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力，适用于多种应用场景，如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术，采用了先进的神经网络架构（如 Tacotron、FastSpee...

2025-9-16 AI,开源 0

工具 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

E2/F5-TTS AI人工智能文字转语音工具，可克隆声音，可训练，一键中文整合包已支持最新50系显卡 v1.1.7

SWivid/F5-TTS 是一个开源项目，旨在提供一个基于 Diffusion Transformer 和 ConvNeXt V2 架构的文本到语音（TTS）系统，该系统名为 F5-TTS。F5-TTS 的全称是“A Fairytaler that Fakes Fluent and Faithful Speech with Flow Mat...

2025-8-1 AI,开源 0

语音 # 工具 # 日常应用 # 绿色软件 # 开源 # 人工智能 # AI # 语音工具 # 整合包

一键克隆你的声音：Higgs-Audio 高质量的文本转语音生成开源语音生成工具中文一键整合包 v20250728

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统，基于先进的深度学习技术，能够生成高质量、自然的人声。该项目在 GitHub 上开源，提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...

2025-7-28 AI,开源 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

字节出品 MegaTTS3 - AI智能语音合成系统，文字秒变自然语音，支持多语言高质量输出 v20250725

MegaTTS3 是字节跳动开源的一个先进的文本到语音（TTS）合成系统，具有以下特点：🌟 核心特性1. 高质量语音合成基于扩散模型的语音生成技术支持高保真度的语音合成生成自然、流畅的语音输出2. 强大的语音克隆能力能够克隆特定人的声音特征只需少量参考音频即可实现声音复制保持原始音色的同时合成新内容3. 多语言支持支持中文、英文等多种语言跨语...

2025-7-25 AI,开源 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

FishAudio 推出 OpenAudio-S1-Mini：革新语音合成技术, 一键整合包 v20250627

openaudio-s1-mini 是一个开源的音频生成模型，主要特点是能够将文本高效地转换为自然流畅的语音。下面是对该模型的详细介绍：基本信息模型名称：openaudio-s1-mini开源平台：ModelScope.cn开发者：FishAudio 团队主要特点高效的文本转语音能力：该模型经过大量数据训练，能够将输入的文本快速转换为自然流畅...

2025-6-27 AI,开源 0

工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音（TTS）模型，它拥有16亿（1.6B）参数，能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力，可以直接从文本中生成高度逼真的对话，同时支持通过音频条件来控制输出，实现情感和语调的调整。主要功能高度逼真的对话生成：Dia能够直接从文本中生成高质量的对话，无需多轮处理...

2025-4-25 AI 0

工具 # 日常应用 # 文本 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 文本编辑 # 整合包

SenseVoice：解锁语音理解新高度，多语言情感识别与事件检测全攻略语音转文本一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目，旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护，基于 FunASR 工具包构建，支持多种语言和方言，包括中文、英语、粤...

2025-4-21 AI,开源 0

工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

Free-TTS_unlimted-words v1.0 AI文字生成语音，调用Edge TTS接口运行一键整合包无需要显卡即可运行

Edge TTS（Edge Text-to-Speech）是微软推出的一款基于深度学习技术的文本转语音（TTS）工具，具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点，广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术，能够生成自然流畅、接近真人...

2025-4-15 AI,开源 0

工具 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

Orpheus-TTS：AI文字合成语音，让语言更有温度一键整合包支持生成中文语音

Orpheus-TTS是一个前沿的开源文本转语音（Text-To-Speech，TTS）系统，它基于Llama-3b这一强大的大型语言模型（LLM）构建。该项目展示了在语音合成领域使用大型语言模型的新兴能力，为用户带来了前所未有的自然语音体验。Orpheus-TTS的核心优势在于其人类般的语音表现。它能够生成具有自然语调、情感和节奏的语音，这...

2025-4-15 AI,开源 0

工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

ClearerVoice-Studio AI语音增强、语音降噪工具，一键整合包，二开作品支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包，旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理，通过融合复数域深度学习算法与先进模型架构，显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术，通过FRCRN（复...

2025-3-25 AI,开源 0

工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

MeloTTS v0.1.2 AI文本生成语音工具，支持英伟达显卡+cpu运行，速度极快支持六国语言，一键整合包

MeloTTS：高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音（TTS）合成工具，其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换，支持包括英语、中文、日语、韩语在内的多种语言，尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...

2025-3-24 AI,开源 0

工具 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具

Spark-TTS 一款开源功能强大、高效且灵活的文本转语音工具一键整合包

Spark-TTS是一款先进的文本转语音（Text-to-Speech，TTS）系统，它利用大型语言模型（Large Language Model，LLM）的强大功能，实现了高度准确且自然流畅的语音合成。该系统旨在为研究和生产使用提供高效、灵活且强大的解决方案。Spark-TTS的核心优势在于其简洁性和效率。它完全基于Qwen2.5构建，无需...

2025-3-5 安卓 0

工具 # 绿色软件 # 开源 # 人工智能 # AI # 语音工具

开源 CosyVoice v20250229整合包一款AI人工智能多语言语音生成模型文字生成语音工具附效果演示

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型，旨在提升人类与大型语言模型（LLMs）之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一，专注于高质量的语音合成，能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍：一、项目背景与目的随着人工智能技术的不断发展，语音交互已成为人机交...

2025-2-28 软件 0