一键克隆任意音色,生成自然口语级语音  1B/3.5B 双模型自由切换,还原你最真实的声音  LongCat-AudioDiT v1.0 20260402 更新 一键整合包

一键克隆任意音色,生成自然口语级语音 1B/3.5B 双模型自由切换,还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新 一键整合包

LongCat-AudioDiT 语音合成工具 - 功能说明🎯 主要功能本工具基于美团开源的 LongCat-AudioDiT 扩散模型,提供高质量的文本到语音合成,并支持零样本语音克隆(只需几秒参考音频即可克隆音色)。界面采用 Gradio 构建,操作直观,适用于中文和英文混合文本。📌 核心功能模块1. 模型选择支持 1B&nbs...
AI 0
专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-1.0

专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-1.0

🎙️ Edge TTS 文本转语音 - 功能说明一、核心功能表格功能说明文本转语音使用微软 Edge TTS 引擎,将输入文本转换为自然流畅的 MP3 音频长文本支持自动分段处理(每段 ≤800 字符),支持超长文本合成音频合并自动将分段音频合并为单一文件输出多国语言支持中文、英语、日语、韩语、法语、德语等数十种语言二、语音选择系统两级联动选...
AI 0
TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 新增支持长文本 一键整合包 v20260327

TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 新增支持长文本 一键整合包 v20260327

Ming-omni-tts是一款高性能的统一音频生成模型,能够在单通道中实现语音、环境音和音乐的协同合成,并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模,同时保持高效的推理速度与专业的文本处理能力。🚀 核心能力1️⃣ 精细化语音控制支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性粤语方言控制准确率达93%,情绪控...
AI 0
语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱,旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性,支持多种主流语音任务,适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署:所有功能均可在本地运行,保障数据...
AI,开源 0
开源 免费  Buzz  视频语音转成TXT、SRT、VTT工具 无需联网 中文版 v1.4.3

开源 免费 Buzz 视频语音转成TXT、SRT、VTT工具 无需联网 中文版 v1.4.3

先说下我亲测的一些心得默认转化后的语言是英文 记得要改成chinese音乐不能转化,比如我截图前面是一首beyond的歌 就无法转化出来文字转化速度还不错。选择模型的话 第一次需要下载模型到本地可能会要几分钟,后面就是离线操作了 速度很快Buzz  功能导入音频和视频文件并导出文本到 TXT、SRT 和 VTT从你计算机的麦克风转录...
开源 0
开源离线语音识别输入工具CapsWriter ——支持无限时长语音+音视频文件转录字幕 v2.4

开源离线语音识别输入工具CapsWriter ——支持无限时长语音+音视频文件转录字幕 v2.4

CapsWriter 是一款免费开源且可完全离线识别的语音输入工具,无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统,已经更新融合了语音输入以及音视频文件实现字幕转录的功能。相比某些必须在线识别又或者需要付费又有时长限制的app、软件或网站而言,此款良心多了,基本能满足大部分场合需求如会议记录或键盘失灵等。有需自取~~~...
开源 0
"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.8.4

"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.8.4

Project AIRI 是一个基于大语言模型驱动的AI虚拟伴侣系统,旨在创建AI"女仆"(waifu)/虚拟角色的灵魂容器,将这些虚拟角色带入现实世界。该项目致力于重现Neuro-sama(一个知名的AI虚拟角色)的功能高度,完全由LLM和AI驱动。核心功能🎙️ 实时语音聊天支持与AI进行自然流畅的语音对话交互实现低延迟...
AI,开源 0
轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外...
AI,开源 0
Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...
AI 0
开源 简易语音工具包 用于语音识别、语音转录、语音转换等。Easy-Voice-Toolkit  v1.3.4

开源 简易语音工具包 用于语音识别、语音转录、语音转换等。Easy-Voice-Toolkit v1.3.4

🎙️ Easy-Voice-Toolkit —— 一体化开源语音处理工具箱将复杂的语音 AI 技术封装为直观易用的自动化工作流,零门槛构建从音频输入到语音合成的完整 pipeline。🔍 项目定位Easy-Voice-Toolkit 是一个模块化、全流程的语音处理平台,整合 Whisper、GPT-SoVITS 等主流开源技术,通过图形化界面...
开源 0
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
AI,开源 0
Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

一、什么是 TTS?TTS(Text-To-Speech)是一种将文字转换为自然语音的技术,广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面(基于 Gradio),用户可以输入任意文本,并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...
AI 0
 VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室(Audio, Speech and Language Processing Laboratory)开发的一款先进的指令式文本到语音(instruct text-to-speech)开源模型。2该项目代表了语音合成技术的前沿发展方...
开源 0
GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体...
AI,开源 0
"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 0
DouyinLivetts v1.0.6 开源的抖音弹幕抓取,实现的tts语音播放

DouyinLivetts v1.0.6 开源的抖音弹幕抓取,实现的tts语音播放

DouyinLivetts 是一款专注于抖音直播场景的开源文本转语音(TTS)工具,由开发者xiamuceer-j维护,旨在帮助主播实现高效、实时的语音内容生成。该工具通过集成先进的TTS引擎,将文字内容快速转换为自然流畅的语音,解决了直播过程中手动配音效率低、实时性差的问题。核心功能与技术特点多引擎支持工具支持主流TTS服务(如阿里云、腾讯...
开源 0
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 0
一键克隆任意人声!VoxCPM 1.5 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开汉化整合包 v20251207

一键克隆任意人声!VoxCPM 1.5 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开汉化整合包 v20251207

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。🔧 核心特性(技术亮点)1. ✅ 端到端架构(End-to-End...
AI,开源 0
开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU 聊天机器人 gpt4all v3.10.0 附最新模型 支持deepseek

开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU 聊天机器人 gpt4all v3.10.0 附最新模型 支持deepseek

上面是教程开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU安装极其简单,基本就是点几下,然后倒入模型后就可以使用,无须联网。免费,无任何限制。我玩了好多天了,很稳定。效率也不错,才分享出来的。GPT4All是一款引人注目的软件,它为用户提供了一个在本地设备上运行大型语言模型(LLM)的平台。无需昂贵的硬件或持续的网络连接,GPT...
开源 0
MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD 是由 OpenMOSS 社区开发的一个开源项目,主要聚焦于 文本到语音合成(Text-to-Speech, TTS)领域。该项目是 MOSS 系列模型生态的一部分,旨在提供高质量、低延迟的语音合成能力,适用于多种语言和场景。以下是对该项目的核心功能与技术特点的介绍说明:🎯 项目定位MOSS-TTSD 是一个专注于中文及多语...
AI,开源 0
不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

🎧 什么是 MiMo-Audio?MiMo-Audio 是小米推出的一个能听、会说、还能创作声音的智能 AI 模型。你可以把它想象成一个“超级语音大脑”——不仅能听懂你说的话,还能模仿你的声音说话、讲故事、主持节目,甚至帮你把一段话变成不同风格的语音(比如更温柔、更激昂)。🌟 它厉害在哪里?不用专门训练就能学会新任务(Few-Shot Lea...
AI,开源 0
Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包  v20251008

Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音(TTS)系统,致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务,适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址:https://github.com/n...
AI,开源 0
IndexTTS  v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...
AI,软件 0
开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力,适用于多种应用场景,如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术,采用了先进的神经网络架构(如 Tacotron、FastSpee...
AI,开源 0
免费 开源 轻量级虚拟机 VirtualBox 官方版 支持多国语音(包括中文) v7.2.0-170228

免费 开源 轻量级虚拟机 VirtualBox 官方版 支持多国语音(包括中文) v7.2.0-170228

写在最前面,这是我最喜欢的一款虚拟机了没有之一。界面简洁,运行速度快,而且耗费资源相对小。关键还是免费开源。VirtualBox是一款备受赞誉的开源虚拟机软件,由德国Innotek公司开发,后被Sun Microsystems公司收购,并在Sun被Oracle收购后正式更名为Oracle VM VirtualBox。VirtualBox以其免...
软件,开源 0
E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

SWivid/F5-TTS 是一个开源项目,旨在提供一个基于 Diffusion Transformer 和 ConvNeXt V2 架构的文本到语音(TTS)系统,该系统名为 F5-TTS。F5-TTS 的全称是“A Fairytaler that Fakes Fluent and Faithful Speech with Flow Mat...
AI,开源 0
一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统,基于先进的深度学习技术,能够生成高质量、自然的人声。该项目在 GitHub 上开源,提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...
AI,开源 0
字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

MegaTTS3 是字节跳动开源的一个先进的文本到语音(TTS)合成系统,具有以下特点:🌟 核心特性1. 高质量语音合成基于扩散模型的语音生成技术支持高保真度的语音合成生成自然、流畅的语音输出2. 强大的语音克隆能力能够克隆特定人的声音特征只需少量参考音频即可实现声音复制保持原始音色的同时合成新内容3. 多语言支持支持中文、英文等多种语言跨语...
AI,开源 0
FishAudio 推出 OpenAudio-S1-Mini:革新语音合成技术, 一键整合包 v20250627

FishAudio 推出 OpenAudio-S1-Mini:革新语音合成技术, 一键整合包 v20250627

openaudio-s1-mini 是一个开源的音频生成模型,主要特点是能够将文本高效地转换为自然流畅的语音。下面是对该模型的详细介绍:基本信息模型名称:openaudio-s1-mini开源平台:ModelScope.cn开发者:FishAudio 团队主要特点高效的文本转语音能力:该模型经过大量数据训练,能够将输入的文本快速转换为自然流畅...
AI,开源 0
文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音(TTS)模型,它拥有16亿(1.6B)参数,能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力,可以直接从文本中生成高度逼真的对话,同时支持通过音频条件来控制输出,实现情感和语调的调整。主要功能高度逼真的对话生成:Dia能够直接从文本中生成高质量的对话,无需多轮处理...
AI 0
SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目,旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护,基于 FunASR 工具包构建,支持多种语言和方言,包括中文、英语、粤...
AI,开源 0
Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Edge TTS(Edge Text-to-Speech) 是微软推出的一款基于深度学习技术的文本转语音(TTS)工具,具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点,广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术,能够生成自然流畅、接近真人...
AI,开源 0