"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 0
DouyinLivetts v1.0.6 开源的抖音弹幕抓取,实现的tts语音播放

DouyinLivetts v1.0.6 开源的抖音弹幕抓取,实现的tts语音播放

DouyinLivetts 是一款专注于抖音直播场景的开源文本转语音(TTS)工具,由开发者xiamuceer-j维护,旨在帮助主播实现高效、实时的语音内容生成。该工具通过集成先进的TTS引擎,将文字内容快速转换为自然流畅的语音,解决了直播过程中手动配音效率低、实时性差的问题。核心功能与技术特点多引擎支持工具支持主流TTS服务(如阿里云、腾讯...
开源 0
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 0
一键克隆任意人声!VoxCPM 1.5 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开汉化整合包 v20251207

一键克隆任意人声!VoxCPM 1.5 开源语音大模型,无需训练,3秒搞定声音复刻!最低6G英伟达即可运行 剑二十七二开汉化整合包 v20251207

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。🔧 核心特性(技术亮点)1. ✅ 端到端架构(End-to-End...
AI,开源 0
开源 免费  Buzz  视频语音转成TXT、SRT、VTT工具 无需联网 中文版 v1.3.3

开源 免费 Buzz 视频语音转成TXT、SRT、VTT工具 无需联网 中文版 v1.3.3

先说下我亲测的一些心得默认转化后的语言是英文 记得要改成chinese音乐不能转化,比如我截图前面是一首beyond的歌 就无法转化出来文字转化速度还不错。选择模型的话 第一次需要下载模型到本地可能会要几分钟,后面就是离线操作了 速度很快Buzz  功能导入音频和视频文件并导出文本到 TXT、SRT 和 VTT从你计算机的麦克风转录...
开源 0
语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.2

语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.2

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱,旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性,支持多种主流语音任务,适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署:所有功能均可在本地运行,保障数据...
AI,开源 0
开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU 聊天机器人 gpt4all v3.10.0 附最新模型 支持deepseek

开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU 聊天机器人 gpt4all v3.10.0 附最新模型 支持deepseek

上面是教程开源 免费 离线 gtp4 语音大模型搭建极其简单无需GPU安装极其简单,基本就是点几下,然后倒入模型后就可以使用,无须联网。免费,无任何限制。我玩了好多天了,很稳定。效率也不错,才分享出来的。GPT4All是一款引人注目的软件,它为用户提供了一个在本地设备上运行大型语言模型(LLM)的平台。无需昂贵的硬件或持续的网络连接,GPT...
开源 0
MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD 是由 OpenMOSS 社区开发的一个开源项目,主要聚焦于 文本到语音合成(Text-to-Speech, TTS)领域。该项目是 MOSS 系列模型生态的一部分,旨在提供高质量、低延迟的语音合成能力,适用于多种语言和场景。以下是对该项目的核心功能与技术特点的介绍说明:🎯 项目定位MOSS-TTSD 是一个专注于中文及多语...
AI,开源 0
不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

🎧 什么是 MiMo-Audio?MiMo-Audio 是小米推出的一个能听、会说、还能创作声音的智能 AI 模型。你可以把它想象成一个“超级语音大脑”——不仅能听懂你说的话,还能模仿你的声音说话、讲故事、主持节目,甚至帮你把一段话变成不同风格的语音(比如更温柔、更激昂)。🌟 它厉害在哪里?不用专门训练就能学会新任务(Few-Shot Lea...
AI,开源 0
Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包  v20251008

Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音(TTS)系统,致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务,适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址:https://github.com/n...
AI,开源 0
Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v20250924

Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v20250924

一、什么是 TTS?TTS(Text-To-Speech)是一种将文字转换为自然语音的技术,广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面(基于 Gradio),用户可以输入任意文本,并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...
AI 0
IndexTTS  v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...
AI,软件 0
开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力,适用于多种应用场景,如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术,采用了先进的神经网络架构(如 Tacotron、FastSpee...
AI,开源 0
"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.7.2-beta.2

"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.7.2-beta.2

Project AIRI 是一个基于大语言模型驱动的AI虚拟伴侣系统,旨在创建AI"女仆"(waifu)/虚拟角色的灵魂容器,将这些虚拟角色带入现实世界。该项目致力于重现Neuro-sama(一个知名的AI虚拟角色)的功能高度,完全由LLM和AI驱动。核心功能🎙️ 实时语音聊天支持与AI进行自然流畅的语音对话交互实现低延迟...
AI,开源 0
免费 开源 轻量级虚拟机 VirtualBox 官方版 支持多国语音(包括中文) v7.2.0-170228

免费 开源 轻量级虚拟机 VirtualBox 官方版 支持多国语音(包括中文) v7.2.0-170228

写在最前面,这是我最喜欢的一款虚拟机了没有之一。界面简洁,运行速度快,而且耗费资源相对小。关键还是免费开源。VirtualBox是一款备受赞誉的开源虚拟机软件,由德国Innotek公司开发,后被Sun Microsystems公司收购,并在Sun被Oracle收购后正式更名为Oracle VM VirtualBox。VirtualBox以其免...
软件,开源 0
E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

SWivid/F5-TTS 是一个开源项目,旨在提供一个基于 Diffusion Transformer 和 ConvNeXt V2 架构的文本到语音(TTS)系统,该系统名为 F5-TTS。F5-TTS 的全称是“A Fairytaler that Fakes Fluent and Faithful Speech with Flow Mat...
AI,开源 0
一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统,基于先进的深度学习技术,能够生成高质量、自然的人声。该项目在 GitHub 上开源,提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...
AI,开源 0
字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

MegaTTS3 是字节跳动开源的一个先进的文本到语音(TTS)合成系统,具有以下特点:🌟 核心特性1. 高质量语音合成基于扩散模型的语音生成技术支持高保真度的语音合成生成自然、流畅的语音输出2. 强大的语音克隆能力能够克隆特定人的声音特征只需少量参考音频即可实现声音复制保持原始音色的同时合成新内容3. 多语言支持支持中文、英文等多种语言跨语...
AI,开源 0
FishAudio 推出 OpenAudio-S1-Mini:革新语音合成技术, 一键整合包 v20250627

FishAudio 推出 OpenAudio-S1-Mini:革新语音合成技术, 一键整合包 v20250627

openaudio-s1-mini 是一个开源的音频生成模型,主要特点是能够将文本高效地转换为自然流畅的语音。下面是对该模型的详细介绍:基本信息模型名称:openaudio-s1-mini开源平台:ModelScope.cn开发者:FishAudio 团队主要特点高效的文本转语音能力:该模型经过大量数据训练,能够将输入的文本快速转换为自然流畅...
AI,开源 0
GPT-SoVITS 20250606v2pro一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS 20250606v2pro一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体...
AI,开源 0
文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音(TTS)模型,它拥有16亿(1.6B)参数,能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力,可以直接从文本中生成高度逼真的对话,同时支持通过音频条件来控制输出,实现情感和语调的调整。主要功能高度逼真的对话生成:Dia能够直接从文本中生成高质量的对话,无需多轮处理...
AI 0
SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目,旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护,基于 FunASR 工具包构建,支持多种语言和方言,包括中文、英语、粤...
AI,开源 0
Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Edge TTS(Edge Text-to-Speech) 是微软推出的一款基于深度学习技术的文本转语音(TTS)工具,具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点,广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术,能够生成自然流畅、接近真人...
AI,开源 0
Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS是一个前沿的开源文本转语音(Text-To-Speech,TTS)系统,它基于Llama-3b这一强大的大型语言模型(LLM)构建。该项目展示了在语音合成领域使用大型语言模型的新兴能力,为用户带来了前所未有的自然语音体验。Orpheus-TTS的核心优势在于其人类般的语音表现。它能够生成具有自然语调、情感和节奏的语音,这...
AI,开源 0
Echo(回声) v0.9.1 文字合成语音 声音克隆AI工具

Echo(回声) v0.9.1 文字合成语音 声音克隆AI工具

B站UP主凯凯-你好 开发的一款文字合成语音 声音克隆工具,免费使用,操作简单“灵声妙语”是一款集创新、高效、个性化于一体的智能声音工具软件,它以其极简的设计风格、卓越的性能表现以及全球多平台覆盖的能力,赢得了广大用户的青睐。该软件以“让创意更简单,让艺术走进生活”为核心理念,致力于为用户提供极致的用户体验。从下载安装的那一刻起,用户就能感受...
软件 0
开源离线语音识别输入工具CapsWriter v2.0.4——支持无限时长语音+音视频文件转录字幕

开源离线语音识别输入工具CapsWriter v2.0.4——支持无限时长语音+音视频文件转录字幕

CapsWriter 是一款免费开源且可完全离线识别的语音输入工具,无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统,已经更新融合了语音输入以及音视频文件实现字幕转录的功能。相比某些必须在线识别又或者需要付费又有时长限制的app、软件或网站而言,此款良心多了,基本能满足大部分场合需求如会议记录或键盘失灵等。有需自取~~~...
开源 0
ClearerVoice-Studio   AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包,旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理,通过融合复数域深度学习算法与先进模型架构,显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术,通过FRCRN(复...
AI,开源 0
MeloTTS v0.1.2  AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...
AI,开源 0
Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS是一款先进的文本转语音(Text-to-Speech,TTS)系统,它利用大型语言模型(Large Language Model,LLM)的强大功能,实现了高度准确且自然流畅的语音合成。该系统旨在为研究和生产使用提供高效、灵活且强大的解决方案。Spark-TTS的核心优势在于其简洁性和效率。它完全基于Qwen2.5构建,无需...
安卓 0
开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一,专注于高质量的语音合成,能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍:一、项目背景与目的随着人工智能技术的不断发展,语音交互已成为人机交...
软件 0
一点红语音合成v20250210 正式版 文字转语音工具 绿色免安装

一点红语音合成v20250210 正式版 文字转语音工具 绿色免安装

版本介绍:版本:一点红语音合成2.4-吾爱专版字数控制:无限制,程序文本框建议一次字数5000文字,你用50万个也是可以的;合成速度:测试40万字1分40秒左右;线程数量:默认是4个,这个是在参数设置里面配置的,你可以自行调整,也就是你点合成时,文本会被智能分隔成每500字左右的文字N份,然后这N份文本被4个线程 同时去调用语音合成服务;这也...
软件 0