WhisperDesktop1.12音频转文字软件双向 免费开源 ·附模型文件,

图片加音乐转视频,傻瓜卡点神器人工智障全自动卡点神器 v3.9

简介： “图片加音乐转视频，傻瓜卡点神器”是一款专为视频创作者设计的工具，旨在简化将图片和音乐结合生成视频的过程。这款工具特别适合那些在视频编辑软件中进行卡点操作时感到困难的用户。它提供了一种简单、直观的方式来创建具有音乐节奏的视频，无需复杂的编辑技巧。功能特点：时长控制：用户可以根据音频的长度和可用图片的数量，灵活控制视频的时长。如果音频时...

2025-6-14 软件 5099 0

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

一键提取伴奏/人声！轻松搞定音乐音轨分离支持批量处理开源一键整合包 6G N卡就可以愉快玩耍 UVR5 UI v1.8.4

UVR5-UI是基于 python-audio-separator（即 UVR5 的命令行版本）开发的，提供了友好的可视化界面，使得用户无需掌握编程知识或命令行操作即可使用强大的音频处理功能。它支持多种模型和功能，包括：所有主流音源分离模型：VR Arch 模型MDX-NET 模型Demucs v4 模型Mel-Band Roformer 和...

2025-5-24 AI,开源 6577 3

AI 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音（TTS）模型，它拥有16亿（1.6B）参数，能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力，可以直接从文本中生成高度逼真的对话，同时支持通过音频条件来控制输出，实现情感和语调的调整。主要功能高度逼真的对话生成：Dia能够直接从文本中生成高质量的对话，无需多轮处理...

2025-4-25 AI 3687 0

AI#开源工具 # 日常应用 # 文本 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 文本编辑 # 整合包

SenseVoice：解锁语音理解新高度，多语言情感识别与事件检测全攻略语音转文本一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目，旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护，基于 FunASR 工具包构建，支持多种语言和方言，包括中文、英语、粤...

2025-4-21 AI,开源 4724 1

AI#开源工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

Free-TTS_unlimted-words v1.0 AI文字生成语音，调用Edge TTS接口运行一键整合包无需要显卡即可运行

Edge TTS（Edge Text-to-Speech）是微软推出的一款基于深度学习技术的文本转语音（TTS）工具，具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点，广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术，能够生成自然流畅、接近真人...

2025-4-15 AI,开源 3203 0

AI#开源工具 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

Orpheus-TTS：AI文字合成语音，让语言更有温度一键整合包支持生成中文语音

Orpheus-TTS是一个前沿的开源文本转语音（Text-To-Speech，TTS）系统，它基于Llama-3b这一强大的大型语言模型（LLM）构建。该项目展示了在语音合成领域使用大型语言模型的新兴能力，为用户带来了前所未有的自然语音体验。Orpheus-TTS的核心优势在于其人类般的语音表现。它能够生成具有自然语调、情感和节奏的语音，这...

2025-4-15 AI,开源 5273 6

AI#开源日常应用 # 音乐 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

AudioX 一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX是一个创新的开源项目，专注于实现一种全新的音频与音乐生成方式。该项目由Zeyue Tian及其团队开发，并在GitHub上公开分享，为音频生成领域带来了革命性的突破。AudioX的核心是一个统一的Diffusion Transformer模型，旨在解决现有音频生成方法中的局限性，如模态隔离、高质量多模态训练数据稀缺以及多样化输入整...

2025-4-10 AI,开源 7014 14

AI#开源工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

ClearerVoice-Studio AI语音增强、语音降噪工具，一键整合包，二开作品支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包，旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理，通过融合复数域深度学习算法与先进模型架构，显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术，通过FRCRN（复...

2025-3-25 AI,开源 6700 0

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

MeloTTS v0.1.2 AI文本生成语音工具，支持英伟达显卡+cpu运行，速度极快支持六国语言，一键整合包

MeloTTS：高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音（TTS）合成工具，其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换，支持包括英语、中文、日语、韩语在内的多种语言，尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...

2025-3-24 AI,开源 4444 4

AI#开源工具 # 日常应用 # 视频处理 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 数字人 # 效率工具 # 整合包

LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具，汉化一键整合包

LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架，基于音频条件潜在扩散模型（Latent Diffusion Models），旨在实现语音与唇形运动的高精度同步。该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术，解决了传统方法依赖中间表示（如3D模型或2D关键点）的复杂性问题，直接生成动态逼...

2025-3-23 AI,开源 8215 17

AI#开源语音 # 工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目，它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍：主要功能音乐生成：支持文本提示、音乐类型、音乐结构等多种控制方式，可生成高质量的音乐作品。歌曲生成：能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成：可以生成各种类型的音频，包括但不限于背景音乐、音效...

2025-3-13 AI,开源 3955 0

安卓工具 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具

Spark-TTS 一款开源功能强大、高效且灵活的文本转语音工具一键整合包

Spark-TTS是一款先进的文本转语音（Text-to-Speech，TTS）系统，它利用大型语言模型（Large Language Model，LLM）的强大功能，实现了高度准确且自然流畅的语音合成。该系统旨在为研究和生产使用提供高效、灵活且强大的解决方案。Spark-TTS的核心优势在于其简洁性和效率。它完全基于Qwen2.5构建，无需...

2025-3-5 安卓 8256 12

AI#开源工具 # 视频处理 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

MMAudio v0.1 AI视频生成背景声音文生生成声音一键整合包 8G英伟达显卡可用，无需安装环境，解压即可使用

MMAudio是一个开源项目，旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍：项目概述MMAudio由香港中文大学的程浩基（Ho Kei Cheng）等人开发，主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法，能够在广泛的音视频和音文本数据集上进行训练。此外，同步模块可以将生成的音频与视...

2025-2-24 AI,开源 5898 0

开源工具 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 语音工具

开源 Fish Speech v1.5.0 优化版文字转语音可以克隆声音一键整合包附效果演示

Fish Speech是一个由Fish Audio团队开发的全新文本转语音（TTS）解决方案，旨在通过先进的机器学习和深度学习技术，将文本转换成高质量、逼真的语音输出。该项目基于CC-BY-NC-SA-4.0许可证发布，意味着任何人都可以在遵守许可证规定的前提下自由使用、改进和分享代码和模型。技术亮点Fish Speech项目采用了一系列前沿...

2024-12-20 开源 1.3万 22

软件图像处理 # 工具 # 音频处理 # 图片处理 # 批量改名 # 免费 # 效率工具 # 吾爱

吾爱出品 TaTa-批量图像高清修复/文件提级/批量重命名/音视频小工具

吾爱大神 WawaLee3原创出品自己开发的windows工具软件，主要包括以下几项功能：批量图片高清修复视频高清修复文件管理小工具文件提级批量重命名音视频工具音频提取视频格式转换ffmpeg命令行模式图片和视频高清修复用的是开源模型Real-ESRGAN-ncnn-vulkan，视频的修复功能有限，比较吃配置，可以试...

2024-10-20 软件 3441 0

AI#软件语音 # 工具 # 文本 # 神器 # 音频处理 # 开源 # 免费 # 整合包

EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐音效一键整合包 20240929修改增强

超级实用的一个AI开源工具，可以输入文本来生成各种声音，感觉这个很有实用场景啊，群里小伙伴推荐的一个项目。我花了点时间做成了整合包。腾讯AI实验室与约翰霍普金斯大学强强联手，共同推出了EzAudio这一革命性的文本到音频生成模型。EzAudio以其前所未有的高效能与卓越音质，为人工智能与音频技术的融合树立了新的里程碑。EzAudio之所以能在...

2024-9-29 AI,软件 4169 0

开源工具 # 绿色软件 # 音频处理 # 人工智能 # AI # 免费 # 人声分离

开源 MDX23 v1.0.1 一款超强AI背景音人声分离工具

MVSEP-MDX23-music-separation-model 是一个专为2023年音乐分离挑战赛（MDX'23）设计的音频分离模型，它能够将音乐分解为四个独立的音轨：“低音”、“鼓声”、“人声”和“其他”。该模型在挑战赛中取得了第三名的好成绩（Leaderboard C），证明了其在音乐分离领域的强大实力。此模型基于Demuc...

2024-8-4 开源 3427 0

开源音频处理 # 开源 # 人工智能 # AI # 免费 # 人声分离

UltimateVocalRemoverGUI 5.6 开源人声分离软件适配A卡

转换速度还可以，我玩了一上午，大概10多秒就可以转一次1分钟左右的音频。效果还是不错的，分离出来的人声很干净，如果搭配其他字幕软件是很容易被识别出来的。关键是这个软件安装好就可以用了，不需要去设置一些复杂的参数什么的。UltimateVocalRemoverGUI是一款开源的人声分离软件，采用了最先进的音源分离模型，以去除音频文件中的人声。该...

2024-7-24 开源 4906 6

安卓视频处理 # 音频处理 # 开源 # 免费 # 格式转换

开源免费 FFBox v4.0 一个多媒体转码百宝箱

FFBox是一个由ttqftech团队开发的开源项目，主要定位为多媒体转码百宝箱，它基于FFmpeg的图形用户界面（GUI）工具。一、项目背景与定位随着多媒体内容的日益丰富，对多媒体文件的转码和处理需求也逐渐增多。FFBox作为一个专注于多媒体转码的工具，为用户提供了一个直观、易用的图形界面，使得用户无需深入了解FFmpeg的复杂命令，即可轻...

2024-6-5 安卓 3165 0

开源绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费