AudioX  一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX 一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX是一个创新的开源项目,专注于实现一种全新的音频与音乐生成方式。该项目由Zeyue Tian及其团队开发,并在GitHub上公开分享,为音频生成领域带来了革命性的突破。AudioX的核心是一个统一的Diffusion Transformer模型,旨在解决现有音频生成方法中的局限性,如模态隔离、高质量多模态训练数据稀缺以及多样化输入整...
AI,开源 6535 14
ClearerVoice-Studio   AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包,旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理,通过融合复数域深度学习算法与先进模型架构,显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术,通过FRCRN(复...
AI,开源 5560 0
MeloTTS v0.1.2  AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...
AI,开源 4049 4
LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架,基于音频条件潜在扩散模型(Latent Diffusion Models),旨在实现语音与唇形运动的高精度同步。该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术,解决了传统方法依赖中间表示(如3D模型或2D关键点)的复杂性问题,直接生成动态逼...
AI,开源 7040 17
InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目,它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍:主要功能音乐生成:支持文本提示、音乐类型、音乐结构等多种控制方式,可生成高质量的音乐作品。歌曲生成:能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成:可以生成各种类型的音频,包括但不限于背景音乐、音效...
AI,开源 3632 0
Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS是一款先进的文本转语音(Text-to-Speech,TTS)系统,它利用大型语言模型(Large Language Model,LLM)的强大功能,实现了高度准确且自然流畅的语音合成。该系统旨在为研究和生产使用提供高效、灵活且强大的解决方案。Spark-TTS的核心优势在于其简洁性和效率。它完全基于Qwen2.5构建,无需...
安卓 7644 14
MMAudio  v0.1 AI视频生成背景声音  文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio v0.1 AI视频生成背景声音 文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍:项目概述MMAudio由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法,能够在广泛的音视频和音文本数据集上进行训练。此外,同步模块可以将生成的音频与视...
AI,开源 5436 0
开源 Fish Speech v1.5.0 优化版 文字转语音 可以克隆声音 一键整合包 附效果演示

开源 Fish Speech v1.5.0 优化版 文字转语音 可以克隆声音 一键整合包 附效果演示

Fish Speech是一个由Fish Audio团队开发的全新文本转语音(TTS)解决方案,旨在通过先进的机器学习和深度学习技术,将文本转换成高质量、逼真的语音输出。该项目基于CC-BY-NC-SA-4.0许可证发布,意味着任何人都可以在遵守许可证规定的前提下自由使用、改进和分享代码和模型。技术亮点Fish Speech项目采用了一系列前沿...
开源 1.2万 23
吾爱出品 TaTa-批量图像高清修复/文件提级/批量重命名/音视频小工具

吾爱出品 TaTa-批量图像高清修复/文件提级/批量重命名/音视频小工具

吾爱大神 WawaLee3原创出品 自己开发的windows工具软件,主要包括以下几项功能:批量图片高清修复视频高清修复文件管理小工具文件提级批量重命名音视频工具音频提取视频格式转换ffmpeg命令行模式图片和视频高清修复用的是开源模型Real-ESRGAN-ncnn-vulkan, 视频的修复功能有限,比较吃配置,可以试...
软件 3188 0
EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

超级实用的一个AI开源工具,可以输入文本来生成各种声音,感觉这个很有实用场景啊,群里小伙伴推荐的一个项目。我花了点时间做成了整合包。腾讯AI实验室与约翰霍普金斯大学强强联手,共同推出了EzAudio这一革命性的文本到音频生成模型。EzAudio以其前所未有的高效能与卓越音质,为人工智能与音频技术的融合树立了新的里程碑。EzAudio之所以能在...
AI,软件 3912 0
开源 MDX23  v1.0.1 一款超强AI背景音人声分离工具

开源 MDX23 v1.0.1 一款超强AI背景音人声分离工具

MVSEP-MDX23-music-separation-model 是一个专为2023年音乐分离挑战赛(MDX'23)设计的音频分离模型,它能够将音乐分解为四个独立的音轨:“低音”、“鼓声”、“人声”和“其他”。该模型在挑战赛中取得了第三名的好成绩(Leaderboard C),证明了其在音乐分离领域的强大实力。此模型基于Demuc...
开源 3076 0
UltimateVocalRemoverGUI 5.6 开源人声分离软件 适配A卡

UltimateVocalRemoverGUI 5.6 开源人声分离软件 适配A卡

转换速度还可以,我玩了一上午,大概10多秒就可以转一次1分钟左右的音频。效果还是不错的,分离出来的人声很干净,如果搭配其他字幕软件是很容易被识别出来的。关键是这个软件安装好就可以用了,不需要去设置一些复杂的参数什么的。UltimateVocalRemoverGUI是一款开源的人声分离软件,采用了最先进的音源分离模型,以去除音频文件中的人声。该...
开源 4625 6
开源 免费 FFBox v4.0 一个多媒体转码百宝箱

开源 免费 FFBox v4.0 一个多媒体转码百宝箱

FFBox是一个由ttqftech团队开发的开源项目,主要定位为多媒体转码百宝箱,它基于FFmpeg的图形用户界面(GUI)工具。一、项目背景与定位随着多媒体内容的日益丰富,对多媒体文件的转码和处理需求也逐渐增多。FFBox作为一个专注于多媒体转码的工具,为用户提供了一个直观、易用的图形界面,使得用户无需深入了解FFmpeg的复杂命令,即可轻...
安卓 2894 0
WhisperDesktop1.12音频转文字软件双向  免费开源 ·附模型文件

WhisperDesktop1.12音频转文字软件双向 免费开源 ·附模型文件

可实现本地电脑的音频转文字软件!双向转换,完全免费开源!支持 Windows、macOS、Linux(目前界面只有英文的,但支持中文的转换)特征基于 DirectCompute 的供应商不可知的 GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”纯 C++ 实现,除了基本的 OS 组件外没有运行时依赖性比 OpenAI...
开源 9801 37