想换脸、换衣服还是换风格?DreamO图像定制,一键搞定!v20250513 AI生成图片 一键整合包

想换脸、换衣服还是换风格?DreamO图像定制,一键搞定!v20250513 AI生成图片 一键整合包

DreamO是一个由字节跳动开源的统一图像定制化框架(A Unified Framework for Image Customization),旨在通过先进的算法和技术,为用户提供高度灵活和高质量的图像定制化服务。以下是该项目的详细介绍说明:核心功能:图像定制化:DreamO允许用户根据需求定制图像,支持多种定制化任务,包括但不限于人物形象定...
AI,开源 5191 11
文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音(TTS)模型,它拥有16亿(1.6B)参数,能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力,可以直接从文本中生成高度逼真的对话,同时支持通过音频条件来控制输出,实现情感和语调的调整。主要功能高度逼真的对话生成:Dia能够直接从文本中生成高质量的对话,无需多轮处理...
AI 3305 0
OmniGen:统一框架,高效灵活,图像生成从未如此简单  基于最新模型一键整合包 已经汉化

OmniGen:统一框架,高效灵活,图像生成从未如此简单 基于最新模型一键整合包 已经汉化

OmniGen 是一个由 VectorSpaceLab 开发的开源项目,旨在提供一个统一的图像生成模型,能够处理多种图像生成任务,而无需依赖额外的插件或复杂的预处理步骤。该项目的核心目标是简化图像生成流程,使其像 GPT 在语言生成中的应用一样灵活和高效。OmniGen 支持多种任务,包括文本到图像生成、图像编辑、主题驱动生成和经典计算机视觉...
AI 6377 7
字节开源 UNO:电商图片生成的高效利器,一键汉化整合包 ,支持文生图和图生图

字节开源 UNO:电商图片生成的高效利器,一键汉化整合包 ,支持文生图和图生图

UNO(Universal Customization)是由字节跳动公司开发并开源的一个通用自定义方法的项目,旨在解决单主体和多主体条件下的图像生成问题,具有很强的可控性和通用性。该项目通过提出一种高度一致的数据合成流程,利用扩散变换器的内在上下文生成能力,生成高一致性的多主体配对数据。UNO模型包含渐进式跨模态对齐和通用旋转位置嵌入,是从文...
AI,开源 3906 4
SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

SenseVoice:解锁语音理解新高度,多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目,旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护,基于 FunASR 工具包构建,支持多种语言和方言,包括中文、英语、粤...
AI,开源 4045 2
Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Edge TTS(Edge Text-to-Speech) 是微软推出的一款基于深度学习技术的文本转语音(TTS)工具,具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点,广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术,能够生成自然流畅、接近真人...
AI,开源 2825 0
Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS是一个前沿的开源文本转语音(Text-To-Speech,TTS)系统,它基于Llama-3b这一强大的大型语言模型(LLM)构建。该项目展示了在语音合成领域使用大型语言模型的新兴能力,为用户带来了前所未有的自然语音体验。Orpheus-TTS的核心优势在于其人类般的语音表现。它能够生成具有自然语调、情感和节奏的语音,这...
AI,开源 4693 6
AudioX  一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX 一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX是一个创新的开源项目,专注于实现一种全新的音频与音乐生成方式。该项目由Zeyue Tian及其团队开发,并在GitHub上公开分享,为音频生成领域带来了革命性的突破。AudioX的核心是一个统一的Diffusion Transformer模型,旨在解决现有音频生成方法中的局限性,如模态隔离、高质量多模态训练数据稀缺以及多样化输入整...
AI,开源 6349 14
BEN2 v1.1 AI人工智能 图片批量抠图+视频抠像工具 一键整合包 视频可以输出透明通道

BEN2 v1.1 AI人工智能 图片批量抠图+视频抠像工具 一键整合包 视频可以输出透明通道

虽然我已经分享了不少的抠图和视频抠像的工具,但是谁又会嫌弃好工具多呢?所以抽空做了这个BEN2的整合包,这个整合包最大的特点就是可以输出带有透明通道的webm视频格式。在图像和视频处理领域,前景分割技术一直是研究和应用的热点。无论是视频编辑、特效制作,还是人工智能驱动的内容生成,精准的前景分割都是实现高质量输出的关键。而今天我们要介绍的,是一...
AI,开源 6996 5
ClearerVoice-Studio   AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包,旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理,通过融合复数域深度学习算法与先进模型架构,显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术,通过FRCRN(复...
AI,开源 5328 0
MeloTTS v0.1.2  AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...
AI,开源 3838 4
LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架,基于音频条件潜在扩散模型(Latent Diffusion Models),旨在实现语音与唇形运动的高精度同步。该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术,解决了传统方法依赖中间表示(如3D模型或2D关键点)的复杂性问题,直接生成动态逼...
AI,开源 6790 17
AI人工智能 图片高清修复放大Tile-Upscaler v1.0  一键汉化整合包

AI人工智能 图片高清修复放大Tile-Upscaler v1.0 一键汉化整合包

本工具基于Tile-Upscaler二次开发,简单直接,操作点2下即可,图片高清修复效果还不错,处理速度我的4070tisuper一张1080x1920的图片大概8秒就可以完成高清修复。效果演示原图我个人觉得高清修复效果还可以。所以就花了点时间整合了一下,另外修改了部分代码1 修正一些小bug2 删除没用的演示例子3&nb...
AI,开源 5077 2
MatAnyone v1.0.0 人工智能AI 自定义视频抠图 一键汉化整合包 附视频演示

MatAnyone v1.0.0 人工智能AI 自定义视频抠图 一键汉化整合包 附视频演示

MatAnyone是一个专注于人类视频抠图(Matting)的实用框架,其独特之处在于支持目标分配功能,并能在核心区域语义和精细边界细节上表现出稳定的性能。该项目由Peiqing Yang等人在2025年提出,并在CVPR(Conference on Computer Vision and Pattern Recognition)这一顶级计算...
AI,开源 8530 12
InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目,它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍:主要功能音乐生成:支持文本提示、音乐类型、音乐结构等多种控制方式,可生成高质量的音乐作品。歌曲生成:能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成:可以生成各种类型的音频,包括但不限于背景音乐、音效...
AI,开源 3498 0
MMAudio  v0.1 AI视频生成背景声音  文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio v0.1 AI视频生成背景声音 文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍:项目概述MMAudio由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法,能够在广泛的音视频和音文本数据集上进行训练。此外,同步模块可以将生成的音频与视...
AI,开源 5239 0
HivisionIDPhotos v1.3.1 一个专注于证件照智能制作的开源项目 一键整合包 支持批量处理 附视频演示

HivisionIDPhotos v1.3.1 一个专注于证件照智能制作的开源项目 一键整合包 支持批量处理 附视频演示

HivisionIDPhotos 是一个专注于证件照智能制作的开源项目,由Zeyi-Lin开发并维护。该项目旨在通过先进的图像处理和机器学习技术,为用户提供一种高效、便捷的证件照制作解决方案。项目结合了轻量级抠图、多尺寸规格生成、智能换底等多种功能,让用户能够轻松制作出符合标准的证件照。核心功能轻量级抠图:HivisionIDPhotos采用...
AI,开源 6483 19
开源 DCT-Net_Webui v20250116 修改增强版 一款将图片/视频转绘漫画效果工具 支持批量处理 附三倍快乐演示

开源 DCT-Net_Webui v20250116 修改增强版 一款将图片/视频转绘漫画效果工具 支持批量处理 附三倍快乐演示

视频转动漫的工具貌似有不少,之前我也分享了,但是今天分享的这个,操作是极其简单,我顺手还做了个批量处理。这样就更方便了。Q群一个小伙伴提供了一台远程4060显卡的机器给我远程测试,所以也顺手把N卡包也整合好了。N卡的效率确实是超级高啊,我用CPU跑10秒的视频大概要3-5分钟,但是N卡的话 一分钟不到就搞定了。确实是爽。下面是截图一下给你们看...
AI,开源 8594 10
moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包

moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包

vikhyat/moondream是一个开源的、轻量级的视觉语言模型项目,旨在提供强大的图像理解和生成能力,同时确保模型可以在各种环境下高效运行。该项目在GitHub上托管,拥有简洁的代码库和丰富的文档资源,为开发者提供了便捷的使用和定制体验。项目的核心是一个视觉语言模型,该模型能够接收图像作为输入,并基于图像内容生成相应的文本描述或回答相关...
AI,软件 8089 12
Clarity-Refiners-UI  一个专注于图像增强的开源项目 一键整合包

Clarity-Refiners-UI 一个专注于图像增强的开源项目 一键整合包

Pinokiofactory/Clarity-Refiners-UI 是一个专注于图像增强的开源项目,它基于 Pinokio UI 框架,并融合了多项先进的图像处理技术。该项目旨在为用户提供一种高效、易用且功能强大的图像增强解决方案。项目背景与目的Pinokiofactory/Clarity-Refiners-UI 是 Pinokio 工厂团...
AI,开源 2880 2
RMBG-2-Studio AI人工智能 抠图神器 一键整合包

RMBG-2-Studio AI人工智能 抠图神器 一键整合包

RMBG-2-Studio是一个基于BRIA-RMBG-2.0模型构建的增强型Pinokio应用程序,它不仅包含了安装文件,还提供了一系列强大的图像处理功能。以下是对该开源项目的详细介绍:项目背景与目的:RMBG-2-Studio旨在为用户提供一种高效、便捷的图像背景移除和图像合成工具。它利用了BRIA AI公司开发的RMBG v2.0背景移...
AI,开源 4641 2
开源AI 免费抠图工具,可以批量抠图rembg v2.0.60 抠图速度超快 附教程+视频效果演示 一键整合包

开源AI 免费抠图工具,可以批量抠图rembg v2.0.60 抠图速度超快 附教程+视频效果演示 一键整合包

我基于rembg 开源项目打包制作,部分运行代码参考了一些网友的代码。下面是截图下面是放一些抠图的对比图片这是我批量抠图的演示,因为选的都是一个模型,所以效果确实一般,但是实际上还可以更精细,我已经把所有模型都下载下来了看截图不同的模型可以针对不同类型的图片,不是一个模型就能走天下的。这是官方的说明 可以参考下u2net : 用于一般用例的预...
AI,软件,开源 1.2万 30
InstantIR 一键整合包 AI智能高清修复图片工具 超分辨率工具

InstantIR 一键整合包 AI智能高清修复图片工具 超分辨率工具

这个项目群里的小伙伴 推荐了好多次了,之前我也试过做整合包,做完后发现BUG太多了,我就删了,看到作者最近又更新了,所以抽空把这个整合包做出来了。效果嘛 你们自己看。先来一张官方的示例图下面是我跑完的效果下面继续看我用其他图片跑的出来的效果跑一张图片大概需要3-4分钟。下面是界面截图下面是这个项目的AI介绍nstantIR 是一个在 GitH...
AI,开源 4852 0
复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

Hallo是一个由复旦大学、百度公司、苏黎世联邦理工学院和南京大学共同开发的AI对口型肖像图像动画技术,该技术能够基于语音音频输入生成逼真且动态的肖像图像视频。以下是该项目的详细介绍:项目背景:肖像图像动画技术:该技术旨在从单个静态图像和相应的语音音频中生成一个说话的人像,在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销等领域具有巨大...
AI,开源 8124 23
diffusers-image-outpaint  超强AI人工智能扩图工具 一键整合包

diffusers-image-outpaint 超强AI人工智能扩图工具 一键整合包

Diffusers Image Outpaint 是一个在 Hugging Face 上的开源项目,它为图像外绘(image outpainting)提供了强大的工具和解决方案。一、项目背景与目标在图像处理领域,有时我们需要对图像进行扩展或修复,尤其是在图像的边缘部分进行外绘,以创造出更完整或更具创意的图像效果。Diffusers Image...
AI,开源 1.2万 17
EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

超级实用的一个AI开源工具,可以输入文本来生成各种声音,感觉这个很有实用场景啊,群里小伙伴推荐的一个项目。我花了点时间做成了整合包。腾讯AI实验室与约翰霍普金斯大学强强联手,共同推出了EzAudio这一革命性的文本到音频生成模型。EzAudio以其前所未有的高效能与卓越音质,为人工智能与音频技术的融合树立了新的里程碑。EzAudio之所以能在...
AI,软件 3870 0
PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID是一个由ByteDance Inc.开发的开源项目,专注于通过对比对齐技术实现纯净且高效的图像生成ID定制化。该项目由Zinan Guo、Yanze Wu、Zhuowei Chen、Lang Chen和Qian He等研究人员共同贡献,其中Zinan Guo和Yanze Wu为等量贡献者,Yanze Wu为通讯作者。PuLID项目的...
AI,开源 6605 13
Flux 文生图模型 一键整合包 解压即可食用 出图效果超级惊艳 附图片演示

Flux 文生图模型 一键整合包 解压即可食用 出图效果超级惊艳 附图片演示

Flux文生图模型是由Black Forest Labs(黑森林实验室)开发的一款高质量文本到图像生成模型。该模型在多个维度上展现了卓越性能,特别是在文本引导的图像生成、多主体场景构建以及精细的手部细节生成等方面,实现了显著的提升,为文生图领域设定了新的技术标杆。Flux模型的核心特点包括:高性能与高质量:Flux模型采用了先进的混合架构,融...
AI,开源 1.1万 59
开源 CogVideoX 文字生成视频 整合包

开源 CogVideoX 文字生成视频 整合包

CogVideoX是智谱AI推出的一款开源视频生成模型,该项目在视频生成领域引起了广泛关注。以下是对CogVideoX开源项目的详细介绍:一、项目背景与简介CogVideoX作为智谱AI的创新成果,旨在通过深度学习技术将文本或图像转换为高质量的视频内容。该项目不仅推动了视频生成技术的边界,还为创作者提供了全新的创作工具和平台。CogVideo...
AI,开源 4614 3
开源 ReHiFace-S 一款集高保真、实时性、易用性于一身的换脸神器 附视频演示 整合包

开源 ReHiFace-S 一款集高保真、实时性、易用性于一身的换脸神器 附视频演示 整合包

这个项目我已经做好了几天了,在群里也是分享了,经过几天的运行测试后,现在已经非常稳定了,所以今天抽空整理下分享出来。换脸的效果还是很不错的,你们可以下面的视频演示就知道了。虽然我之前也已经分享了几个换脸的工具了,但是谁又会在意多一个呢?多一个选择总是好的。这个操作是极其简单的。选择人脸,选择视频点下提交就可以换脸了。特别适合那些电脑基础差的小...
AI,开源 1万 35
神器 Civitai-Web-Scraper C站图片下载工具 整合包

神器 Civitai-Web-Scraper C站图片下载工具 整合包

Civitai-Web-Scraper是一款专为挖掘CivitAI平台上丰富的人工智能生成图像及其灵感提示而设计的开源工具。该项目由ScreamingHawk在GitHub上开源,旨在帮助艺术家、设计师、AI研究人员以及普通爱好者轻松访问和获取CivitAI网站上的AI创作内容。主要功能与特点:一键式抓取:Civitai-Web-Scrape...
AI,开源 3935 4