AI 视频生成新突破:FramePack 开源项目引领视频扩散技术变革 一键汉化整合包 FramePack-F1 20250716更新 支持magcache加速 支持50系显卡

AI 视频生成新突破:FramePack 开源项目引领视频扩散技术变革 一键汉化整合包 FramePack-F1 20250716更新 支持magcache加速 支持50系显卡

FramePack 是一个开源项目,旨在通过创新的神经网络结构实现高效的视频生成。以下是对其的详细介绍:项目概述FramePack 是 “Packing Input Frame Contexts in Next - Frame Prediction Models for Video Generation” 论文的官方实现和桌面软件。它采用逐帧...
AI,开源 0
让AI绘画更听你的话:DRA-Ctrl 实现图像局部控制生成 v20250712 一键整合包,最低支持8G英伟达,支持50系显卡

让AI绘画更听你的话:DRA-Ctrl 实现图像局部控制生成 v20250712 一键整合包,最低支持8G英伟达,支持50系显卡

DRA-Ctrl 是一个由 Kunbyte-AI开发的开源项目,其核心目标是为扩散模型(Diffusion Models)提供一种可控的生成机制。该项目专注于实现对图像生成过程中的“区域感知控制”(Region-aware Control),即在图像生成过程中,允许用户对图像的不同区域施加不同的控制条件,从而实现更加精细化和结构化的生成效果。...
AI,开源 0
字节开源BAGEL:70亿参数多模态大模型,图像生成+理解全新突破 v20250613 一键整合包

字节开源BAGEL:70亿参数多模态大模型,图像生成+理解全新突破 v20250613 一键整合包

BAGEL 是一个由 ByteDance-Seed团队开发的开源多模态基础模型,具有 70 亿(7B)活跃参数(总参数为 140 亿),并在大规模交错的多模态数据(包括语言、图像、视频和网页数据)上进行了训练。该项目的目标是通过统一的架构来实现强大的多模态理解和生成能力,并进一步扩展到复杂的视觉操作任务。核心特点1. 先进的模型架构BAGEL...
AI,开源 0
 想自己生成图片但怕侵权?试试这个新AI模型!f-lite v20250607 一键整合包 支持40系+50系显卡

想自己生成图片但怕侵权?试试这个新AI模型!f-lite v20250607 一键整合包 支持40系+50系显卡

F Lite是由 Fal AI与 Freepik联合开发的一个基于扩散模型的图像生成工具。它提供了一个轻量但功能强大的模型架构,并在数据合规性方面做出了显著努力。📌 核心特点✅ 合法合规的数据集训练模型仅使用了 8000 万张版权安全(copyright-safe)和 SFW(适合所有年龄层,Safe For Work)内容进行训练。数据来源...
AI,开源 0
AI 自动生成短剧解说视频 输入一段话就能生成短剧解说视频  一键整合包 NarratoAI v0.6.1

AI 自动生成短剧解说视频 输入一段话就能生成短剧解说视频 一键整合包 NarratoAI v0.6.1

这个工具是做什么的?你可以把 NarratoAI 理解成一个“AI自动剪辑视频的神器”,它最大的特点就是:输入一段文字或口播内容,就能自动生成一部短剧解说视频。是不是听起来像你写了个剧本,AI 就帮你拍成了短视频?没错,就是这样!🧠 它是怎么工作的?它的流程大概是这样的:你提供一段文字内容(比如口播文案、剧情简介)比如:“今天给大家讲一个爱情...
AI,开源 0
小巧实用效率高AI生成动漫图片整合包,12G英伟达显卡即可愉快玩耍 v20250520

小巧实用效率高AI生成动漫图片整合包,12G英伟达显卡即可愉快玩耍 v20250520

   今天在网上逛的时候,无意发现这个模型,一个动漫图片生成的模型,感觉还不错,生成的动漫效果也还可以,所以就花了几分钟写了个界面,然后又汉化了下,感觉还可以,就随手发到群里,各位小伙伴要求分享出来,所以就打包上传上来了。这个模型是支持NSFW ,所以请勿用于任何非法途径,所造成的任何后果请自行承担,本人只做AI图片生成技...
AI 0
想换脸、换衣服还是换风格?DreamO图像定制,一键搞定!v20250513 AI生成图片 一键整合包

想换脸、换衣服还是换风格?DreamO图像定制,一键搞定!v20250513 AI生成图片 一键整合包

DreamO是一个由字节跳动开源的统一图像定制化框架(A Unified Framework for Image Customization),旨在通过先进的算法和技术,为用户提供高度灵活和高质量的图像定制化服务。以下是该项目的详细介绍说明:核心功能:图像定制化:DreamO允许用户根据需求定制图像,支持多种定制化任务,包括但不限于人物形象定...
AI,开源 0
超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250429更新

超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250429更新

距离上一次的分享的挂机工作流已经过去了几个月了,感觉是时候分享更强大的了。这个工作流早几天就发到Q群给大伙玩了,经过多人测试 没有什么问题后,我今天才分享出来。如果拖到comfyui后,提示大量的红色,缺失节点,可以点管理器进去自行安装好缺失的节点。如果安装老是失败,可以开启科学上网工具进行安装随便上传几张工作流说明1 生成的提示词更加丰富2...
素材 0
文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

文本转语音,如此简单真实:Nari Labs开源Dia,一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音(TTS)模型,它拥有16亿(1.6B)参数,能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力,可以直接从文本中生成高度逼真的对话,同时支持通过音频条件来控制输出,实现情感和语调的调整。主要功能高度逼真的对话生成:Dia能够直接从文本中生成高质量的对话,无需多轮处理...
AI 0
OmniGen:统一框架,高效灵活,图像生成从未如此简单  基于最新模型一键整合包 已经汉化

OmniGen:统一框架,高效灵活,图像生成从未如此简单 基于最新模型一键整合包 已经汉化

OmniGen 是一个由 VectorSpaceLab 开发的开源项目,旨在提供一个统一的图像生成模型,能够处理多种图像生成任务,而无需依赖额外的插件或复杂的预处理步骤。该项目的核心目标是简化图像生成流程,使其像 GPT 在语言生成中的应用一样灵活和高效。OmniGen 支持多种任务,包括文本到图像生成、图像编辑、主题驱动生成和经典计算机视觉...
AI 0
字节开源 UNO:电商图片生成的高效利器,一键汉化整合包 ,支持文生图和图生图

字节开源 UNO:电商图片生成的高效利器,一键汉化整合包 ,支持文生图和图生图

UNO(Universal Customization)是由字节跳动公司开发并开源的一个通用自定义方法的项目,旨在解决单主体和多主体条件下的图像生成问题,具有很强的可控性和通用性。该项目通过提出一种高度一致的数据合成流程,利用扩散变换器的内在上下文生成能力,生成高一致性的多主体配对数据。UNO模型包含渐进式跨模态对齐和通用旋转位置嵌入,是从文...
AI,开源 0
探索AI与古典诗歌的完美融合:中文诗词生成器 一键整合包 chinese-poem v1.0 附效果演示

探索AI与古典诗歌的完美融合:中文诗词生成器 一键整合包 chinese-poem v1.0 附效果演示

在数字化与智能化飞速发展的今天,人工智能技术正以前所未有的速度改变着我们的生活。从日常的语音助手到复杂的图像识别,AI的应用无处不在。然而,你是否想过,AI也能与古典文化相结合,创造出令人惊叹的艺术作品?今天,我要向大家介绍一款独特的工具——中文诗歌生成器,它将AI的强大功能与中华古典诗歌的韵味完美融合,为诗歌创作带来了全新的可能。一、工具简...
开源 0
Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Free-TTS_unlimted-words v1.0 AI文字生成语音,调用Edge TTS接口运行 一键整合包 无需要显卡即可运行

Edge TTS(Edge Text-to-Speech) 是微软推出的一款基于深度学习技术的文本转语音(TTS)工具,具有高质量语音合成、多语言支持、灵活配置和开源可扩展等特点,广泛应用于语音助手、电子书阅读、视频制作、教育及智能客服等领域。核心功能高质量语音合成Edge TTS 采用先进的深度学习技术,能够生成自然流畅、接近真人...
AI,开源 0
Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS:AI文字合成语音,让语言更有温度 一键整合包 支持生成中文语音

Orpheus-TTS是一个前沿的开源文本转语音(Text-To-Speech,TTS)系统,它基于Llama-3b这一强大的大型语言模型(LLM)构建。该项目展示了在语音合成领域使用大型语言模型的新兴能力,为用户带来了前所未有的自然语音体验。Orpheus-TTS的核心优势在于其人类般的语音表现。它能够生成具有自然语调、情感和节奏的语音,这...
AI,开源 0
AudioX  一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX 一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX是一个创新的开源项目,专注于实现一种全新的音频与音乐生成方式。该项目由Zeyue Tian及其团队开发,并在GitHub上公开分享,为音频生成领域带来了革命性的突破。AudioX的核心是一个统一的Diffusion Transformer模型,旨在解决现有音频生成方法中的局限性,如模态隔离、高质量多模态训练数据稀缺以及多样化输入整...
AI,开源 0
MeloTTS v0.1.2  AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...
AI,开源 0
InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目,它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍:主要功能音乐生成:支持文本提示、音乐类型、音乐结构等多种控制方式,可生成高质量的音乐作品。歌曲生成:能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成:可以生成各种类型的音频,包括但不限于背景音乐、音效...
AI,开源 0
CogView4 一键整合包 一个功能强大且易于使用的文本到图像生成模型 支持中文提示词

CogView4 一键整合包 一个功能强大且易于使用的文本到图像生成模型 支持中文提示词

该项目由群里傻木推荐,我测试了下 说实话 效果真是一般,对中文的支持还是不够好,下面有截图。我目前这个整合包只能算是半成品,目前只做到了可以运行,但是效率性能什么的都没有去做优化。以后看心血来潮了再动动。CogView4是一个前沿的文本到图像生成模型,由THUDM(清华大学计算机系自然语言处理与人机交互实验室)开发并开源在...
开源 0
开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一,专注于高质量的语音合成,能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍:一、项目背景与目的随着人工智能技术的不断发展,语音交互已成为人机交...
软件 0
MMAudio  v0.1 AI视频生成背景声音  文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio v0.1 AI视频生成背景声音 文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍:项目概述MMAudio由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法,能够在广泛的音视频和音文本数据集上进行训练。此外,同步模块可以将生成的音频与视...
AI,开源 0
手机软件 安卓app Noice v2.5.7 一款专注于提供个性化背景噪音生成的应用

手机软件 安卓app Noice v2.5.7 一款专注于提供个性化背景噪音生成的应用

Noice for Android是一款专注于提供个性化背景噪音生成的应用,旨在帮助用户创造有利于专注、放松或睡眠的声环境。这款应用由trynoice团队在GitHub上开源维护,展示了其对透明度和社区参与的承诺。Noice的核心功能在于其允许用户自由组合多种声音,通过调整不同声音的音量级别,来定制出完美的背景噪音。这种灵活性使得Noice能...
安卓 0
超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250210更新

超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250210更新

上次虽然我也分享了一个工作流,但是感觉还是不够完美,因为还是需要自己去提交提示词,感觉有点麻烦,然后又研究了下,做了现在的这个工作流。无需自己提交提示词,一键生成。适合我这样的喜欢挂机来生图的人。白天电脑生图的话 其他事就干不了了。因为显卡占用实在太高了,连打个网页版传奇都不行了。有了这个工作流就不一样了,晚上睡觉后开始挂机,早上起来就有几百...
素材 0
超爽自制Comfyui工作流 一键批量读取海量提示词,生成海量不同图片。挂机生图专用 flux+xl模型

超爽自制Comfyui工作流 一键批量读取海量提示词,生成海量不同图片。挂机生图专用 flux+xl模型

这个工作流算是我的第二步构想,第一步就是批量生成提示词,这个工具已经分享出来了moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包 升级比较大。然后生成的提示词用现在的这个工作流来生成对应的图片,效果是相当劲爆了现在这个截图 就是我下午一直在挂机生图的这个工作流,具体有多少行提示词我也没数。我...
素材 0
神器 开源AsrTools v1.1.0 AI 视频自动生成字幕 解压即可使用

神器 开源AsrTools v1.1.0 AI 视频自动生成字幕 解压即可使用

WEIFENG2333/AsrTools是一个功能强大的开源项目,专注于提供高效、便捷的字幕生成和处理工具。该项目基于LLM(大型语言模型)技术,实现了智能字幕助手VideoCaptioner,无需GPU支持,即可一键完成高质量字幕视频合成。以下是对该项目的详细介绍:项目背景与特色AsrTools项目旨在解决视频字幕制作过程中的繁琐与低效问题...
开源 0
复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

Hallo是一个由复旦大学、百度公司、苏黎世联邦理工学院和南京大学共同开发的AI对口型肖像图像动画技术,该技术能够基于语音音频输入生成逼真且动态的肖像图像视频。以下是该项目的详细介绍:项目背景:肖像图像动画技术:该技术旨在从单个静态图像和相应的语音音频中生成一个说话的人像,在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销等领域具有巨大...
AI,开源 0
Advanced PassGen v2.5.2 开源免费跨平台的密码生成器 中文版

Advanced PassGen v2.5.2 开源免费跨平台的密码生成器 中文版

这个东西其实很重要的,有些时候你还真的有几个复杂的密码来保护自己的账号,就凭你脑海里面想象的那几个密码用暴力破解很容易就跑完了,有了这个工具生成一个复杂的密码还是很有安全感的。我这里值提供了Windows的安装版,如果需要其他版本可以去开源地址下载。默认是英文版,可以参考我的截图设置成中文版。Advanced PassGen 是一款开源密码生...
开源 0
开源 Tailor v0.1.5  一款功能强大的视频智能裁剪、生成及优化工具

开源 Tailor v0.1.5 一款功能强大的视频智能裁剪、生成及优化工具

Tailor 是一款功能强大的视频智能裁剪、生成及优化工具。这款软件集成了最先进的人工智能技术,为用户提供了前所未有的视频处理体验。Tailor涵盖了视频剪辑、视频生成和视频优化三大核心功能,共包含10种不同的处理方法。在视频剪辑方面,Tailor拥有精准的人脸识别技术,能够自动捕捉视频中的精彩人脸瞬间,并允许用户轻松选择关注的人脸进行裁剪,...
软件 0
PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID是一个由ByteDance Inc.开发的开源项目,专注于通过对比对齐技术实现纯净且高效的图像生成ID定制化。该项目由Zinan Guo、Yanze Wu、Zhuowei Chen、Lang Chen和Qian He等研究人员共同贡献,其中Zinan Guo和Yanze Wu为等量贡献者,Yanze Wu为通讯作者。PuLID项目的...
AI,开源 0
开源 CogVideoX 文字生成视频 整合包

开源 CogVideoX 文字生成视频 整合包

CogVideoX是智谱AI推出的一款开源视频生成模型,该项目在视频生成领域引起了广泛关注。以下是对CogVideoX开源项目的详细介绍:一、项目背景与简介CogVideoX作为智谱AI的创新成果,旨在通过深度学习技术将文本或图像转换为高质量的视频内容。该项目不仅推动了视频生成技术的边界,还为创作者提供了全新的创作工具和平台。CogVideo...
AI,开源 0
PhotoMaker v2 整合包 高效地定制化生成任意风格的逼真人类照片!附视频教程

PhotoMaker v2 整合包 高效地定制化生成任意风格的逼真人类照片!附视频教程

PhotoMaker是一个由腾讯ARC实验室和南开大学MCG-NKU联合开发的前沿图像生成工具,该项目在CVPR 2024会议上进行了展示。PhotoMaker旨在通过堆叠的ID嵌入技术,实现对真实人类照片的定制化编辑与生成。其核心功能在于能够迅速根据用户提供的参考图像(ID图像),结合文本提示,生成具有高度身份一致性(ID fidelity...
AI,开源 0
开源 AI EmotiVoice 易魔声 文本生成语音  一款功能强大且现代的开源文本转语音(TTS)引擎

开源 AI EmotiVoice 易魔声 文本生成语音 一款功能强大且现代的开源文本转语音(TTS)引擎

EmotiVoice(易魔声)是一款功能强大且现代的开源文本转语音(TTS)引擎,由网易有道开源并维护。该软件以其中英文双语支持和超过2000种不同的音色而闻名,为用户提供了极为丰富的声音选择。以下是对EmotiVoice(易魔声)的详细介绍:一、核心功能双语言支持:EmotiVoice支持中英文两种语言的文本转语音,满足了不同用户的语言需求...
AI,软件 0