0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v11.13 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v11.13 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

Wan2GP 是专为“显卡资源有限”的用户打造的**开源视频生成工具箱**。它把目前最先进的文生视频、图生视频、视频编辑模型(Wan 2.1、Hunyuan Video、LTX Video 等)做了重度优化和封装,让只有 6-8 GB 显存的旧显卡也能跑得动、跑得快,并提供了一整套 Web 界面与周边工具,做到“开箱即玩”。一句话总结:**把...
AI,开源 0
 一键克隆任意音色,生成自然口语级语音  1B/3.5B 双模型自由切换,还原你最真实的声音  LongCat-AudioDiT v1.0 20260402 更新 一键整合包

一键克隆任意音色,生成自然口语级语音 1B/3.5B 双模型自由切换,还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新 一键整合包

LongCat-AudioDiT 语音合成工具 - 功能说明🎯 主要功能本工具基于美团开源的 LongCat-AudioDiT 扩散模型,提供高质量的文本到语音合成,并支持零样本语音克隆(只需几秒参考音频即可克隆音色)。界面采用 Gradio 构建,操作直观,适用于中文和英文混合文本。📌 核心功能模块1. 模型选择支持 1B&nbs...
AI 0
专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-1.0

专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-1.0

🎙️ Edge TTS 文本转语音 - 功能说明一、核心功能表格功能说明文本转语音使用微软 Edge TTS 引擎,将输入文本转换为自然流畅的 MP3 音频长文本支持自动分段处理(每段 ≤800 字符),支持超长文本合成音频合并自动将分段音频合并为单一文件输出多国语言支持中文、英语、日语、韩语、法语、德语等数十种语言二、语音选择系统两级联动选...
AI 0
音乐卡点视频 一键生成 支持图片+视频素材  新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 无显卡要求 剑二十七原创作品 KA v20260328

音乐卡点视频 一键生成 支持图片+视频素材 新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 无显卡要求 剑二十七原创作品 KA v20260328

卡点视频生成器是一款基于 AI大模型 智能视频自动生成工具,专为音乐爱好者、短视频创作者、自媒体运营者设计。它能根据你上传的音乐节拍/鼓点,自动从指定图片或视频素材中智能选取片段,生成节奏精准、视觉流畅的“卡点”视频,适用于抖音、快手、B站、Instagram 等平台。无需剪辑经验,一键生成专业级卡点视频!🎯 核心功能1. 🖼️ 图片卡点模式...
AI 0
造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260326 v17

造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260326 v17

Z-Image-Turbo Generator 是一个基于 Tongyi-MAI/Z-Image-Turbo 模型的高性能AI图像生成应用。通过简洁直观的Gradio界面,用户可以轻松生成高质量的1024x1024分辨率图像,特别擅长生成具有中国传统文化元素与现代风格融合的艺术作品。✨ 核心特性⚡ 极致性能优化8步极速生成:仅需8个推理步骤即...
AI,开源 0
视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学 thinkvideo v2.0

视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学 thinkvideo v2.0

🎬 剑二十七|视频反推提示词生成器让每一帧画面,都转化为可复用的创作语言🔮 核心定位这是一款面向专业内容创作者的智能视频理解工具。它不满足于简单的画面识别,而是以「镜头语言」为最小单元,深度解析视频内容,自动生成符合影视工业标准的中文提示词描述。不是「看图说话」,而是「读镜写意」。✨ 六大核心能力🎯 智能镜头分割精准识别场景切换点自适应阈值调...
AI 0
电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

FASHN VTON v1.5 是由 Fashn AI 推出的开源虚拟试衣项目。该项目基于先进的扩散模型技术,旨在解决电商、时尚设计和图像生成领域中“模特换装”的核心需求。它能够将任意一张服装图片逼真地“穿”在指定人物身上,同时保持人物的面部、姿态和背景环境高度一致。以下是该项目的详细介绍:1. 项目概述FASHN VTON v1.5 是一个...
AI,开源 0
轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外...
AI,开源 0
开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

这个工具我用来很长一段时间了,只是我居然一直忘记给大伙分享出来,直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译,实际上远远不只这些功能,我一直用这个工具来做字幕识别,比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高,超级方便。本来想今天一早就分享出来,但是事情比较多,又是瞎折腾的一天...
AI,开源 0
ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step是一个开源的音乐生成基础模型项目,旨在通过全面的架构设计克服现有音乐生成方法的局限性,并实现最先进的性能。以下是对该项目的详细介绍:项目背景与目标:ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题,提出了一种新的解决方案。项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型,使...
AI 0
Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...
AI 0
Z-Image(造相)AI文生图  v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)AI文生图 v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)是阿里巴巴通义实验室(Tongyi MAI)推出的高效图像生成基础模型家族,以"小参数、高质量、极速推理"为核心设计理念,在开源图像生成领域树立了新的性能标杆。核心技术特点参数规模与架构:采用 60 亿参数(6B)的轻量级设计,基于创新的可扩展单流扩散 Transformer(S3-DiT)架构,将文...
AI 0
Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

一、什么是 TTS?TTS(Text-To-Speech)是一种将文字转换为自然语音的技术,广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面(基于 Gradio),用户可以输入任意文本,并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...
AI 0
AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

Qwen-Image-2512 图像生成器 一键整合包基于 Qwen3 大模型的专业级 AI 图像生成工具采用 BNB-NF4 4-bit 量化优化技术,在保障超高图像质量的同时显著降低硬件资源消耗,为创作者提供流畅、高效、稳定的 AI 绘图体验。搭载直观的 Gradio Web 界面,告别命令行,一键生成专业级图像。⚙️ 系统要求显卡:NV...
AI 0
一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic-4.0-20251230

一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic-4.0-20251230

这个工具是做什么的?这个程序可以自动为你的人物照片生成一段“AI绘画提示词”。简单来说:你放一张人物照片进去,它就能写出一段详细、生动、充满吸引力的文字描述,这段文字可以直接用在 AI 绘画工具(比如 Stable Diffusion)中,让 AI 画出类似风格或效果的图片。例如,它会描述:人物有多美、眼睛多勾人、嘴唇多诱人;身材曲线多么火辣...
AI 0
"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 0
AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已...
AI,开源 0
 AI智能去水印神器   27Watermark v2.0 一键去除视频水印,保持原画质 v20251012  针对sora和通义AI生成的视频水印去除 效果非常好

AI智能去水印神器 27Watermark v2.0 一键去除视频水印,保持原画质 v20251012 针对sora和通义AI生成的视频水印去除 效果非常好

📖 什么是27Watermark?27Watermark 是一款基于先进AI技术的智能视频和图片去水印工具。它使用最新的FLUX.1-Kontext模型,能够智能识别并移除视频和图片中的水印,同时完美保持原始内容的完整性和质量。🎯 核心功能✨ 智能去水印精准识别:AI自动识别水印位置和类型智能修复:用周围背景自然填补水印区域质量保持:保持原始...
AI 0
图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

ComfyUI 是一个基于节点(Node-based)的图形界面工具,专为使用 Stable Diffusion及其衍生模型进行图像生成而设计。它通过可视化的流程图方式,让用户无需编写代码即可构建复杂的生成工作流。🧩 1. 可视化流程图系统节点式编辑器:将每一个操作(如加载模型、输入提示词、图像采样等)封装为独立节点,用户可以通过拖拽连接这些...
AI,开源 0
输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

腾讯 AI Lab 推出的一个 “AI 自动生成完整歌曲” 的免费工具。你只需要提供一段歌词,它就能帮你自动配上人声 + 伴奏,生成一首像模像样的歌,支持中文和英文!🎤 它能做什么?你写歌词,AI 唱出来:你只要写下带结构的歌词(比如“[主歌]……[副歌]……”),AI 会自动配上旋律、人声和背景音乐。支持风格定制:你可以指定歌曲风格(比如“...
AI,开源 0
 AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成(TTS)系统,专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。🔍 项目核心特点1. 长篇多轮多说话人对话生成支持生成多人交替对话的播客内容(如主持人 + 嘉宾);能处理长文本输入,保持语音连贯性和角色一致性;适...
AI,开源 0
AI 提示词智能增强工具 基于 Qwen3 大模型,可直接用于图像生成的专业级提示词,专为AI图像生成创作者打造 27PromptEnhancer v1.1

AI 提示词智能增强工具 基于 Qwen3 大模型,可直接用于图像生成的专业级提示词,专为AI图像生成创作者打造 27PromptEnhancer v1.1

本工具基于 Qwen3 系列轻量化大模型(Qwen3-0.6B 与 Qwen3-1.7B,GPTQ Int8 量化版本),专为图像生成(如 Stable Diffusion、Midjourney 等)用户设计,帮助你将简单粗糙的提示词自动优化为高细节、高表现力、风格明确的专业级描述。🔧 核心功能双模型可选Qwen3-0.6B:轻量快速,适合日...
AI 0
不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

不只是语音合成:MiMo-Audio 能理解、能生成、还能创作声音,一键整合包 v20251018

🎧 什么是 MiMo-Audio?MiMo-Audio 是小米推出的一个能听、会说、还能创作声音的智能 AI 模型。你可以把它想象成一个“超级语音大脑”——不仅能听懂你说的话,还能模仿你的声音说话、讲故事、主持节目,甚至帮你把一段话变成不同风格的语音(比如更温柔、更激昂)。🌟 它厉害在哪里?不用专门训练就能学会新任务(Few-Shot Lea...
AI,开源 0
国产AI画画太强了!一句话生成高清美图,支持中文提示词,最低6G英伟达即可运行,15秒出图 Qwen-Image+Edit一键整合包 v20250828 新增 qwen-image-edit-2509-lightningv2.0-20250927 整合包

国产AI画画太强了!一句话生成高清美图,支持中文提示词,最低6G英伟达即可运行,15秒出图 Qwen-Image+Edit一键整合包 v20250828 新增 qwen-image-edit-2509-lightningv2.0-20250927 整合包

Qwen-Image 是由通义实验室推出的多模态大模型,集成在 Qwen(通义千问)系列中,专注于实现强大的图文理解与生成能力。该模型基于 Qwen 的语言理解基础,深度融合视觉模块,使其能够同时处理和理解图像与文本信息,支持跨模态任务,如图像描述生成、视觉问答(VQA)、图文匹配、图像理解与推理等。核心特点:强大的图文理解能力Qwen-Im...
AI,开源 0
IndexTTS  v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...
AI,软件 0
无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

这是一个傻瓜式 AI 图像工具,你只需要:输入一段文字描述(比如:“一个穿汉服的美女在大树下微笑”)点一下“开始处理”等几秒~几分钟 → AI 自动生成一张精美图片!你还可以:✏️ 编辑已有图片:上传一张图,告诉 AI “把她的头发染成蓝色”、“加一只猫”、“换成海滩背景” → AI 自动修改!📸 批量生成:一次输入 10 行、100 行描述...
AI 0
一键生成视频内容:Wan2.2让AI创作变得简单  基于官方开源模型二次开发 6分钟出视频 v20250913

一键生成视频内容:Wan2.2让AI创作变得简单 基于官方开源模型二次开发 6分钟出视频 v20250913

Wan2.2-TI2V-5B 是一个基于 Transformer 架构的文本到视频(Text-to-Video)生成模型,具有以下特点:🔧 核心特性50亿参数规模:大型 Transformer 模型,具备强大的视频生成能力文本生成视频(T2V):直接根据文本描述生成视频内容图像生成视频(I2V):基于参考图像生成相关视频内容高分辨率支持:支持...
AI,开源 0
开源免费、无时间限制 数字人 图片+音频一键生成视频 InfiniteTalk v20250825

开源免费、无时间限制 数字人 图片+音频一键生成视频 InfiniteTalk v20250825

InfiniteTalk 是由 MeiGen-AI 团队开发的先进开源项目,专注于解决长视频生成中的关键挑战——实现无限长度的高质量会说话视频生成。该项目突破了传统数字人技术的时长限制,能够生成任意长度的自然流畅的"会说话"视频内容。核心功能与特点1. 无限长度视频生成突破性技术:解决了传统TTS(文本转语音)和数字人视频...
AI,开源 0
Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

本工具基于Ovis2-4B和Ovis2-2B 这2个大模型制作而成。其实早之前我就有分享过反推提示词工具 moondream,但是我昨天遇到了这个大模型,发现功能更加强大,反推出来的提示更加丰富,更多细节描述。这个工具要求显卡比较低,英伟达显卡6g及以上就可以愉快玩耍了我用同一张图片反推提示词下面是Ovis2-4B生成的提示词The...
AI,开源 0
开源·高速·高质:Shuttle Jaguar 生成电影级图像 剑二十七二次开发 20秒出图 最低6G英伟达显卡 支持50系 v20250818

开源·高速·高质:Shuttle Jaguar 生成电影级图像 剑二十七二次开发 20秒出图 最低6G英伟达显卡 支持50系 v20250818

我在网上瞎逛的时候,发现了这个模型还不错,就花点时间做了二次开发。Shuttle Jaguar 是一款由 ShuttleAI 开发的文本生成图像(Text-to-Image)人工智能模型,专注于生成具有高度审美感、电影级质感和逼真视觉效果的图像。该模型能够在仅需 四步推理 的极短时间内,将自然语言描述的文本提示(prompt)转化为高质量的图...
AI,开源 0
一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统,基于先进的深度学习技术,能够生成高质量、自然的人声。该项目在 GitHub 上开源,提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...
AI,开源 0
阿里出品 Ovis-U1-3b 多模态理解、文本到图像生成+图像编辑。 一键整合包

阿里出品 Ovis-U1-3b 多模态理解、文本到图像生成+图像编辑。 一键整合包

Ovis-U1 是由阿里巴巴AIDC-AI团队开发的一个先进的多模态大语言模型项目。这个项目专注于构建能够同时处理文本和图像信息的AI系统。核心特点多模态融合能力能够同时理解和处理文本与图像数据实现跨模态的信息理解和生成支持图文混合的输入输出场景统一架构设计采用统一的模型架构处理不同类型的模态数据简化了传统多模态系统中复杂的模块组合提高了模型...
AI,开源 0