VisoMaster +VisoMaster-Fusion v1.0  基于rope的二次开发 一款功能强大、易于使用且高效的开源换脸工具 中文版 支持50系英伟达显卡运行 一键整合包

VisoMaster +VisoMaster-Fusion v1.0 基于rope的二次开发 一款功能强大、易于使用且高效的开源换脸工具 中文版 支持50系英伟达显卡运行 一键整合包

VisoMaster 还不错的一个换脸工具,界面也是简洁的很,花了一天的时间做了整合包+汉化。VisoMaster是一款功能强大且易于使用的面部替换与编辑工具,专为图像和视频设计。它利用先进的人工智能技术,能够以最少的努力产生自然逼真的效果,因此无论是普通用户还是专业人士都能轻松上手。这款软件以其独特的魅力和实用性,在图像与视频编辑领域脱颖而...
AI,开源 3.4万 74
EditMGT 用文字"指挥"AI修图,想改哪里改哪里 5秒即可完成编辑 一键整合包 v20260219

EditMGT 用文字"指挥"AI修图,想改哪里改哪里 5秒即可完成编辑 一键整合包 v20260219

EditMGT(Masked Generative Transformer for Image Editing)是一个基于掩码生成式变压器的先进图像编辑框架,由字节跳动(ByteDance)主导研发,联合上海交通大学、新加坡国立大学、香港科技大学(广州)等高校共同完成。✨ 核心特点1. 技术创新采用**掩码生成式变压器(Masked Gene...
AI 3343 3
电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

FASHN VTON v1.5 是由 Fashn AI 推出的开源虚拟试衣项目。该项目基于先进的扩散模型技术,旨在解决电商、时尚设计和图像生成领域中“模特换装”的核心需求。它能够将任意一张服装图片逼真地“穿”在指定人物身上,同时保持人物的面部、姿态和背景环境高度一致。以下是该项目的详细介绍:1. 项目概述FASHN VTON v1.5 是一个...
AI,开源 4777 7
SoulX-Singer:一键克隆任意声音,让AI替你唱歌 无需训练,秒变歌手 一键整合包 v20260208

SoulX-Singer:一键克隆任意声音,让AI替你唱歌 无需训练,秒变歌手 一键整合包 v20260208

SoulX-Singer 是一个由 Soul-AI Lab 开发的零样本歌声合成(Zero-Shot Singing Voice Synthesis)开源项目。该项目旨在通过先进的深度学习技术,让用户能够在无需大量训练数据的情况下,克隆任意人的声音并用于歌声合成。核心功能1. 零样本音色克隆SoulX-Singer 的核心能力是零样本音色迁移...
AI,开源 6390 4
轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外...
AI,开源 5474 22
ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step是一个开源的音乐生成基础模型项目,旨在通过全面的架构设计克服现有音乐生成方法的局限性,并实现最先进的性能。以下是对该项目的详细介绍:项目背景与目标:ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题,提出了一种新的解决方案。项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型,使...
AI 5669 7
影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

SeedVR2 图像/视频超分工具这是一款基于 ComfyUI-SeedVR2_VideoUpscaler 官方推理 CLI 开发的图形化 Web 封装工具。它提供了一个现代化、汉化且高度可配置的网页界面,使用户无需编写命令行代码即可轻松对图片和视频进行高质量的 AI 超分辨率处理。核心功能1. 多模态与批量处理图片超分:支持单张图片或批量上...
AI,开源 3525 0
Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...
AI 7067 6
Z-Image(造相)AI文生图  v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)AI文生图 v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)是阿里巴巴通义实验室(Tongyi MAI)推出的高效图像生成基础模型家族,以"小参数、高质量、极速推理"为核心设计理念,在开源图像生成领域树立了新的性能标杆。核心技术特点参数规模与架构:采用 60 亿参数(6B)的轻量级设计,基于创新的可扩展单流扩散 Transformer(S3-DiT)架构,将文...
AI 5591 10
Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

欢迎使用基于 Qwen-Image-Edit 模型的全功能 AI 图像编辑工具。本项目集成了先进的 SDNQ 量化技术,将庞大的大语言模型与扩散模型压缩至极致,在保持高质量输出效果的同时,大幅降低了显存占用并提升了推理速度。这不是一个简单的图像滤镜工具,而是一个能够理解复杂自然语言指令的“数字修图师”。通过动态加载专用的 LoRA 适配器,它...
AI 5839 2
开源 神器 Stability Matrix  一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

开源 神器 Stability Matrix 一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

Stability Matrix是由Lykos AI开发的一款革命性工具,专为简化Stable Diffusion的使用和管理而设计。作为一款多平台包管理器和推理用户界面,它极大地提升了Stable Diffusion的易用性和用户体验。核心功能多平台支持:Stability Matrix支持macOS、Windows和Linux系统,确保用...
AI,开源 6300 1
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
AI,开源 5744 5
深度整合 FLUX.2-klein-base-9B:一款为内容创作者打造的本地化 AI 绘图+多图片编辑工具 一键整合包 v20260123

深度整合 FLUX.2-klein-base-9B:一款为内容创作者打造的本地化 AI 绘图+多图片编辑工具 一键整合包 v20260123

🎨 FLUX.2 Klein 本地图像生成与编辑工具 —— 功能详解这是一款基于FLUX.2 Klein 模型的本地化 AI 图像生成与编辑工具,专为内容创作者、自媒体运营者和设计师打造。无需联网,完全离线运行,支持文生图与图生图编辑,界面简洁直观,开箱即用。🖼️ 功能一:文生图(Text-to-Image)输入一段中文或英文提示词,即可生成...
AI 5413 22
Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

一、什么是 TTS?TTS(Text-To-Speech)是一种将文字转换为自然语音的技术,广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面(基于 Gradio),用户可以输入任意文本,并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...
AI 9572 9
轻量、快速、免费、无需显卡 EasyTTS 重新定义本地 TTS 体验 一键整合包 v20260117

轻量、快速、免费、无需显卡 EasyTTS 重新定义本地 TTS 体验 一键整合包 v20260117

EasyTTS(由 GitHub 用户 yunchenqwq 开发)是一个专注于中文语音合成的开源文本转语音(Text-to-Speech, TTS)系统,其核心目标是提供一个无需复杂依赖、无需训练、本地运行、开箱即用的高质量 TTS 解决方案。该项目特别针对中文用户在实际使用中常见的痛点(如多音字错误、语调生硬、部署困难等)进行了优化,强调...
AI,开源 3089 0
 VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室(Audio, Speech and Language Processing Laboratory)开发的一款先进的指令式文本到语音(instruct text-to-speech)开源模型。2该项目代表了语音合成技术的前沿发展方...
开源 2857 0
AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

Qwen-Image-2512 图像生成器 一键整合包基于 Qwen3 大模型的专业级 AI 图像生成工具采用 BNB-NF4 4-bit 量化优化技术,在保障超高图像质量的同时显著降低硬件资源消耗,为创作者提供流畅、高效、稳定的 AI 绘图体验。搭载直观的 Gradio Web 界面,告别命令行,一键生成专业级图像。⚙️ 系统要求显卡:NV...
AI 4320 5
GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体...
AI,开源 1.1万 4
人工智能AI相关工具软件 合集整理

人工智能AI相关工具软件 合集整理

一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 ——全能AI图像编辑神器来了!beterpic造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图 一键整合包一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic视频4倍高清修复,一键...
AI,软件 4.5万 17
洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet  v2.0 一键整合包

洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet v2.0 一键整合包

ZIT-ControlNet(Z-Image Turbo ControlNet)—— 精准可控的 AI 图像生成与编辑工具项目简介ZIT-ControlNet(全称Z-Image Turbo ControlNet)是一个基于ControlNet 技术构建的开源图像生成控制项目,致力于在生成图像时实现高精度引导与编辑,同时最大程度保留原始图像的...
开源 1.1万 17
"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 4889 2
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 4382 6
"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

🎙️ VibeVoice:你的超级AI配音员"把文字变成自然对话的魔法工具"🌟 什么是VibeVoice?想象一下,有一位永不疲倦的配音员,能一口气生成90分钟不间断的语音内容,还能在对话中自如切换不同角色的声音——这就是微软开发的VibeVoice,一款革命性的AI语音生成工具!💡 它能为你做什么?(实用场景)场景用途效...
AI,开源 7772 19
AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已...
AI,开源 5854 6
 AI智能去水印神器   27Watermark v2.0 一键去除视频水印,保持原画质 v20251012  针对sora和通义AI生成的视频水印去除 效果非常好

AI智能去水印神器 27Watermark v2.0 一键去除视频水印,保持原画质 v20251012 针对sora和通义AI生成的视频水印去除 效果非常好

📖 什么是27Watermark?27Watermark 是一款基于先进AI技术的智能视频和图片去水印工具。它使用最新的FLUX.1-Kontext模型,能够智能识别并移除视频和图片中的水印,同时完美保持原始内容的完整性和质量。🎯 核心功能✨ 智能去水印精准识别:AI自动识别水印位置和类型智能修复:用周围背景自然填补水印区域质量保持:保持原始...
AI 7899 2
图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

ComfyUI 是一个基于节点(Node-based)的图形界面工具,专为使用 Stable Diffusion及其衍生模型进行图像生成而设计。它通过可视化的流程图方式,让用户无需编写代码即可构建复杂的生成工作流。🧩 1. 可视化流程图系统节点式编辑器:将每一个操作(如加载模型、输入提示词、图像采样等)封装为独立节点,用户可以通过拖拽连接这些...
AI,开源 8069 3
开源 AI人脸替换工具离线版V8.7 兼容50系列显卡 CPU、显存占用优化,速度更快 一张图实现视频或者图片换脸,完全免费!附演示和教程视频

开源 AI人脸替换工具离线版V8.7 兼容50系列显卡 CPU、显存占用优化,速度更快 一张图实现视频或者图片换脸,完全免费!附演示和教程视频

这是热心网友万能君做的一个整合包,整合包里面已经包含了几个换脸项目和一些高清修复功能等,具体可以看下图截图所示。要顺利使用这个工具,必须做好以下几点第一个 这个工具只支持CPU+N卡。如果需要使用N卡,一定要先安装好驱动和CUDA。第二个 一定要安装好运行库。https://www.jian27.com/html/2290.html第三个 所...
AI 518.1万 10108
一键整合包 Step-Audio-EditX  v20251112 解压即用,支持情绪/方言/语气词!让AI说话像真人一样“有血有肉”

一键整合包 Step-Audio-EditX v20251112 解压即用,支持情绪/方言/语气词!让AI说话像真人一样“有血有肉”

🧠 什么是 Step-Audio-EditX?Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数(3B)的大语言模型(LLM)驱动的先进音频编辑系统,专注于 高表现力、可迭代、细粒度的语音编辑与零样本语音合成(TTS)。它不仅能高质量克隆任意人声,还能对语音的情绪、说话风格、副语言特征(如笑声、叹息等)...
AI,开源 4599 2
输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

腾讯 AI Lab 推出的一个 “AI 自动生成完整歌曲” 的免费工具。你只需要提供一段歌词,它就能帮你自动配上人声 + 伴奏,生成一首像模像样的歌,支持中文和英文!🎤 它能做什么?你写歌词,AI 唱出来:你只要写下带结构的歌词(比如“[主歌]……[副歌]……”),AI 会自动配上旋律、人声和背景音乐。支持风格定制:你可以指定歌曲风格(比如“...
AI,开源 7007 16
中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

剑二十七 · 基于 ModelScope 模型 Macadam/macbert4mdcspell_v2 二次开发本系统采用先进的 MacBERT 预训练语言模型,专为中文文本拼写与语法错误检测与修正设计,支持任意长度文本、智能分段处理,并严格保留原始格式(包括换行、空行、标点等),适用于论文、公文、OCR 识别结果、手写转录等多种场景。✅ 核...
AI 2.4万 92
 AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成(TTS)系统,专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。🔍 项目核心特点1. 长篇多轮多说话人对话生成支持生成多人交替对话的播客内容(如主持人 + 嘉宾);能处理长文本输入,保持语音连贯性和角色一致性;适...
AI,开源 5025 1
支持图像、动图、短视频、PDF:AI逐页/逐帧分析,AI不仅能看懂,还能回答你的问题  Qwen3-VL 一键整合包 v20251024

支持图像、动图、短视频、PDF:AI逐页/逐帧分析,AI不仅能看懂,还能回答你的问题 Qwen3-VL 一键整合包 v20251024

基于 Qwen3-VL-4B-Instruct 的多模态智能交互平台📌 简介本应用是一个基于 通义千问 Qwen3-VL-4B-Instruct 大模型的多模态推理系统,支持对 图像、视频、PDF 文档、GIF 动图 等多种媒体内容进行智能理解与分析,并能自动生成精准描述、解答问题或提取关键信息。借助 Gradio 构建的直观 Web 界面,...
AI,开源 4170 0