GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体...
AI,开源 1万 4
人工智能AI相关工具软件 合集整理

人工智能AI相关工具软件 合集整理

一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 ——全能AI图像编辑神器来了!beterpic造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图 一键整合包一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic视频4倍高清修复,一键...
AI,软件 4.2万 17
你想怎么改图?它就怎么改 Qwen-Image-Edit-2511 实现真正可控的 AI 图片编辑 v20251231 一键整合包

你想怎么改图?它就怎么改 Qwen-Image-Edit-2511 实现真正可控的 AI 图片编辑 v20251231 一键整合包

Qwen-Image-Edit-2511 是由阿里云推出的新一代多模态图像编辑大模型,属于 Qwen 系列在视觉生成与编辑方向的重要迭代。该模型基于 Qwen-Image-Edit 系列的持续演进(如 2509、2511 版本),在保留原始图像语义结构和细节的前提下,支持高保真、高可控性的图像编辑任务。该模型主要特点包括:高保真图像编辑:在执...
AI 4368 14
一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic-4.0-20251230

一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic-4.0-20251230

这个工具是做什么的?这个程序可以自动为你的人物照片生成一段“AI绘画提示词”。简单来说:你放一张人物照片进去,它就能写出一段详细、生动、充满吸引力的文字描述,这段文字可以直接用在 AI 绘画工具(比如 Stable Diffusion)中,让 AI 画出类似风格或效果的图片。例如,它会描述:人物有多美、眼睛多勾人、嘴唇多诱人;身材曲线多么火辣...
AI 1.1万 4
洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet  v2.0 一键整合包

洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet v2.0 一键整合包

ZIT-ControlNet(Z-Image Turbo ControlNet)—— 精准可控的 AI 图像生成与编辑工具项目简介ZIT-ControlNet(全称Z-Image Turbo ControlNet)是一个基于ControlNet 技术构建的开源图像生成控制项目,致力于在生成图像时实现高精度引导与编辑,同时最大程度保留原始图像的...
开源 1万 18
"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 4200 2
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 3702 4
"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

🎙️ VibeVoice:你的超级AI配音员"把文字变成自然对话的魔法工具"🌟 什么是VibeVoice?想象一下,有一位永不疲倦的配音员,能一口气生成90分钟不间断的语音内容,还能在对话中自如切换不同角色的声音——这就是微软开发的VibeVoice,一款革命性的AI语音生成工具!💡 它能为你做什么?(实用场景)场景用途效...
AI,开源 7138 19
AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已...
AI,开源 5369 6
 AI智能去水印神器   27Watermark v2.0 一键去除视频水印,保持原画质 v20251012  针对sora和通义AI生成的视频水印去除 效果非常好

AI智能去水印神器 27Watermark v2.0 一键去除视频水印,保持原画质 v20251012 针对sora和通义AI生成的视频水印去除 效果非常好

📖 什么是27Watermark?27Watermark 是一款基于先进AI技术的智能视频和图片去水印工具。它使用最新的FLUX.1-Kontext模型,能够智能识别并移除视频和图片中的水印,同时完美保持原始内容的完整性和质量。🎯 核心功能✨ 智能去水印精准识别:AI自动识别水印位置和类型智能修复:用周围背景自然填补水印区域质量保持:保持原始...
AI 7368 0
图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

图像生成神器:用AI画图,零代码也能玩,拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

ComfyUI 是一个基于节点(Node-based)的图形界面工具,专为使用 Stable Diffusion及其衍生模型进行图像生成而设计。它通过可视化的流程图方式,让用户无需编写代码即可构建复杂的生成工作流。🧩 1. 可视化流程图系统节点式编辑器:将每一个操作(如加载模型、输入提示词、图像采样等)封装为独立节点,用户可以通过拖拽连接这些...
AI,开源 7597 3
开源 AI人脸替换工具离线版V8.7 兼容50系列显卡 CPU、显存占用优化,速度更快 一张图实现视频或者图片换脸,完全免费!附演示和教程视频

开源 AI人脸替换工具离线版V8.7 兼容50系列显卡 CPU、显存占用优化,速度更快 一张图实现视频或者图片换脸,完全免费!附演示和教程视频

这是热心网友万能君做的一个整合包,整合包里面已经包含了几个换脸项目和一些高清修复功能等,具体可以看下图截图所示。要顺利使用这个工具,必须做好以下几点第一个 这个工具只支持CPU+N卡。如果需要使用N卡,一定要先安装好驱动和CUDA。第二个 一定要安装好运行库。https://www.jian27.com/html/2290.html第三个 所...
AI 513.6万 10220
一键整合包 Step-Audio-EditX  v20251112 解压即用,支持情绪/方言/语气词!让AI说话像真人一样“有血有肉”

一键整合包 Step-Audio-EditX v20251112 解压即用,支持情绪/方言/语气词!让AI说话像真人一样“有血有肉”

🧠 什么是 Step-Audio-EditX?Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数(3B)的大语言模型(LLM)驱动的先进音频编辑系统,专注于 高表现力、可迭代、细粒度的语音编辑与零样本语音合成(TTS)。它不仅能高质量克隆任意人声,还能对语音的情绪、说话风格、副语言特征(如笑声、叹息等)...
AI,开源 4202 2
输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

输入一段歌词,AI 自动生成带人声+伴奏的歌(支持中文) 腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

腾讯 AI Lab 推出的一个 “AI 自动生成完整歌曲” 的免费工具。你只需要提供一段歌词,它就能帮你自动配上人声 + 伴奏,生成一首像模像样的歌,支持中文和英文!🎤 它能做什么?你写歌词,AI 唱出来:你只要写下带结构的歌词(比如“[主歌]……[副歌]……”),AI 会自动配上旋律、人声和背景音乐。支持风格定制:你可以指定歌曲风格(比如“...
AI,开源 6433 17
中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

剑二十七 · 基于 ModelScope 模型 Macadam/macbert4mdcspell_v2 二次开发本系统采用先进的 MacBERT 预训练语言模型,专为中文文本拼写与语法错误检测与修正设计,支持任意长度文本、智能分段处理,并严格保留原始格式(包括换行、空行、标点等),适用于论文、公文、OCR 识别结果、手写转录等多种场景。✅ 核...
AI 2.3万 94
MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD:一个高质量的开源中文文本到语音合成系统 一键整合包 v20251104 支持免费商业使用

MOSS-TTSD 是由 OpenMOSS 社区开发的一个开源项目,主要聚焦于 文本到语音合成(Text-to-Speech, TTS)领域。该项目是 MOSS 系列模型生态的一部分,旨在提供高质量、低延迟的语音合成能力,适用于多种语言和场景。以下是对该项目的核心功能与技术特点的介绍说明:🎯 项目定位MOSS-TTSD 是一个专注于中文及多语...
AI,开源 6602 11
DeepSeek 本地部署一键运行 DeepSeek-tool v17,解压即可使用 最低支持2G显卡 支持99%的语言大模型 支持联网搜索+知识库

DeepSeek 本地部署一键运行 DeepSeek-tool v17,解压即可使用 最低支持2G显卡 支持99%的语言大模型 支持联网搜索+知识库

琢磨了一天,把DeepSeek的本地部署彻底完成了,并测试了一下午基本完美运行了。当然AI环境你们必须要先安装好。然后下载这个这个本地部署压缩,解压即可完美运行。我的4070ti spuer 运行32b已经是极限了,所以我也只能把模型下载到32b了,如果你们有更牛的显卡,可以继续下载模型。这是我运行14b的截图 你们看看显...
AI,开源 1.4万 36
 AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

AI 播客 :一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发 一键整合包 v20251103

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成(TTS)系统,专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。🔍 项目核心特点1. 长篇多轮多说话人对话生成支持生成多人交替对话的播客内容(如主持人 + 嘉宾);能处理长文本输入,保持语音连贯性和角色一致性;适...
AI,开源 4515 1
AI 提示词智能增强工具 基于 Qwen3 大模型,可直接用于图像生成的专业级提示词,专为AI图像生成创作者打造 27PromptEnhancer v1.1

AI 提示词智能增强工具 基于 Qwen3 大模型,可直接用于图像生成的专业级提示词,专为AI图像生成创作者打造 27PromptEnhancer v1.1

本工具基于 Qwen3 系列轻量化大模型(Qwen3-0.6B 与 Qwen3-1.7B,GPTQ Int8 量化版本),专为图像生成(如 Stable Diffusion、Midjourney 等)用户设计,帮助你将简单粗糙的提示词自动优化为高细节、高表现力、风格明确的专业级描述。🔧 核心功能双模型可选Qwen3-0.6B:轻量快速,适合日...
AI 2733 0
支持图像、动图、短视频、PDF:AI逐页/逐帧分析,AI不仅能看懂,还能回答你的问题  Qwen3-VL 一键整合包 v20251024

支持图像、动图、短视频、PDF:AI逐页/逐帧分析,AI不仅能看懂,还能回答你的问题 Qwen3-VL 一键整合包 v20251024

基于 Qwen3-VL-4B-Instruct 的多模态智能交互平台📌 简介本应用是一个基于 通义千问 Qwen3-VL-4B-Instruct 大模型的多模态推理系统,支持对 图像、视频、PDF 文档、GIF 动图 等多种媒体内容进行智能理解与分析,并能自动生成精准描述、解答问题或提取关键信息。借助 Gradio 构建的直观 Web 界面,...
AI,开源 3808 0
DeepSeek-OCR 可视化工具:支持自由OCR、Markdown转换、图表解析与目标定位 一键整合包 v20251023

DeepSeek-OCR 可视化工具:支持自由OCR、Markdown转换、图表解析与目标定位 一键整合包 v20251023

🐳 DeepSeek-OCR 智能图像文字识别工具 — 使用说明🌟 这是什么?这是一个智能图像处理工具,可以自动从你上传的图片中:识别文字内容把文档转成 Markdown 格式(适合写博客、笔记)解析图表数据(比如柱状图、折线图里的数字)定位图片中的特定内容(比如“找出老师在哪里”)它基于先进的 AI 模型(DeepSeek-OCR),由剑二...
AI,开源 3369 4
一句话改图,两张图参考——DreamOmni2 让 AI 理解你的编辑意图 一键整合包优化版 v20251014 支持风格迁移、物体替换、光照调整等全能图像编辑

一句话改图,两张图参考——DreamOmni2 让 AI 理解你的编辑意图 一键整合包优化版 v20251014 支持风格迁移、物体替换、光照调整等全能图像编辑

DreamOmni2 是一个“万能图像编辑器” —— 你给它两张图 + 一句指令,它就能智能地把第一张图“改”成你想要的样子,参考第二张图的风格、内容、细节等。🖼️ 它能做什么?(举几个例子)你想做什么DREAMOMNI2 能做到把照片里的衣服换成另一件✅ 上传原图 + 新衣服图 + 指令:“把第一张图的衣服换成第二张的”让人物发型和参考图一...
AI,开源 3633 0
Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包  v20251008

Kani TTS:轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音(TTS)系统,致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务,适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址:https://github.com/n...
AI,开源 5175 0
27video v3.1 超级强大AI视频抠像工具 剑二十七原创作品 附视频演示

27video v3.1 超级强大AI视频抠像工具 剑二十七原创作品 附视频演示

这个工具基于AI大模型BiRefNet文件二次开发。可以对视频进行抠像。速度快,效果也不错。对显卡占用很低,8G的英伟达显卡就可以流畅运行了。操作极其简单,无需任何基础 会点鼠标即可。下面截图几张抠像效果演示20241209 v1.1 更新记录1 保留白色和黑色背景这2种视频抠像,新增了一个自定义背景图片抠像。2...
AI,开源 1.5万 55
不止AI抠图,更懂细节,应该是最强的AI抠图了,集合了15种抠图模型:BiRefNet 覆盖多场景图像抠除处理需求 一键整合包 v20250920

不止AI抠图,更懂细节,应该是最强的AI抠图了,集合了15种抠图模型:BiRefNet 覆盖多场景图像抠除处理需求 一键整合包 v20250920

BiRefNet 是一个专注于 高分辨率二值图像分割(Dichotomous Image Segmentation, DIS) 的开源深度学习模型。它在背景移除、前景提取、掩码生成等任务中表现出卓越性能,广泛应用于:图像编辑与合成视觉特效处理自动抠图(无需 Trimap)数字内容创作(如 Blender 插件、AI 绘画工具集成)🚀 核心特性...
AI,开源 8068 1
IndexTTS  v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...
AI,软件 2万 51
开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力,适用于多种应用场景,如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术,采用了先进的神经网络架构(如 Tacotron、FastSpee...
AI,开源 1.8万 16
无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

这是一个傻瓜式 AI 图像工具,你只需要:输入一段文字描述(比如:“一个穿汉服的美女在大树下微笑”)点一下“开始处理”等几秒~几分钟 → AI 自动生成一张精美图片!你还可以:✏️ 编辑已有图片:上传一张图,告诉 AI “把她的头发染成蓝色”、“加一只猫”、“换成海滩背景” → AI 自动修改!📸 批量生成:一次输入 10 行、100 行描述...
AI 3628 0
一键生成视频内容:Wan2.2让AI创作变得简单  基于官方开源模型二次开发 6分钟出视频 v20250913

一键生成视频内容:Wan2.2让AI创作变得简单 基于官方开源模型二次开发 6分钟出视频 v20250913

Wan2.2-TI2V-5B 是一个基于 Transformer 架构的文本到视频(Text-to-Video)生成模型,具有以下特点:🔧 核心特性50亿参数规模:大型 Transformer 模型,具备强大的视频生成能力文本生成视频(T2V):直接根据文本描述生成视频内容图像生成视频(I2V):基于参考图像生成相关视频内容高分辨率支持:支持...
AI,开源 4088 0
"字节跳动放大招:AI绘画终于能'换装不换人'了!" 能保持主体一致性 USO v20250903 一键整合包

"字节跳动放大招:AI绘画终于能'换装不换人'了!" 能保持主体一致性 USO v20250903 一键整合包

🌟 USO:字节跳动开源的内容与风格解耦统一框架🔍 项目简介USO (Unified Style-Subject Optimized) 是字节跳动UXO团队推出的创新性开源项目,全称为"内容与风格解耦与重组统一框架"。该项目旨在解决图像生成领域中长期存在的风格与内容难以平衡的技术难题,为AI图像创作提供更灵活、更高质量的解...
AI,开源 3645 4
这个开源AI,让你0基础创作歌曲 YuE v20250902  支持50系显卡,最低英伟达12G 显卡

这个开源AI,让你0基础创作歌曲 YuE v20250902 支持50系显卡,最低英伟达12G 显卡

YuE 是由 Multimodal Art Projection (MAP) 团队推出的开源音乐生成基础模型项目,旨在推动开放、可控、高质量的 AI 音乐生成技术发展。该项目专注于实现从文本(如歌词和风格描述)到完整歌曲的端到端生成,是当前 AI 音乐领域中一个功能强大且具有前瞻性的开源解决方案。核心特点与技术亮点全曲生成 (Full-Son...
AI,开源 3029 0
nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

心血来潮,想试试FLUX.1-Kontext-dev 这个新出的模型,但是奈何显卡不是很牛X,生图效率不够高,所以找了下,发现nunchaku 双截棍 这个量化模型还不错,就花了点时间学习下。然后又花点时间写了个界面,方便大伙来玩玩这个。 我的4070ti spuer 16G 30步 出1024x1024 大概30秒,显卡占用不到4G,这个效...
AI,开源 1.9万 95