Jan 一个功能强大的开源ChatGPT替代品 支持deepseek v0.7.6

Jan 一个功能强大的开源ChatGPT替代品 支持deepseek v0.7.6

Jan:开源的ChatGPT替代品项目概述:Jan是一个开源的ChatGPT替代品,允许用户在其计算机上100%离线运行。这意味着用户无需网络连接即可使用AI功能。项目托管在GitHub上,由janhq团队维护,遵循AGPL-3.0许可证。功能特点:离线运行:Jan支持在任何硬件上运行,从个人电脑到多GPU集群,无需外部服务器或网络连接。多平...
软件 5833 0
轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外...
AI,开源 4729 23
免费 AI 人声 替换AI 唱歌 伴奏分离软件 Replay 附视频演示和教程 v8.7.0

免费 AI 人声 替换AI 唱歌 伴奏分离软件 Replay 附视频演示和教程 v8.7.0

上面是这个工具的视频演示和教程。基本上是有手就行了。早几天分享的文字转语音工具,有小伙伴在问是否有人声替换工具?今天分享这个的工具 不仅是人声替换,还可以分离人声,AI唱歌就太简单了。像网上流传很广的孙燕姿唱周杰伦的歌这类的视频和教程已经很多了。我之前也不是没有研究过,但是一直没有分享是因为这类教程对于普通的小伙伴来讲入门的门槛有点高,操作...
软件 2.5万 57
开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

这个工具我用来很长一段时间了,只是我居然一直忘记给大伙分享出来,直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译,实际上远远不只这些功能,我一直用这个工具来做字幕识别,比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高,超级方便。本来想今天一早就分享出来,但是事情比较多,又是瞎折腾的一天...
AI,开源 1.5万 29
ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step是一个开源的音乐生成基础模型项目,旨在通过全面的架构设计克服现有音乐生成方法的局限性,并实现最先进的性能。以下是对该项目的详细介绍:项目背景与目标:ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题,提出了一种新的解决方案。项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型,使...
AI 5170 7
影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

SeedVR2 图像/视频超分工具这是一款基于 ComfyUI-SeedVR2_VideoUpscaler 官方推理 CLI 开发的图形化 Web 封装工具。它提供了一个现代化、汉化且高度可配置的网页界面,使用户无需编写命令行代码即可轻松对图片和视频进行高质量的 AI 超分辨率处理。核心功能1. 多模态与批量处理图片超分:支持单张图片或批量上...
AI,开源 3196 0
轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v8.0 六秒出图 支持更换模型+图片超分+图生图

轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v8.0 六秒出图 支持更换模型+图片超分+图生图

CyberIllustrious是一个基于 Stable Diffusion模型架构的二次创作(LoRA 或 Dreambooth)模型,主要专注于生成具有“未来感”、“赛博朋克”和“华丽视觉风格”的高质量插画内容。它通常被用于图像生成平台如 NovelAI、Stable Diffusion WebUI或 ComfyUI中。🧠 模型简介项目内...
AI,开源 1.4万 31
Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...
AI 6652 6
神器 开源 一键安装!Pinokio 支持目前主流的大部分AI项目,操作极其简单  v6.0.10

神器 开源 一键安装!Pinokio 支持目前主流的大部分AI项目,操作极其简单 v6.0.10

这个工具全部都是免费的。我记得之前有个叫什么白的工具貌似还收费,这个基本上你听说过的AI开源项目 它都有,而且还是一键安装。一个工具整合AI绘画、AI视频、AI语音,还有AI数字人的工具:AI 绘画,又能 AI 对话、AI 视频生成、AI语音生成,还能 AI 数字人支持 W...
软件 6748 7
Z-Image(造相)AI文生图  v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)AI文生图 v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)是阿里巴巴通义实验室(Tongyi MAI)推出的高效图像生成基础模型家族,以"小参数、高质量、极速推理"为核心设计理念,在开源图像生成领域树立了新的性能标杆。核心技术特点参数规模与架构:采用 60 亿参数(6B)的轻量级设计,基于创新的可扩展单流扩散 Transformer(S3-DiT)架构,将文...
AI 5154 10
Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

欢迎使用基于 Qwen-Image-Edit 模型的全功能 AI 图像编辑工具。本项目集成了先进的 SDNQ 量化技术,将庞大的大语言模型与扩散模型压缩至极致,在保持高质量输出效果的同时,大幅降低了显存占用并提升了推理速度。这不是一个简单的图像滤镜工具,而是一个能够理解复杂自然语言指令的“数字修图师”。通过动态加载专用的 LoRA 适配器,它...
AI 5493 2
开源 神器 Stability Matrix  一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

开源 神器 Stability Matrix 一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

Stability Matrix是由Lykos AI开发的一款革命性工具,专为简化Stable Diffusion的使用和管理而设计。作为一款多平台包管理器和推理用户界面,它极大地提升了Stable Diffusion的易用性和用户体验。核心功能多平台支持:Stability Matrix支持macOS、Windows和Linux系统,确保用...
AI,开源 6019 1
输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260126

输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260126

HeartMuLa/heartlib:开源音乐基础模型家族深度解析项目定位与愿景HeartMuLa是一个全面的开源音乐基础模型家族,旨在推动跨任务与多模态的大规模音乐理解与生成技术发展。该项目不仅仅是一个单一的模型,而是一个完整的生态系统,涵盖了从音乐理解到完整曲目生成的全链条能力。其核心目标是为研究社区和开发者提供可复现、可扩展的音乐AI工...
AI,开源 7461 11
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
AI,开源 5420 6
深度整合 FLUX.2-klein-base-9B:一款为内容创作者打造的本地化 AI 绘图+多图片编辑工具 一键整合包 v20260123

深度整合 FLUX.2-klein-base-9B:一款为内容创作者打造的本地化 AI 绘图+多图片编辑工具 一键整合包 v20260123

🎨 FLUX.2 Klein 本地图像生成与编辑工具 —— 功能详解这是一款基于FLUX.2 Klein 模型的本地化 AI 图像生成与编辑工具,专为内容创作者、自媒体运营者和设计师打造。无需联网,完全离线运行,支持文生图与图生图编辑,界面简洁直观,开箱即用。🖼️ 功能一:文生图(Text-to-Image)输入一段中文或英文提示词,即可生成...
AI 4794 22
青梧字幕 —跨平台AI视频字幕智能提取翻译工具 附全部模型 v1.3.6

青梧字幕 —跨平台AI视频字幕智能提取翻译工具 附全部模型 v1.3.6

青梧字幕是一款免费简单易用的AI字幕智能提取+翻译工具,原理是利用模型自动识别5音视频文件当中的音频并生成为对应的语种字幕,实现提取及翻译后续处理操作。目前暂支持windows及mac(M及intel系例处理器)系统环境,支持识别中文、英语、日语、韩语等99种语言。毕竟市面上已有众多类似的字幕软件2或在线网页版,无非要么限制提取时长要么各种套...
软件 4351 7
Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

Qwen3-TTS 通义千问推出的高质量文本转语音工具,API调用,无字数限制,批量生成,小巧,轻量,无需显卡即可快速生成语音,剑二十七二次开发 一键整合包 v2060119 4.0

一、什么是 TTS?TTS(Text-To-Speech)是一种将文字转换为自然语音的技术,广泛应用于语音助手、有声书、导航播报、智能客服等场景。二、Qwen-TTS功能简介该项目提供了一个简单的 Web 界面(基于 Gradio),用户可以输入任意文本,并通过 Qwen 的 TTS 模型生成对应的语音文件。该工具支持中文和英文的语音合成。🔧...
AI 8993 9
轻量、快速、免费、无需显卡 EasyTTS 重新定义本地 TTS 体验 一键整合包 v20260117

轻量、快速、免费、无需显卡 EasyTTS 重新定义本地 TTS 体验 一键整合包 v20260117

EasyTTS(由 GitHub 用户 yunchenqwq 开发)是一个专注于中文语音合成的开源文本转语音(Text-to-Speech, TTS)系统,其核心目标是提供一个无需复杂依赖、无需训练、本地运行、开箱即用的高质量 TTS 解决方案。该项目特别针对中文用户在实际使用中常见的痛点(如多音字错误、语调生硬、部署困难等)进行了优化,强调...
AI,开源 2922 0
AI 图像魔法: 图片超分辨率 无损放大 x2x4 v1.0

AI 图像魔法: 图片超分辨率 无损放大 x2x4 v1.0

基于 image_gen_aux 和 Gradio 开发的通用图像增强工具。本项目集成了大量由 Phips 训练的高性能 AI 模型,支持图像去噪、去 JPEG 压缩痕迹、无损/有损放大以及动漫风格化处理。✨ 核心功能🤖 多模型支持:内置 60+ 种精选模型,涵盖 1x(修复)、2x(双倍放大)、4x(四倍放大)等多种分辨率增强需求。📱 移动...
AI 2544 0
 VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

VoiceSculptor:基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室(Audio, Speech and Language Processing Laboratory)开发的一款先进的指令式文本到语音(instruct text-to-speech)开源模型。2该项目代表了语音合成技术的前沿发展方...
开源 2644 0
AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

AI 绘万象,细节见真章:Qwen-Image-2512 专业AI图像生成 支持批量生成图片 一键整合包 v20260105

Qwen-Image-2512 图像生成器 一键整合包基于 Qwen3 大模型的专业级 AI 图像生成工具采用 BNB-NF4 4-bit 量化优化技术,在保障超高图像质量的同时显著降低硬件资源消耗,为创作者提供流畅、高效、稳定的 AI 绘图体验。搭载直观的 Gradio Web 界面,告别命令行,一键生成专业级图像。⚙️ 系统要求显卡:NV...
AI 3969 5
GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包

GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体...
AI,开源 1.1万 4
人工智能AI相关工具软件 合集整理

人工智能AI相关工具软件 合集整理

一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 ——全能AI图像编辑神器来了!beterpic造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图 一键整合包一键生成AI绘画提示词:让你的图片秒变顶级写真描述 跟之前的图片反推工具不同的是这个会思考 thinkpic视频4倍高清修复,一键...
AI,软件 4.3万 17
视频4倍高清修复,一键搞定!清华团队开源实时视频超分模型 FlashVSR 一键整合包 v20251231

视频4倍高清修复,一键搞定!清华团队开源实时视频超分模型 FlashVSR 一键整合包 v20251231

🎥 FlashVSR 是什么?FlashVSR 是一个能让模糊、低清视频“秒变高清”的智能工具。它专门用来做一件事:把低分辨率的视频,快速、高质量地放大成 4 倍清晰度的高清视频。比如:把 480p 的老视频 → 变成接近 4K 的清晰视频让手机拍的模糊视频 → 变得锐利、细节丰富⚡ 它有什么厉害的地方?过去很多“视频超分”(放大变清晰)工具...
AI,开源 5316 2
入梦AI变声器RMAIVoiceChanger v5.8 免费 免安装

入梦AI变声器RMAIVoiceChanger v5.8 免费 免安装

今天因为有点事 需要去找下变声软件。早上已经分享了一款,没想到还是给我另外一款貌似更好用,设置更加简单的变声工具,也是免费使用。入梦自己开发基于RVC的AI变声器,永久免费给大家分享使用,数十种中精选音源一键切换,建议最低配置位N卡1060以上,CPU四核心以上主频大于3.0GHZ,包集成入梦虚拟声卡,AI降噪等,入梦工具箱等辅助工具,使用简...
软件 1.2万 21
手机软件 安卓app Myne 一款功能强大、开源免费的Android电子书阅读app v4.7.1

手机软件 安卓app Myne 一款功能强大、开源免费的Android电子书阅读app v4.7.1

Myne是一款专为Android平台设计的开源应用程序,其核心功能是允许用户从Project Gutenberg下载并阅读电子书。这款应用不仅为用户提供了一个便捷的阅读平台,还通过其现代化的界面设计和丰富的功能,极大地提升了阅读体验。以下是对Myne软件的详细介绍:一、软件背景与定位Myne项目诞生于对开源精神和数字阅读需求的深刻理解。作为一...
安卓 2727 0
别只截图——让AI看懂它!Snippai秒出翻译、表格、配色方案 v0.2.1

别只截图——让AI看懂它!Snippai秒出翻译、表格、配色方案 v0.2.1

Snippai 是一款开源的 AI 截图分析工具,主打“截一下,秒懂一切”。它把传统截图工具的功能边界彻底打破:截完图后,AI 会自动识别图片里的内容并给出“下一步”服务,而不是简单保存一张图片。核心能力一览公式识别:截图里的数学公式直接变成可编辑的 LaTeX。文字提取:OCR 精准抓字,支持多语言,抓完还能顺手翻译。表格识别:把图片中的表...
AI,开源 1.2万 19
洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet  v2.0 一键整合包

洗图必备 基于 Z-Image Turbo 的多模态 ControlNet 工具:ZIT-ControlNet v2.0 一键整合包

ZIT-ControlNet(Z-Image Turbo ControlNet)—— 精准可控的 AI 图像生成与编辑工具项目简介ZIT-ControlNet(全称Z-Image Turbo ControlNet)是一个基于ControlNet 技术构建的开源图像生成控制项目,致力于在生成图像时实现高精度引导与编辑,同时最大程度保留原始图像的...
开源 1.1万 18
"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

"方言通+翻译官:一个AI,能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具 一键整合包 v20251217

CosyVoice:基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音(TTS)系统,目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型(LLM)架构,在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本,在内容一致性、说...
AI,开源 4516 2
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 4049 6
"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

"90分钟不间断!微软新AI能把你的文字变成专业播客 一键整合包 VibeVoice v20251211

🎙️ VibeVoice:你的超级AI配音员"把文字变成自然对话的魔法工具"🌟 什么是VibeVoice?想象一下,有一位永不疲倦的配音员,能一口气生成90分钟不间断的语音内容,还能在对话中自如切换不同角色的声音——这就是微软开发的VibeVoice,一款革命性的AI语音生成工具!💡 它能为你做什么?(实用场景)场景用途效...
AI,开源 7447 19
AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已...
AI,开源 5563 6