站长推荐

新一代开源 免费 AI换脸神器 FaceFusion v3.6.0 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260318 更新新一代开源 免费 AI换脸神器 FaceFusion v3.6.0 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260318 更新
微软常用运行库合集(Microsoft Visual C++ Redistributable) Windows电脑系统必装软件 2026.01.17 再次更新微软常用运行库合集(Microsoft Visual C++ Redistributable) Windows电脑系统必装软件 2026.01.17 再次更新
开源 换脸工具 roop_unleashed v7.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示开源 换脸工具 roop_unleashed v7.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示
0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v10.98 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v10.98 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了
别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3
新一代开源 免费 AI换脸神器 FaceFusion v3.6.0 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260318 更新

新一代开源 免费 AI换脸神器 FaceFusion v3.6.0 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260318 更新

FaceFusion这个AI换脸的项目已经太久没有更新了。作者终于在昨天更新了3.0,更新幅度大得惊人。这么久不更新,原来是一直在憋大招,这个CD冷却也太久了。。。我第一次时间就去做整合包了。本以为这还不是有手就行的事,但是有点难度。因为3.0更新太大了,所以之前版本的模型还有一些东西根本用不上了,我只能慢慢去研究了。搞半天最后把我的系统的c...
AI,开源 50万 3599
造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260318 v14

造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260318 v14

Z-Image-Turbo Generator 是一个基于 Tongyi-MAI/Z-Image-Turbo 模型的高性能AI图像生成应用。通过简洁直观的Gradio界面,用户可以轻松生成高质量的1024x1024分辨率图像,特别擅长生成具有中国传统文化元素与现代风格融合的艺术作品。✨ 核心特性⚡ 极致性能优化8步极速生成:仅需8个推理步骤即...
AI,开源 1.5万 55
图生图新的选择 AI 重绘 支持批量图生图 新增动作和姿态控制 剑二十七洗图专用版上线 z-image-turbo-xitu v5.0

图生图新的选择 AI 重绘 支持批量图生图 新增动作和姿态控制 剑二十七洗图专用版上线 z-image-turbo-xitu v5.0

🎨 Z-Image-Turbo 剑二十七·洗图专用版—— 神似而形不似,AI 重绘的终极答案"目前市面上能做到神似而形不似的类似图生图,在我面前一个能打的都没有"🔍 产品定位本工具专为「高质量图像重绘」场景打造,聚焦「洗图」核心需求:在保留原图构图、光影、神态的前提下,通过 AI 进行艺术化重绘,实现「神似而形不似」的进阶...
AI 5265 0
音乐卡点视频 一键生成 支持图片+视频素材  新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 支持A卡和N卡 剑二十七原创作品 KA v20260316

音乐卡点视频 一键生成 支持图片+视频素材 新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 支持A卡和N卡 剑二十七原创作品 KA v20260316

卡点视频生成器是一款基于 AI大模型 智能视频自动生成工具,专为音乐爱好者、短视频创作者、自媒体运营者设计。它能根据你上传的音乐节拍/鼓点,自动从指定图片或视频素材中智能选取片段,生成节奏精准、视觉流畅的“卡点”视频,适用于抖音、快手、B站、Instagram 等平台。无需剪辑经验,一键生成专业级卡点视频!🎯 核心功能1. 🖼️ 图片卡点模式...
AI 9831 0
视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学 thinkvideo v1.0

视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学 thinkvideo v1.0

🎬 剑二十七|视频反推提示词生成器让每一帧画面,都转化为可复用的创作语言🔮 核心定位这是一款面向专业内容创作者的智能视频理解工具。它不满足于简单的画面识别,而是以「镜头语言」为最小单元,深度解析视频内容,自动生成符合影视工业标准的中文提示词描述。不是「看图说话」,而是「读镜写意」。✨ 六大核心能力🎯 智能镜头分割精准识别场景切换点自适应阈值调...
AI 2163 0
本地部署 一键整合包FLUX.2-klein-9B-KV-LoRA-Studio 图像编辑大模型 海量lora支持 v2.0

本地部署 一键整合包FLUX.2-klein-9B-KV-LoRA-Studio 图像编辑大模型 海量lora支持 v2.0

FLUX.2-Klein-LoRA-Studio是一款基于 Gradio 构建的本地化图像编辑工作台,集成 Black Forest Labs 最新发布的FLUX.2-klein-9B多模态生成模型,支持通过 LoRA 适配器实现多样化图像编辑任务。⚡ 核心功能🔹 多图像输入编辑支持上传 1~2 张参考图:Picture 1(Base):作为...
AI 2069 0
开源 换脸工具 roop_unleashed v7.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示

开源 换脸工具 roop_unleashed v7.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示

昨天分享了roop的整合包支持AMD显卡来运行,今天分享的这个工具是roop的一个分支,虽然roop的作者已经弃更了,但是还有其他人继续更新。这就有产生了一个新的项目roop_unleashed。估计是这个项目出来并没有多久,所以知道的人不是很多,这2天我心血来潮就把这个项目也做了一个整合包,这个roop_unleashed是支持N卡的,但是...
AI,开源 7.2万 210
语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱,旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性,支持多种主流语音任务,适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署:所有功能均可在本地运行,保障数据...
AI,开源 4289 0
免费 VisoMaster +VisoMaster-Fusion v1.0  基于rope的二次开发 一款功能强大、易于使用且高效的开源换脸工具 中文版 支持50系英伟达显卡运行 一键整合包

免费 VisoMaster +VisoMaster-Fusion v1.0 基于rope的二次开发 一款功能强大、易于使用且高效的开源换脸工具 中文版 支持50系英伟达显卡运行 一键整合包

VisoMaster 还不错的一个换脸工具,界面也是简洁的很,花了一天的时间做了整合包+汉化。VisoMaster是一款功能强大且易于使用的面部替换与编辑工具,专为图像和视频设计。它利用先进的人工智能技术,能够以最少的努力产生自然逼真的效果,因此无论是普通用户还是专业人士都能轻松上手。这款软件以其独特的魅力和实用性,在图像与视频编辑领域脱颖而...
AI,开源 3.1万 74
0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v10.98 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v10.98 支持 LTX-2.3 Z-Image wan2.2 HunyuanVideo-1.5 数字人文生视频+图生视频+批量生成 最低英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

Wan2GP 是专为“显卡资源有限”的用户打造的**开源视频生成工具箱**。它把目前最先进的文生视频、图生视频、视频编辑模型(Wan 2.1、Hunyuan Video、LTX Video 等)做了重度优化和封装,让只有 6-8 GB 显存的旧显卡也能跑得动、跑得快,并提供了一整套 Web 界面与周边工具,做到“开箱即玩”。一句话总结:**把...
AI,开源 3.4万 148
TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 一键整合包 v20260306

TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 一键整合包 v20260306

Ming-omni-tts是一款高性能的统一音频生成模型,能够在单通道中实现语音、环境音和音乐的协同合成,并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模,同时保持高效的推理速度与专业的文本处理能力。🚀 核心能力1️⃣ 精细化语音控制支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性粤语方言控制准确率达93%,情绪控...
AI 5802 15
lmstudio 一款强大而灵活的本地大模型部署工具 我的rx580 都能流畅运行 附模型文件 支持DeepSeek v0.4.6

lmstudio 一款强大而灵活的本地大模型部署工具 我的rx580 都能流畅运行 附模型文件 支持DeepSeek v0.4.6

LM Studio是由lmstudio.ai提供的一款强大而灵活的本地大模型部署工具。它不仅降低了机器学习的使用门槛,还为用户提供了一个安全、高效、隐私保护的环境,以便在本地运行各种大型语言模型。首先,LM Studio具备强大的离线使用能力。这意味着用户无需互联网连接即可运行模型,极大地提升了使用的便捷性和灵活性。对于那些需要保护数据隐私或...
AI,开源 8999 20
一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 ——全能AI图像编辑神器来了!beterpic v20260114

一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 ——全能AI图像编辑神器来了!beterpic v20260114

—— 高清图像修复、增强与风格化处理工具本系统基于先进的 qwen 图片编辑模型 与 Nunchaku 量化技术 构建,结合 LoRA 微调模型支持,提供强大且高效的图像编辑能力。无论是老照片修复、人像增强、风景优化,还是黑白图上色,都能一键实现高质量输出。🔧 核心功能✅ 高清图像修复与增强支持上传任意分辨率图像(最小边自动放大至 1024p...
AI 1.4万 15
这不是换脸,这是换头! 效果炸裂 AI 图片换头 Flux2-Klein-Face-Swap 一键整合包 v20260302

这不是换脸,这是换头! 效果炸裂 AI 图片换头 Flux2-Klein-Face-Swap 一键整合包 v20260302

本项目是一个基于 FLUX.2 Klein 模型开发的 AI 智能换头工具。通过集成 SDNQ (Spatial Dynamic Neural Quantization) 4-bit 动态量化技术,在显著降低显存占用的同时,保持了卓越的图像生成质量。配合 BFS (Best Face Swap) LoRA 模型,能够精准地实现人头替换,并完美...
AI,开源 7296 25
开源 Deep-Live-Cam v2.6d AI人工智能 图片视频换脸+直播换脸 汉化整合包 支持AMD+英伟达N卡50系

开源 Deep-Live-Cam v2.6d AI人工智能 图片视频换脸+直播换脸 汉化整合包 支持AMD+英伟达N卡50系

Deep-Live-Cam是一款由hacksider开发并维护的创新性软件,旨在为快速发展的AI生成媒体行业贡献一份力量。该软件的主要功能是通过深度学习技术,实现实时的人脸替换与增强,为艺术家、设计师以及内容创作者提供了一个强大的工具,帮助他们以全新的方式创作和表达。项目概述Deep-Live-Cam的核心价值在于其广泛的应用场景。艺术家可以...
AI,开源 1.7万 17
EditMGT 用文字"指挥"AI修图,想改哪里改哪里 5秒即可完成编辑 一键整合包 v20260219

EditMGT 用文字"指挥"AI修图,想改哪里改哪里 5秒即可完成编辑 一键整合包 v20260219

EditMGT(Masked Generative Transformer for Image Editing)是一个基于掩码生成式变压器的先进图像编辑框架,由字节跳动(ByteDance)主导研发,联合上海交通大学、新加坡国立大学、香港科技大学(广州)等高校共同完成。✨ 核心特点1. 技术创新采用**掩码生成式变压器(Masked Gene...
AI 2729 3
网文作者的 AI 外挂:日更万字还能保证剧情连贯的秘密武器 AI自动写小说  AI_NovelGenerator V1.4.4

网文作者的 AI 外挂:日更万字还能保证剧情连贯的秘密武器 AI自动写小说 AI_NovelGenerator V1.4.4

AI_NovelGenerator 是由 YILING0013 开发并开源在 GitHub 上的一款 基于大语言模型的 AI 长篇小说自动生成工具。它专注于解决 AI 写作中最棘手的长文本连贯性问题,能够创作多章节长篇小说,并确保剧情连贯、设定统一、伏笔合理呼应。核心定位"让 AI 从写作玩具变成生产力工具"传统 AI 写...
AI,开源 4335 1
电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

电商降本增效神器:FASHN VTON v1.5 模特图自动生成 新一代开源虚拟试衣黑科技 一键整合包 v20260210

FASHN VTON v1.5 是由 Fashn AI 推出的开源虚拟试衣项目。该项目基于先进的扩散模型技术,旨在解决电商、时尚设计和图像生成领域中“模特换装”的核心需求。它能够将任意一张服装图片逼真地“穿”在指定人物身上,同时保持人物的面部、姿态和背景环境高度一致。以下是该项目的详细介绍:1. 项目概述FASHN VTON v1.5 是一个...
AI,开源 3979 8
别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3

别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3

该项目聚焦于提升大语言模型(LLM)在实际应用中对提示语的理解与响应质量,旨在通过系统化的方法改进原始提示语的表达结构、清晰度和有效性,从而获得更准确、更稳定、更符合预期的模型输出。核心理念随着大模型在各类场景中的广泛应用,提示工程(Prompt Engineering)成为影响输出质量的关键因素。prompt-optimizer 的设计初衷...
AI,开源 2.9万 148
SoulX-Singer:一键克隆任意声音,让AI替你唱歌 无需训练,秒变歌手 一键整合包 v20260208

SoulX-Singer:一键克隆任意声音,让AI替你唱歌 无需训练,秒变歌手 一键整合包 v20260208

SoulX-Singer 是一个由 Soul-AI Lab 开发的零样本歌声合成(Zero-Shot Singing Voice Synthesis)开源项目。该项目旨在通过先进的深度学习技术,让用户能够在无需大量训练数据的情况下,克隆任意人的声音并用于歌声合成。核心功能1. 零样本音色克隆SoulX-Singer 的核心能力是零样本音色迁移...
AI,开源 5174 4
"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.8.4

"让AI有‘灵魂’的神器:开源项目免费下载,语音聊天不尬聊,打游戏能当军师,关键数据不传云端!" airi v0.8.4

Project AIRI 是一个基于大语言模型驱动的AI虚拟伴侣系统,旨在创建AI"女仆"(waifu)/虚拟角色的灵魂容器,将这些虚拟角色带入现实世界。该项目致力于重现Neuro-sama(一个知名的AI虚拟角色)的功能高度,完全由LLM和AI驱动。核心功能🎙️ 实时语音聊天支持与AI进行自然流畅的语音对话交互实现低延迟...
AI,开源 5991 12
轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

轻如羽,快如电 LuxTTS 语音克隆 一键整合包 CPU也能跑,30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音(TTS)系统,专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时,显著降低了计算资源需求,适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声,无需针对目标说话人进行额外...
AI,开源 4091 23
开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

开源 免费 pyVideoTrans v3.96 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装

这个工具我用来很长一段时间了,只是我居然一直忘记给大伙分享出来,直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译,实际上远远不只这些功能,我一直用这个工具来做字幕识别,比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高,超级方便。本来想今天一早就分享出来,但是事情比较多,又是瞎折腾的一天...
AI,开源 1.5万 29
ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step-1.5 解锁音乐创作无限可能,以技术革新重塑音乐生成生态,AI生成音乐 翻唱音乐 重绘音乐 支持中文 v20260206

ACE-Step是一个开源的音乐生成基础模型项目,旨在通过全面的架构设计克服现有音乐生成方法的局限性,并实现最先进的性能。以下是对该项目的详细介绍:项目背景与目标:ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题,提出了一种新的解决方案。项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型,使...
AI 4728 7
影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

影像重获新生 SeedVR2 图片+视频批量超分神器 一键整合包 AI 超分,让每一帧都惊艳 v20260205

SeedVR2 图像/视频超分工具这是一款基于 ComfyUI-SeedVR2_VideoUpscaler 官方推理 CLI 开发的图形化 Web 封装工具。它提供了一个现代化、汉化且高度可配置的网页界面,使用户无需编写命令行代码即可轻松对图片和视频进行高质量的 AI 超分辨率处理。核心功能1. 多模态与批量处理图片超分:支持单张图片或批量上...
AI,开源 2847 0
轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v8.0 六秒出图 支持更换模型+图片超分+图生图

轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v8.0 六秒出图 支持更换模型+图片超分+图生图

CyberIllustrious是一个基于 Stable Diffusion模型架构的二次创作(LoRA 或 Dreambooth)模型,主要专注于生成具有“未来感”、“赛博朋克”和“华丽视觉风格”的高质量插画内容。它通常被用于图像生成平台如 NovelAI、Stable Diffusion WebUI或 ComfyUI中。🧠 模型简介项目内...
AI,开源 1.3万 31
Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS:让文字拥有灵魂的声音艺术家 文字生成语音 语音克隆 新增多人对话 一键整合包 v20260130

Qwen3-TTS 开源项目介绍Qwen3-TTS 是由 Qwen 团队开发的一系列强大语音生成模型,于 2026 年 1 月 22 日正式发布。该项目提供全面的语音生成能力,包括语音克隆、语音设计、超高质量类人语音生成和基于自然语言的语音控制,为开发者和用户提供了目前最广泛的语音生成功能集。核心特性1. 多语言支持Qwen3-TTS 覆盖 ...
AI 6195 6
Z-Image(造相)AI文生图  v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)AI文生图 v20260128 一键整合包,支持批量生成图片,可直接用于生产的一键整合包

Z-Image(造相)是阿里巴巴通义实验室(Tongyi MAI)推出的高效图像生成基础模型家族,以"小参数、高质量、极速推理"为核心设计理念,在开源图像生成领域树立了新的性能标杆。核心技术特点参数规模与架构:采用 60 亿参数(6B)的轻量级设计,基于创新的可扩展单流扩散 Transformer(S3-DiT)架构,将文...
AI 4760 10
Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

Qwen-Image-Edit-Object-Manipulator 一个工具搞定加物、去杂、缩放与服装设计 一键整合包 v20260128

欢迎使用基于 Qwen-Image-Edit 模型的全功能 AI 图像编辑工具。本项目集成了先进的 SDNQ 量化技术,将庞大的大语言模型与扩散模型压缩至极致,在保持高质量输出效果的同时,大幅降低了显存占用并提升了推理速度。这不是一个简单的图像滤镜工具,而是一个能够理解复杂自然语言指令的“数字修图师”。通过动态加载专用的 LoRA 适配器,它...
AI 5181 2
开源 神器 Stability Matrix  一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

开源 神器 Stability Matrix 一款功能强大、易于使用的Stable Diffusion管理工具 v2.15.5

Stability Matrix是由Lykos AI开发的一款革命性工具,专为简化Stable Diffusion的使用和管理而设计。作为一款多平台包管理器和推理用户界面,它极大地提升了Stable Diffusion的易用性和用户体验。核心功能多平台支持:Stability Matrix支持macOS、Windows和Linux系统,确保用...
AI,开源 5749 1
输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260126

输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260126

HeartMuLa/heartlib:开源音乐基础模型家族深度解析项目定位与愿景HeartMuLa是一个全面的开源音乐基础模型家族,旨在推动跨任务与多模态的大规模音乐理解与生成技术发展。该项目不仅仅是一个单一的模型,而是一个完整的生态系统,涵盖了从音乐理解到完整曲目生成的全链条能力。其核心目标是为研究社区和开发者提供可复现、可扩展的音乐AI工...
AI,开源 7056 11
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
AI,开源 5200 6