SenseVoice：解锁语音理解新高度，多语言情感识别与事件检测全攻略 语音转文本 一键汉化整合包 v1.0,AI工具，开源整合包

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 整合包

LoRA 千面 AI图片编辑超N多风格转换 Kontext-Style-LoRAs v20250722

在huggingface瞎逛的时候，无意中发现了这个开源的模型，真的超级强，聚集了N多风格lora模型，操作也是极其简单，感觉可能有小伙伴能用的上，就花了时间做了整合，并进行了小小的二次开发，自我感觉还行。整合包说明1 支持50系显卡，最低英伟达8G显卡可以运行，如果你的显卡刚好是8G的话，可能内存要超过30G,安装好你显卡能支持的最高版本c...

2025-7-21 AI,开源 3522 6

AI#开源工具 # 绿色软件 # 开源 # 人工智能 # AI # 换脸 # 直播 # 免费 # 整合包

开源 Deep-Live-Cam v2.1 AI人工智能图片视频换脸+直播换脸整合包支持AMD+英伟达N卡50系

Deep-Live-Cam是一款由hacksider开发并维护的创新性软件，旨在为快速发展的AI生成媒体行业贡献一份力量。该软件的主要功能是通过深度学习技术，实现实时的人脸替换与增强，为艺术家、设计师以及内容创作者提供了一个强大的工具，帮助他们以全新的方式创作和表达。项目概述Deep-Live-Cam的核心价值在于其广泛的应用场景。艺术家可以...

2025-7-19 AI,开源 1.4万 14

AI#开源图像处理 # 工具 # 开源 # 人工智能 # AI # 免费 # 整合包

开源 UltraPixel 文生图超高分辨率出图细节非常丰富远超Stable-diffusion等一键整合包附视频演示 v20250717 增强版支持50系显卡

UltraPixel是一个由华为诺亚方舟实验室联合香港科技大学共同开发的开源项目，旨在生成具有丰富细节的高质量图像，其分辨率范围可以从1K一直延伸至6K。该项目不仅优化了细节处理，还显著提升了整体图像效果，将超高清图像合成推向了新的高峰。项目背景与目的随着人工智能技术的不断发展，生成高分辨率图像成为了一个研究热点。然而，现有的图像生成模型在生...

2025-7-18 AI,开源 5896 6

AI#开源视频处理 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

AI 视频生成新突破：FramePack 开源项目引领视频扩散技术变革一键汉化整合包 FramePack-F1 20250716更新支持magcache加速支持50系显卡

FramePack 是一个开源项目，旨在通过创新的神经网络结构实现高效的视频生成。以下是对其的详细介绍：项目概述FramePack 是 “Packing Input Frame Contexts in Next - Frame Prediction Models for Video Generation” 论文的官方实现和桌面软件。它采用逐帧...

2025-7-16 AI,开源 1.5万 48

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费

FLUX.1-Kontext-dev：图文协同，让AI图像编辑更可控,支持局部重绘与图文控制,英伟达12G可运行 v20250716

前段时间一直死劲在更新的nunchaku-flux.1-kontext-dev，还算受到大伙的欢迎，主要是显卡要求很低。运行速度快，但是有些好显卡的小伙伴说能否出一个出图质量更好的版本？量化不要这么强的，对出图有一定要求的小伙伴。所以我今天就分享了这个FLUX.1-Kontext-dev，虽然也是nunchaku量化下的，但是相对来讲这个出图...

2025-7-15 AI,开源 2590 6

AI#开源

让AI绘画更听你的话：DRA-Ctrl 实现图像局部控制生成 v20250712 一键整合包，最低支持8G英伟达，支持50系显卡

DRA-Ctrl 是一个由 Kunbyte-AI开发的开源项目，其核心目标是为扩散模型（Diffusion Models）提供一种可控的生成机制。该项目专注于实现对图像生成过程中的“区域感知控制”（Region-aware Control），即在图像生成过程中，允许用户对图像的不同区域施加不同的控制条件，从而实现更加精细化和结构化的生成效果。...

2025-7-12 AI,开源 3502 3

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 效率工具 # 整合包

轻量高效 AI生图工具基于 Stable Diffusion XL 模型二次开发，6G英伟达显卡就可以愉快玩耍 Diaomo v6.0 六秒出图支持更换模型+图片超分+图生图

CyberIllustrious是一个基于 Stable Diffusion模型架构的二次创作（LoRA 或 Dreambooth）模型，主要专注于生成具有“未来感”、“赛博朋克”和“华丽视觉风格”的高质量插画内容。它通常被用于图像生成平台如 NovelAI、Stable Diffusion WebUI或 ComfyUI中。🧠 模型简介项目内...

2025-7-7 AI,开源 1.1万 31

AI#开源翻译 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 字幕 # 整合包

开源免费 pyVideoTrans v3.72 视频翻译开源软件自动识别并生成字幕后，翻译 + 配音绿色免安装

这个工具我用来很长一段时间了，只是我居然一直忘记给大伙分享出来，直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译，实际上远远不只这些功能，我一直用这个工具来做字幕识别，比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高，超级方便。本来想今天一早就分享出来，但是事情比较多，又是瞎折腾的一天...

2025-7-1 AI,开源 1.3万 29

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

FishAudio 推出 OpenAudio-S1-Mini：革新语音合成技术, 一键整合包 v20250627

openaudio-s1-mini 是一个开源的音频生成模型，主要特点是能够将文本高效地转换为自然流畅的语音。下面是对该模型的详细介绍：基本信息模型名称：openaudio-s1-mini开源平台：ModelScope.cn开发者：FishAudio 团队主要特点高效的文本转语音能力：该模型经过大量数据训练，能够将输入的文本快速转换为自然流畅...

2025-6-27 AI,开源 4129 13

AI#开源工具 # 神器 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

GPT-SoVITS 20250606v2pro一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成一键整合包

GPT-SoVITS是一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成。该工具由RVC-Boss团队开发，并在GitHub上公开分享，为用户提供了一个灵活且功能丰富的平台，以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本，就能即时体...

2025-6-23 AI,开源 9284 4

AI#开源工具 # 视频处理 # 绿色软件 # 开源 # 抠像 # 人工智能 # AI # 整合包

MiniMax-Remover：基于 Minimax 优化的高效视频物体移除工具 v20250621 一键整合包

MiniMax-Remover是一个基于 minimax 优化的视频物体移除工具，旨在高效、高质量地从视频中移除指定对象，并生成视觉上无缝的修复结果。该项目由 Bojia Zi 等人开发，核心目标是实现快速（Fast）、有效（Effective）和鲁棒（Robust）的视频内容编辑。核心特性两阶段训练策略第一阶段：使用简化版的 DiT（Di...

2025-6-21 AI,开源 4287 0

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 效率工具 # 整合包

让模糊照片变清晰 —— AI 图像增强器 GSASR v20250620 一键整合包

GSASR（Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution），是由研究人员开发的一种新型的图像超分辨率技术。它的核心目标是：让图片“变清晰”，而且可以按任意倍数放大，不会失真或模糊。🌟 什么是图像超分辨率？简单来说，图像超...

2025-6-20 AI,开源 5527 11

AI#开源工具 # 日常应用 # 神器 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 效率工具

AI 人工智能一键高清修复模糊照片（支持批量处理），还原清晰细节 Finegrain Image Enhancer v20250617 一键汉化整合包

Finegrain Image Enhancer开源图像增强工具通过人工智能技术将低分辨率图像转化为高分辨率版本，智能生成细节以提升画质。核心功能超分辨率放大支持模糊或低分辨率图像放大（最高可达4倍），增强细节的清晰度和真实感。细粒度参数控制提供增强强度、风格一致性等参数调节，允许用户进行精细化编辑。结果可重复性通过种子管理保存特定增强...

2025-6-19 AI,开源 6151 11

AI#开源工具 # 日常应用 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

Meissonic 开源高性能文生图模型一键整合包 v20250619

Meissonic 是一个基于 Masked Generative Transformer的高效高分辨率文本到图像生成模型，旨在通过消费级显卡实现高质量的图像生成任务。该项目在 ICLR 2025 上发表，其核心目标是重新激发 Masked Generative Transformers 在图像合成中的潜力，并提供一种高效的推理方案。核心特性...

2025-6-18 AI,开源 2431 0

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

字节开源BAGEL：70亿参数多模态大模型，图像生成+理解全新突破 v20250613 一键整合包

BAGEL 是一个由 ByteDance-Seed团队开发的开源多模态基础模型，具有 70 亿（7B）活跃参数（总参数为 140 亿），并在大规模交错的多模态数据（包括语言、图像、视频和网页数据）上进行了训练。该项目的目标是通过统一的架构来实现强大的多模态理解和生成能力，并进一步扩展到复杂的视觉操作任务。核心特点1. 先进的模型架构BAGEL...

2025-6-13 AI,开源 3864 0

AI#开源图像处理 # 工具 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 整合包

它把AI画画的天花板又抬高了一截又一国产AI绘画模型 Chroma v20250609 一键整合包

1. 模型概述Chroma 是一个开源、无审查且面向社区构建的大模型。参数规模：Chroma 是一个拥有 89 亿（8.9B）参数的模型，基于 FLUX.1-schnell架构开发（技术报告即将发布）。它完全采用 Apache 2.0 许可证，这意味着任何人都可以自由使用、修改和在该模型基础上进行二次开发，无需企业或机构控制。训练状态：该模型...

2025-6-9 AI,开源 4786 11

AI#开源图像处理 # 工具 # 日常应用 # 图形图像 # 开源 # 人工智能 # AI # 整合包

想自己生成图片但怕侵权？试试这个新AI模型！f-lite v20250607 一键整合包支持40系+50系显卡

F Lite是由 Fal AI与 Freepik联合开发的一个基于扩散模型的图像生成工具。它提供了一个轻量但功能强大的模型架构，并在数据合规性方面做出了显著努力。📌 核心特点✅ 合法合规的数据集训练模型仅使用了 8000 万张版权安全（copyright-safe）和 SFW（适合所有年龄层，Safe For Work）内容进行训练。数据来源...

2025-6-7 AI,开源 3476 3

AI#开源图像处理 # 图形图像 # 开源 # 人工智能 # AI # 免费 # 整合包

开源神器来袭！HelloMeme 让你秒变表情包制造机 v20250601 一键整合包

一个专注于 AI 自动生成表情包（meme）的开源项目。它结合了人工智能技术，特别是图像生成和自然语言理解的能力，来自动创建有趣、符合网络文化风格的表情包。💡 主要功能：利用 AI 技术自动生成表情包（meme）支持根据用户输入的文字内容或模板生成带有幽默感的图片可能集成了图像生成模型（如 Stable Diffusion）、文本理解和模因风...

2025-6-2 AI,开源 2966 0

AI#开源工具 # 日常应用 # 视频处理 # 视频下载 # 绿色软件 # 办公软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

视频创作者的新宠：这个开源工具正在悄悄改变内容生产方式一键整合包 MoneyPrinterPlus v1.2.6

你可以把它想象成一个 “AI全自动视频工厂”。它最大的特点就是：输入一段文字，就能自动生成一个完整的高清视频。是不是有点像你写一篇作文，然后机器帮你拍成了短视频？没错，就是这个意思！🧠 它是怎么工作的？简单来说，它的流程是这样的：你告诉它要说什么内容（文字）比如：“今天教你怎么在家做蛋糕”它会自动找合适的画面素材比如网上免费的高清视频片段：打...

2025-5-25 AI,开源 6978 4

AI#开源工具 # 日常应用 # 视频处理 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

AI 自动生成短剧解说视频输入一段话就能生成短剧解说视频一键整合包 NarratoAI v0.6.1

这个工具是做什么的？你可以把 NarratoAI 理解成一个“AI自动剪辑视频的神器”，它最大的特点就是：输入一段文字或口播内容，就能自动生成一部短剧解说视频。是不是听起来像你写了个剧本，AI 就帮你拍成了短视频？没错，就是这样！🧠 它是怎么工作的？它的流程大概是这样的：你提供一段文字内容（比如口播文案、剧情简介）比如：“今天给大家讲一个爱情...

2025-5-25 AI,开源 6839 3

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

一键提取伴奏/人声！轻松搞定音乐音轨分离支持批量处理开源一键整合包 6G N卡就可以愉快玩耍 UVR5 UI v1.8.4

UVR5-UI是基于 python-audio-separator（即 UVR5 的命令行版本）开发的，提供了友好的可视化界面，使得用户无需掌握编程知识或命令行操作即可使用强大的音频处理功能。它支持多种模型和功能，包括：所有主流音源分离模型：VR Arch 模型MDX-NET 模型Demucs v4 模型Mel-Band Roformer 和...

2025-5-24 AI,开源 4523 2

AI#开源图像处理 # 日常应用 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 效率工具 # 整合包

你负责写文字(支持中文)，画画交给 AI！Kolors 让想象秒变现实一键整合包 v20250523

Kolors 是一个“文字生成图片”的人工智能工具，你可以输入一段中文或英文的文字描述，它就能根据你的描述自动生成一张对应的图像。比如你写：“一只穿着西装的熊猫，在山顶上喝咖啡，背景是日出，风格是写实高清”它就能根据这段话，画出这样的一张图！🧠 它是怎么工作的？简单来说，这个 AI 模型已经学习了非常多的文字和图片之间的对应关系。所以当你输入...

2025-5-23 AI,开源 7183 3

AI 图像处理 # 工具 # 日常应用 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

小巧实用效率高AI生成动漫图片整合包，12G英伟达显卡即可愉快玩耍 v20250520

今天在网上逛的时候，无意发现这个模型，一个动漫图片生成的模型，感觉还不错，生成的动漫效果也还可以，所以就花了几分钟写了个界面，然后又汉化了下，感觉还可以，就随手发到群里，各位小伙伴要求分享出来，所以就打包上传上来了。这个模型是支持NSFW ，所以请勿用于任何非法途径，所造成的任何后果请自行承担，本人只做AI图片生成技...

2025-5-20 AI 4085 6

AI#开源图像处理 # 工具 # 文本 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

开源AI图像描述：JoyCaption ，图片AI反推提示词支持批量操作 v20250515 一键整合包

JoyCaption 是一个开源的图像描述生成视觉语言模型（VLM），旨在为社区提供一个免费、开放且无审查的工具，用于训练扩散模型。以下是该项目的主要特点和相关信息：项目特点免费与开放：JoyCaption 以免费、开放的权重发布，没有使用限制，并且提供训练脚本及详细的构建细节。无审查：平等覆盖适合工作场合（SFW）和不适合工作场合（NSFW...

2025-5-15 AI,开源 8153 9

AI#开源文本 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 模型 # 大模型 # 整合包

穿越千年的文字魔法：AI助力现代文变古文 ancient_text_generation_LLM v20250514一键整合包

一个专注于将现代汉语句子转换为古汉语风格句子的创新项目。以下是对该项目的详细介绍：项目概述：该项目旨在通过先进的自然语言处理技术，实现现代汉语到古汉语风格的自动转换，为文化传承、文学创作等领域提供有力支持。技术背景：项目基于荀子基座大模型，该模型作为起点，为项目提供了强大的语言理解和生成能力。通过采用LoRA（Low-Rank Adaptat...

2025-5-14 AI,开源 4526 0

AI#开源图像处理 # 工具 # 日常应用 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

想换脸、换衣服还是换风格？DreamO图像定制，一键搞定！v20250513 AI生成图片一键整合包

DreamO是一个由字节跳动开源的统一图像定制化框架（A Unified Framework for Image Customization），旨在通过先进的算法和技术，为用户提供高度灵活和高质量的图像定制化服务。以下是该项目的详细介绍说明：核心功能：图像定制化：DreamO允许用户根据需求定制图像，支持多种定制化任务，包括但不限于人物形象定...

2025-5-13 AI,开源 4581 11

AI 语音 # 音乐 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

ACE-Step：解锁音乐创作无限可能，以技术革新重塑音乐生成生态，AI生成音乐支持中文 v20250512

ACE-Step是一个开源的音乐生成基础模型项目，旨在通过全面的架构设计克服现有音乐生成方法的局限性，并实现最先进的性能。以下是对该项目的详细介绍：项目背景与目标：ACE-Step项目针对当前音乐生成方法中存在的生成速度、音乐连贯性和可控性之间的权衡问题，提出了一种新的解决方案。项目的目标是建立一个快速、通用、高效且灵活的音乐AI基础模型，使...

2025-5-13 AI 3676 7

AI 工具 # 日常应用 # 绿色软件 # 人工智能 # AI # 免费 # 效率工具

KaKaDa AI答题辅助工具V1.0.0.3

KaKaDa是一款创新的答题辅助工具，它借助了阿里云开源的72B大模型进行问题推断，旨在为用户提供快速、准确的答题推荐。与传统的答题工具不同，KaKaDa直接显示推荐的选项，而不是先解释后展示文字答案，从而大大节省了用户的时间。一、主要功能OCR识别与推送：KaKaDa支持在问题界面使用Alt+Q快捷键截取完整的题目和选项，然后利用OCR技术...

2025-4-28 AI 2898 0

AI 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

文本转语音，如此简单真实：Nari Labs开源Dia，一轮处理生成高度逼真的对话音频

Dia是一个由Nari Labs创建的文本转语音（TTS）模型，它拥有16亿（1.6B）参数，能够在一轮处理中生成超逼真的对话。这个项目的核心特点是其高度真实的语音生成能力，可以直接从文本中生成高度逼真的对话，同时支持通过音频条件来控制输出，实现情感和语调的调整。主要功能高度逼真的对话生成：Dia能够直接从文本中生成高质量的对话，无需多轮处理...

2025-4-25 AI 3129 0

AI 图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 人工智能 # AI # 免费 # 整合包

OmniGen：统一框架，高效灵活，图像生成从未如此简单基于最新模型一键整合包已经汉化

OmniGen 是一个由 VectorSpaceLab 开发的开源项目，旨在提供一个统一的图像生成模型，能够处理多种图像生成任务，而无需依赖额外的插件或复杂的预处理步骤。该项目的核心目标是简化图像生成流程，使其像 GPT 在语言生成中的应用一样灵活和高效。OmniGen 支持多种任务，包括文本到图像生成、图像编辑、主题驱动生成和经典计算机视觉...

2025-4-24 AI 6045 7

AI#开源图像处理 # 工具 # 日常应用 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

字节开源 UNO：电商图片生成的高效利器，一键汉化整合包，支持文生图和图生图

UNO（Universal Customization）是由字节跳动公司开发并开源的一个通用自定义方法的项目，旨在解决单主体和多主体条件下的图像生成问题，具有很强的可控性和通用性。该项目通过提出一种高度一致的数据合成流程，利用扩散变换器的内在上下文生成能力，生成高一致性的多主体配对数据。UNO模型包含渐进式跨模态对齐和通用旋转位置嵌入，是从文...

2025-4-21 AI,开源 3525 4

AI#开源工具 # 日常应用 # 文本 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 文本编辑 # 整合包

SenseVoice：解锁语音理解新高度，多语言情感识别与事件检测全攻略语音转文本一键汉化整合包 v1.0

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model 是一个专注于语音理解的开源项目，旨在提供高精度的多语言语音识别、语音情感识别和音频事件检测功能。这个项目由 FunAudioLLM 团队开发和维护，基于 FunASR 工具包构建，支持多种语言和方言，包括中文、英语、粤...

2025-4-21 AI,开源 3640 0

站长推荐