给你配了个“AI配音导演”:阿里这款新模型,能直接给电影配音了! Fun-CineForge 一键整合包 v20260603 解压即可使用

给你配了个“AI配音导演”:阿里这款新模型,能直接给电影配音了! Fun-CineForge 一键整合包 v20260603 解压即可使用

Fun-CineForge是阿里通义实验室(FunAudioLLM 团队)推出的一款非常强大的AI影视配音模型。如果用一句话来概括:它就像一个不知疲倦的“AI配音导演+全能配音演员”,能够直接给电影、电视剧或各类视频进行高质量的自动配音,而且对口型、分角色都不在话下。为了让你轻松了解这个模型,我们从它的核心能力、应用场景以及背后的黑科技三个方...
AI 0
Marlin-2B 一个会"看懂"视频的AI大模型 能精确描述视频中每一个镜头 一键整合包 v20260602 解压即可使用

Marlin-2B 一个会"看懂"视频的AI大模型 能精确描述视频中每一个镜头 一键整合包 v20260602 解压即可使用

Marlin-2B 是一个会"看懂"视频的小助手,它能自动告诉你视频里发生了什么、什么时候发生的,还能根据你的描述快速定位到具体片段。🤔 它能帮你做什么?✅ 自动写视频"解说词"把一段视频交给它,它会像解说员一样,用文字告诉你:🎞️场景:办公室里,一位穿白衬衫的男士坐在电脑前工作⏱️事件:<0.0...
AI 0
造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260519 v19

造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260519 v19

Z-Image-Turbo Generator 是一个基于 Tongyi-MAI/Z-Image-Turbo 模型的高性能AI图像生成应用。通过简洁直观的Gradio界面,用户可以轻松生成高质量的图像,特别擅长生成具有中国传统文化元素与现代风格融合的艺术作品。✨ 核心特性⚡ 极致性能优化8步极速生成:仅需8个推理步骤即可完成高质量图像生成零指...
AI,开源 0
轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v9.0 六秒出图 支持更换模型+图片超分+图生图

轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v9.0 六秒出图 支持更换模型+图片超分+图生图

基于 Stable Diffusion XL 的一站式 AI 绘画工作台,支持文生图、图生图与批量自动化生产,内置智能中文翻译,零门槛直接用中文描述生成高质量图像。一、三大核心创作模式1. 文生图(Text-to-Image)输入一段画面描述,AI 直接生成全新图像。智能中文提示词:输入中文即可,系统自动调用轻量翻译模型转为英文提示词;若输入...
AI,开源 0
一句话画出动漫世界!支持中文的AI绘画神器来了 Anima文生动漫图片AI大模型 ,8G英伟达显卡即可愉快玩耍

一句话画出动漫世界!支持中文的AI绘画神器来了 Anima文生动漫图片AI大模型 ,8G英伟达显卡即可愉快玩耍

Anima 动漫文生图基于 circlestone-labs/Anima 模型的图像生成工具。支持中文提示词自动翻译,生成结果自动保存至本地 output 目录。✨ 主要特性🎨 高质量动漫风格生成 – 专精二次元、动漫、CG 渲染。🌐 中文提示词自动翻译 – 使用...
AI 0
百度开源图片大模型 文生图 ERNIE-Image-Turbo 一键整合包 8G英伟达 16秒出图 文字理解能力超强 v20260416

百度开源图片大模型 文生图 ERNIE-Image-Turbo 一键整合包 8G英伟达 16秒出图 文字理解能力超强 v20260416

🎨 ERNIE-Image-Turbo 模型介绍【核心定位】• 极速生成:基于单流 Diffusion Transformer 架构,仅需 8 步推理即可完成高质量图像生成,速度提升 6 倍以上• 精准可控:强调对复杂指令的准确还原,适合需要内容精确落地的实用型创作任务• 轻量化部署:经蒸馏优化,可在 消费级显卡上流畅运行,大幅降低商用门槛【...
AI 0
一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行 剑二十七二开汉化整合包 v20260505

一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行 剑二十七二开汉化整合包 v20260505

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。🔧 核心特性(技术亮点)1. ✅ 端到端架构(End-to-End...
AI,开源 0
索尼开源AI模型 Woosh 一句话生成音效,一键为视频配音 一键AI整合包 解压即可使用 v20260424

索尼开源AI模型 Woosh 一句话生成音效,一键为视频配音 一键AI整合包 解压即可使用 v20260424

索尼人工智能研究院(Sony AI)发布的音效生成基础模型📌 项目定位Woosh是专为音效生成(Sound Effects)优化的多模态生成式 AI 模型套件,旨在为音频研究社区提供高质量的开源基座模型,支持文本到音频(T2A)和视频到音频(V2A)两大核心任务。🔗 技术报告:arXiv:2604.01929🧩 核心模块组成1️⃣ Woosh...
AI 0
京东开源 图片编辑AI大模型 JoyAI-Image-Edit v20260422 二次开发一键整合包 附演示和操作教程

京东开源 图片编辑AI大模型 JoyAI-Image-Edit v20260422 二次开发一键整合包 附演示和操作教程

JoyAI-Image-Edit 是京东开源的多模态基础模型,专注于指令引导的图像编辑任务。它基于 JoyAI-Image 多模态底座构建,通过自然语言指令实现对图像的精确、可控编辑。🔹 核心技术特点1. 强大的空间理解能力场景解析:自动识别图像中的物体、区域及空间关系关系定位:精准理解"物体A在物体B左侧"等空间描述指令...
AI 0
开源 Cherry Studio 一个支持多模型服务的桌面客户端工具 支持deepseek v1.9.1

开源 Cherry Studio 一个支持多模型服务的桌面客户端工具 支持deepseek v1.9.1

Cherry Studio是一款专为专业用户打造的桌面客户端,它支持多模型服务,集成了超过300多个大语言模型,涵盖了30多个行业,旨在帮助用户在多种场景下提升工作效率。这款软件的设计初衷是满足各行各业对GPT技术的需求,无论是开发者、设计师还是作家,都能从中受益。对于开发者而言,Cherry Studio是一个强大的代码伙伴。它可以进行代码...
开源 0
本地部署 一键整合包FLUX.2-klein-9B-KV-LoRA-Studio 图像编辑大模型 海量lora支持 v3.0

本地部署 一键整合包FLUX.2-klein-9B-KV-LoRA-Studio 图像编辑大模型 海量lora支持 v3.0

FLUX.2-Klein-LoRA-Studio是一款基于 Gradio 构建的本地化图像编辑工作台,集成 Black Forest Labs 最新发布的FLUX.2-klein-9B多模态生成模型,支持通过 LoRA 适配器实现多样化图像编辑任务。⚡ 核心功能🔹 多图像输入编辑支持上传 1~2 张参考图:Picture 1(Base):作为...
AI 0
小米开源大模型AI语音合成,600种语言+声音克隆,生成速度提升40倍 不限字数 支持自动语气标签 OmniVoice v20260407 一键整合包

小米开源大模型AI语音合成,600种语言+声音克隆,生成速度提升40倍 不限字数 支持自动语气标签 OmniVoice v20260407 一键整合包

OmniVoice:600+语种的语音合成新纪元剑二十七 · 技术前沿🔹一句话了解由小米下一代 Kaldi 团队(k2-fsa)打造的超大规模多语言零样本 TTS 模型,支持600+ 语种,以卓越音质与极速推理,重新定义语音合成体验。✨ 核心能力一览🗣️全球语种覆盖支持 600+ 语言与方言,从英语、中文到低资源语种,一模型通全球。🔁声音克隆...
AI 0
DeepSeek 本地部署一键运行 DeepSeek-tool v18,解压即可使用 最低支持2G显卡 支持99%的语言大模型 支持联网搜索+知识库

DeepSeek 本地部署一键运行 DeepSeek-tool v18,解压即可使用 最低支持2G显卡 支持99%的语言大模型 支持联网搜索+知识库

琢磨了一天,把DeepSeek的本地部署彻底完成了,并测试了一下午基本完美运行了。当然AI环境你们必须要先安装好。然后下载这个这个本地部署压缩,解压即可完美运行。我的4070ti spuer 运行32b已经是极限了,所以我也只能把模型下载到32b了,如果你们有更牛的显卡,可以继续下载模型。这是我运行14b的截图 你们看看显...
AI,开源 0
 一键克隆任意音色,生成自然口语级语音  1B/3.5B 双模型自由切换,还原你最真实的声音  LongCat-AudioDiT v1.0 20260402 更新 一键整合包

一键克隆任意音色,生成自然口语级语音 1B/3.5B 双模型自由切换,还原你最真实的声音 LongCat-AudioDiT v1.0 20260402 更新 一键整合包

LongCat-AudioDiT 语音合成工具 - 功能说明🎯 主要功能本工具基于美团开源的 LongCat-AudioDiT 扩散模型,提供高质量的文本到语音合成,并支持零样本语音克隆(只需几秒参考音频即可克隆音色)。界面采用 Gradio 构建,操作直观,适用于中文和英文混合文本。📌 核心功能模块1. 模型选择支持 1B&nbs...
AI 0
TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 新增支持长文本 一键整合包 v20260327

TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效,还能听懂你的情绪指令 新增支持长文本 一键整合包 v20260327

Ming-omni-tts是一款高性能的统一音频生成模型,能够在单通道中实现语音、环境音和音乐的协同合成,并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模,同时保持高效的推理速度与专业的文本处理能力。🚀 核心能力1️⃣ 精细化语音控制支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性粤语方言控制准确率达93%,情绪控...
AI 0
语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

语音识别 + 声音克隆 + 模型训练,一个工具全搞定!Easy-Voice-Toolkit v1.3.5

Easy-Voice-Toolkit 是由 Spr-Aachen开发的一款开源、用户友好的 AI 语音工具箱,旨在为开发者、研究人员和爱好者提供一站式、本地化部署的语音处理解决方案。项目设计注重易用性与功能性,支持多种主流语音任务,适用于科研实验、产品原型开发、语音助手构建等多种应用场景。🌟 核心特性本地部署:所有功能均可在本地运行,保障数据...
AI,开源 0
lmstudio 一款强大而灵活的本地大模型部署工具 我的rx580 都能流畅运行 附模型文件 支持DeepSeek v0.4.6

lmstudio 一款强大而灵活的本地大模型部署工具 我的rx580 都能流畅运行 附模型文件 支持DeepSeek v0.4.6

LM Studio是由lmstudio.ai提供的一款强大而灵活的本地大模型部署工具。它不仅降低了机器学习的使用门槛,还为用户提供了一个安全、高效、隐私保护的环境,以便在本地运行各种大型语言模型。首先,LM Studio具备强大的离线使用能力。这意味着用户无需互联网连接即可运行模型,极大地提升了使用的便捷性和灵活性。对于那些需要保护数据隐私或...
AI,开源 0
别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3

别再瞎试了!用这个神器,一键优化你的大模型提示词 Prompt Optimizer v2.5.3

该项目聚焦于提升大语言模型(LLM)在实际应用中对提示语的理解与响应质量,旨在通过系统化的方法改进原始提示语的表达结构、清晰度和有效性,从而获得更准确、更稳定、更符合预期的模型输出。核心理念随着大模型在各类场景中的广泛应用,提示工程(Prompt Engineering)成为影响输出质量的关键因素。prompt-optimizer 的设计初衷...
AI,开源 0
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v20250805 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
AI,开源 0
青梧字幕 —跨平台AI视频字幕智能提取翻译工具 附全部模型 v1.3.6

青梧字幕 —跨平台AI视频字幕智能提取翻译工具 附全部模型 v1.3.6

青梧字幕是一款免费简单易用的AI字幕智能提取+翻译工具,原理是利用模型自动识别5音视频文件当中的音频并生成为对应的语种字幕,实现提取及翻译后续处理操作。目前暂支持windows及mac(M及intel系例处理器)系统环境,支持识别中文、英语、日语、韩语等99种语言。毕竟市面上已有众多类似的字幕软件2或在线网页版,无非要么限制提取时长要么各种套...
软件 0
视频4倍高清修复,一键搞定!清华团队开源实时视频超分模型 FlashVSR 一键整合包 v20251231

视频4倍高清修复,一键搞定!清华团队开源实时视频超分模型 FlashVSR 一键整合包 v20251231

🎥 FlashVSR 是什么?FlashVSR 是一个能让模糊、低清视频“秒变高清”的智能工具。它专门用来做一件事:把低分辨率的视频,快速、高质量地放大成 4 倍清晰度的高清视频。比如:把 480p 的老视频 → 变成接近 4K 的清晰视频让手机拍的模糊视频 → 变得锐利、细节丰富⚡ 它有什么厉害的地方?过去很多“视频超分”(放大变清晰)工具...
AI,开源 0
GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声?GLM-TTS 做到了!声音克隆相似度极高 一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音(Text-to-Speech, TTS)系统。它基于大语言模型(LLM),专注于实现可控、富有情感表达的零样本语音克隆,并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频,即可克隆任意声音,无需微调或说...
AI,开源 0
中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

中文错别字检测与修正工具(基于 MacBERT模型)jiucuo v1.0 一键整合包,有英伟达显卡就能运行 不限字数

剑二十七 · 基于 ModelScope 模型 Macadam/macbert4mdcspell_v2 二次开发本系统采用先进的 MacBERT 预训练语言模型,专为中文文本拼写与语法错误检测与修正设计,支持任意长度文本、智能分段处理,并严格保留原始格式(包括换行、空行、标点等),适用于论文、公文、OCR 识别结果、手写转录等多种场景。✅ 核...
AI 0
不止AI抠图,更懂细节,应该是最强的AI抠图了,集合了15种抠图模型:BiRefNet 覆盖多场景图像抠除处理需求 一键整合包 v20250920

不止AI抠图,更懂细节,应该是最强的AI抠图了,集合了15种抠图模型:BiRefNet 覆盖多场景图像抠除处理需求 一键整合包 v20250920

BiRefNet 是一个专注于 高分辨率二值图像分割(Dichotomous Image Segmentation, DIS) 的开源深度学习模型。它在背景移除、前景提取、掩码生成等任务中表现出卓越性能,广泛应用于:图像编辑与合成视觉特效处理自动抠图(无需 Trimap)数字内容创作(如 Blender 插件、AI 绘画工具集成)🚀 核心特性...
AI,开源 0
一键生成视频内容:Wan2.2让AI创作变得简单  基于官方开源模型二次开发 6分钟出视频 v20250913

一键生成视频内容:Wan2.2让AI创作变得简单 基于官方开源模型二次开发 6分钟出视频 v20250913

Wan2.2-TI2V-5B 是一个基于 Transformer 架构的文本到视频(Text-to-Video)生成模型,具有以下特点:🔧 核心特性50亿参数规模:大型 Transformer 模型,具备强大的视频生成能力文本生成视频(T2V):直接根据文本描述生成视频内容图像生成视频(I2V):基于参考图像生成相关视频内容高分辨率支持:支持...
AI,开源 0
nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

心血来潮,想试试FLUX.1-Kontext-dev 这个新出的模型,但是奈何显卡不是很牛X,生图效率不够高,所以找了下,发现nunchaku 双截棍 这个量化模型还不错,就花了点时间学习下。然后又花点时间写了个界面,方便大伙来玩玩这个。 我的4070ti spuer 16G 30步 出1024x1024 大概30秒,显卡占用不到4G,这个效...
AI,开源 0
Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

本工具基于Ovis2-4B和Ovis2-2B 这2个大模型制作而成。其实早之前我就有分享过反推提示词工具 moondream,但是我昨天遇到了这个大模型,发现功能更加强大,反推出来的提示更加丰富,更多细节描述。这个工具要求显卡比较低,英伟达显卡6g及以上就可以愉快玩耍了我用同一张图片反推提示词下面是Ovis2-4B生成的提示词The...
AI,开源 0
Meissonic 开源高性能文生图模型 一键整合包 v20250619

Meissonic 开源高性能文生图模型 一键整合包 v20250619

Meissonic 是一个基于 Masked Generative Transformer的高效高分辨率文本到图像生成模型,旨在通过消费级显卡实现高质量的图像生成任务。该项目在 ICLR 2025 上发表,其核心目标是重新激发 Masked Generative Transformers 在图像合成中的潜力,并提供一种高效的推理方案。核心特性...
AI,开源 0
字节开源BAGEL:70亿参数多模态大模型,图像生成+理解全新突破 v20250613 一键整合包

字节开源BAGEL:70亿参数多模态大模型,图像生成+理解全新突破 v20250613 一键整合包

BAGEL 是一个由 ByteDance-Seed团队开发的开源多模态基础模型,具有 70 亿(7B)活跃参数(总参数为 140 亿),并在大规模交错的多模态数据(包括语言、图像、视频和网页数据)上进行了训练。该项目的目标是通过统一的架构来实现强大的多模态理解和生成能力,并进一步扩展到复杂的视觉操作任务。核心特点1. 先进的模型架构BAGEL...
AI,开源 0
它把AI画画的天花板又抬高了一截 又一国产AI绘画模型 Chroma v20250609 一键整合包

它把AI画画的天花板又抬高了一截 又一国产AI绘画模型 Chroma v20250609 一键整合包

1. 模型概述Chroma 是一个开源、无审查且面向社区构建的大模型。参数规模:Chroma 是一个拥有 89 亿(8.9B)参数的模型,基于 FLUX.1-schnell架构开发(技术报告即将发布)。它完全采用 Apache 2.0 许可证,这意味着任何人都可以自由使用、修改和在该模型基础上进行二次开发,无需企业或机构控制。训练状态:该模型...
AI,开源 0
 想自己生成图片但怕侵权?试试这个新AI模型!f-lite v20250607 一键整合包 支持40系+50系显卡

想自己生成图片但怕侵权?试试这个新AI模型!f-lite v20250607 一键整合包 支持40系+50系显卡

F Lite是由 Fal AI与 Freepik联合开发的一个基于扩散模型的图像生成工具。它提供了一个轻量但功能强大的模型架构,并在数据合规性方面做出了显著努力。📌 核心特点✅ 合法合规的数据集训练模型仅使用了 8000 万张版权安全(copyright-safe)和 SFW(适合所有年龄层,Safe For Work)内容进行训练。数据来源...
AI,开源 0
OmniGen:统一框架,高效灵活,图像生成从未如此简单  基于最新模型一键整合包 已经汉化

OmniGen:统一框架,高效灵活,图像生成从未如此简单 基于最新模型一键整合包 已经汉化

OmniGen 是一个由 VectorSpaceLab 开发的开源项目,旨在提供一个统一的图像生成模型,能够处理多种图像生成任务,而无需依赖额外的插件或复杂的预处理步骤。该项目的核心目标是简化图像生成流程,使其像 GPT 在语言生成中的应用一样灵活和高效。OmniGen 支持多种任务,包括文本到图像生成、图像编辑、主题驱动生成和经典计算机视觉...
AI 0