腾讯AI会“配音”了！给视频能自动配上声音+音乐 一键整合包 HunyuanVideo-Foley v20250830,海量开源免费软件下载

AI#开源工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

轻如羽，快如电 LuxTTS 语音克隆一键整合包 CPU也能跑，30秒音频 1秒生成 v20260206

LuxTTS 项目介绍LuxTTS 是由开发者 Yatharth Sharma 创建的开源轻量级文本转语音（TTS）系统，专注于高质量零样本语音克隆与超高速推理。项目在保持卓越音质的同时，显著降低了计算资源需求，适用于资源受限环境下的语音合成任务。核心特性1. 零样本语音克隆仅需 3–5 秒参考音频即可克隆任意人声，无需针对目标说话人进行额外...

2026-2-6 AI,开源 6663 22

AI#开源图像处理 # 工具 # 日常应用 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 图片放大 # 效率工具 # 整合包

影像重获新生 SeedVR2 图片+视频批量超分神器一键整合包 AI 超分，让每一帧都惊艳 v20260205

SeedVR2 图像/视频超分工具这是一款基于 ComfyUI-SeedVR2_VideoUpscaler 官方推理 CLI 开发的图形化 Web 封装工具。它提供了一个现代化、汉化且高度可配置的网页界面，使用户无需编写命令行代码即可轻松对图片和视频进行高质量的 AI 超分辨率处理。核心功能1. 多模态与批量处理图片超分：支持单张图片或批量上...

2026-2-4 AI,开源 3744 0

AI#开源语音 # 神器 # 人工智能 # AI # 文字 # 字幕 # 识别 # 利器 # 整合包

开源免费 AI语音识别转文字工具，制作视频字幕的利器 stt v20250805 整合包附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。部署或下载后，双击 start.e...

2026-1-23 AI,开源 5921 3

AI#开源语音 # 工具 # 日常应用 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

轻量、快速、免费、无需显卡 EasyTTS 重新定义本地 TTS 体验一键整合包 v20260117

EasyTTS（由 GitHub 用户 yunchenqwq 开发）是一个专注于中文语音合成的开源文本转语音（Text-to-Speech, TTS）系统，其核心目标是提供一个无需复杂依赖、无需训练、本地运行、开箱即用的高质量 TTS 解决方案。该项目特别针对中文用户在实际使用中常见的痛点（如多音字错误、语调生硬、部署困难等）进行了优化，强调...

2026-1-17 AI,开源 3246 0

开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

VoiceSculptor：基于指令驱动的下一代语音合成开源框架——让AI语音拥有精准的情感与音色控制能力 v20260108 一键整合包

🎵 VoiceSculptor - 指令驱动的语音合成模型📌 项目概述VoiceSculptor是由ASLP实验室（Audio, Speech and Language Processing Laboratory）开发的一款先进的指令式文本到语音（instruct text-to-speech）开源模型。2该项目代表了语音合成技术的前沿发展方...

2026-1-7 开源 2980 0

AI#开源工具 # 神器 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

GPT-SoVITS2507+SAVA46 一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成一键整合包

GPT-SoVITS是一个强大的开源工具，专注于少样本语音转换和文本到语音（TTS）的合成。该工具由RVC-Boss团队开发，并在GitHub上公开分享，为用户提供了一个灵活且功能丰富的平台，以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本，就能即时体...

2026-1-4 AI,开源 1.1万 4

AI#开源工具 # 视频处理 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具

视频4倍高清修复，一键搞定！清华团队开源实时视频超分模型 FlashVSR 一键整合包 v20251231

🎥 FlashVSR 是什么？FlashVSR 是一个能让模糊、低清视频“秒变高清”的智能工具。它专门用来做一件事：把低分辨率的视频，快速、高质量地放大成 4 倍清晰度的高清视频。比如：把 480p 的老视频 → 变成接近 4K 的清晰视频让手机拍的模糊视频 → 变得锐利、细节丰富⚡ 它有什么厉害的地方？过去很多“视频超分”（放大变清晰）工具...

2025-12-30 AI,开源 6115 2

开源工具 # 日常应用 # 绿色软件 # 图形图像 # 图片处理 # 人工智能 # AI # 效率工具 # 整合包

洗图必备基于 Z-Image Turbo 的多模态 ControlNet 工具：ZIT-ControlNet v2.0 一键整合包

ZIT-ControlNet（Z-Image Turbo ControlNet）—— 精准可控的 AI 图像生成与编辑工具项目简介ZIT-ControlNet（全称Z-Image Turbo ControlNet）是一个基于ControlNet 技术构建的开源图像生成控制项目，致力于在生成图像时实现高精度引导与编辑，同时最大程度保留原始图像的...

2025-12-23 开源 1.1万 12

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包

"方言通+翻译官：一个AI，能说18种中国方言和9国语言" Fun-CosyVoice3-0.5B AI语音生成工具一键整合包 v20251217

CosyVoice：基于大语言模型的先进语音合成系统CosyVoice 是一个由 FunAudioLLM 团队开发的开源文本到语音（TTS）系统，目前已迭代至Fun-CosyVoice 3.0版本。该项目基于大语言模型（LLM）架构，在语音合成领域实现了多项技术突破。核心技术特点Fun-CosyVoice 3.0作为最新版本，在内容一致性、说...

2025-12-17 AI,开源 5159 1

AI#开源工具 # 日常应用 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

GLM-TTS 大语言模型重塑语音合成 3秒克隆人声？GLM-TTS 做到了！声音克隆相似度极高一键整合包 v20251212

GLM-TTS是由ZAI 组织开发并开源的高质量文本转语音（Text-to-Speech, TTS）系统。它基于大语言模型（LLM），专注于实现可控、富有情感表达的零样本语音克隆，并通过多奖励强化学习框架显著提升传统 TTS 系统的自然度与表现力。核心特性🗣️ 零样本语音克隆仅需3–10 秒的目标说话人提示音频，即可克隆任意声音，无需微调或说...

2025-12-12 AI,开源 4609 6

AI#开源语音 # 工具 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包

"90分钟不间断！微软新AI能把你的文字变成专业播客一键整合包 VibeVoice v20251211

🎙️ VibeVoice：你的超级AI配音员"把文字变成自然对话的魔法工具"🌟 什么是VibeVoice？想象一下，有一位永不疲倦的配音员，能一口气生成90分钟不间断的语音内容，还能在对话中自如切换不同角色的声音——这就是微软开发的VibeVoice，一款革命性的AI语音生成工具！💡 它能为你做什么？（实用场景）场景用途效...

2025-12-11 AI,开源 7960 18

AI#开源工具 # 日常应用 # 音乐 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包

AI音乐生成工具v2.0 基于 DiffRhythm 二次开发。webui界面不卡死，速度快英伟达显卡6g即可运行, 一键整合包

DiffRhythm：基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目，旨在通过创新的差分节奏建模（Differential Rhythm Modeling）框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术，从节奏这一音乐核心要素出发，构建了具有强解释性和泛化能力的分类模型。其代码已...

2025-12-7 AI,开源 6024 6

AI#开源工具 # 系统工具 # 日常应用 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 大模型 # 效率工具

告别灵感枯竭？试试 AI-Writing 的智能创作能力 AI智能写作辅导软件 v1.2

AI-Writing 是一个旨在利用人工智能模型来辅助文本创作的开源项目。它可以帮助用户提高写作效率，适用于文章撰写、文案生成、内容润色、创意激发等多种场景。该项目可能整合了当前主流的自然语言处理（NLP）模型，比如 GPT、ChatGLM、BERT 等，以实现以下功能：✨ 主要功能特性自动续写根据用户输入的开头段落或句子，自动生成后续内容。...

2025-11-22 AI,开源 3844 0

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

图像生成神器：用AI画图，零代码也能玩，拖拽操作就能生成精美图片ComfyUI 官方英伟达显卡版 v0.3.70

ComfyUI 是一个基于节点（Node-based）的图形界面工具，专为使用 Stable Diffusion及其衍生模型进行图像生成而设计。它通过可视化的流程图方式，让用户无需编写代码即可构建复杂的生成工作流。🧩 1. 可视化流程图系统节点式编辑器：将每一个操作（如加载模型、输入提示词、图像采样等）封装为独立节点，用户可以通过拖拽连接这些...

2025-11-19 AI,开源 8243 3

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包

一键整合包 Step-Audio-EditX v20251112 解压即用，支持情绪/方言/语气词！让AI说话像真人一样“有血有肉”

🧠 什么是 Step-Audio-EditX？Step-Audio-EditX 是由 StepFun AI 团队开源的一款 30 亿参数（3B）的大语言模型（LLM）驱动的先进音频编辑系统，专注于高表现力、可迭代、细粒度的语音编辑与零样本语音合成（TTS）。它不仅能高质量克隆任意人声，还能对语音的情绪、说话风格、副语言特征（如笑声、叹息等）...

2025-11-12 AI,开源 4737 2

AI#开源工具 # 系统工具 # 日常应用 # 音乐 # 绿色软件 # 开源 # 人工智能 # AI # 效率工具 # 整合包

输入一段歌词，AI 自动生成带人声+伴奏的歌（支持中文）腾讯开源“AI 作曲” SongGeneration v20251109 一键整合包

腾讯 AI Lab 推出的一个 “AI 自动生成完整歌曲” 的免费工具。你只需要提供一段歌词，它就能帮你自动配上人声 + 伴奏，生成一首像模像样的歌，支持中文和英文！🎤 它能做什么？你写歌词，AI 唱出来：你只要写下带结构的歌词（比如“[主歌]……[副歌]……”），AI 会自动配上旋律、人声和背景音乐。支持风格定制：你可以指定歌曲风格（比如“...

2025-11-9 AI,开源 7201 13

AI#开源工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 效率工具 # 整合包

AI 播客：一键生成多角色对话音频 SoulX-Podcast 剑二十七二次开发一键整合包 v20251103

SoulX-Podcast是由 Soul AI Lab 开源的一个面向播客场景的高质量、长篇、多说话人对话式语音合成（TTS）系统，专为生成自然、富有表现力、支持方言与副语言特征的播客音频而设计。🔍 项目核心特点1. 长篇多轮多说话人对话生成支持生成多人交替对话的播客内容（如主持人 + 嘉宾）；能处理长文本输入，保持语音连贯性和角色一致性；适...

2025-11-3 AI,开源 5305 1

AI#开源 Android # 安卓 # 手机软件

不只是语音合成：MiMo-Audio 能理解、能生成、还能创作声音，一键整合包 v20251018

🎧 什么是 MiMo-Audio？MiMo-Audio 是小米推出的一个能听、会说、还能创作声音的智能 AI 模型。你可以把它想象成一个“超级语音大脑”——不仅能听懂你说的话，还能模仿你的声音说话、讲故事、主持节目，甚至帮你把一段话变成不同风格的语音（比如更温柔、更激昂）。🌟 它厉害在哪里？不用专门训练就能学会新任务（Few-Shot Lea...

2025-10-25 AI,开源 3134 0

AI#开源图像处理 # 工具 # 视频处理 # 图形图像 # pdf # 开源 # 图片处理 # 人工智能 # AI # gif # 免费 # 效率工具 # 整合包

支持图像、动图、短视频、PDF：AI逐页/逐帧分析，AI不仅能看懂，还能回答你的问题 Qwen3-VL 一键整合包 v20251024

基于 Qwen3-VL-4B-Instruct 的多模态智能交互平台📌 简介本应用是一个基于通义千问 Qwen3-VL-4B-Instruct 大模型的多模态推理系统，支持对图像、视频、PDF 文档、GIF 动图等多种媒体内容进行智能理解与分析，并能自动生成精准描述、解答问题或提取关键信息。借助 Gradio 构建的直观 Web 界面，...

2025-10-24 AI,开源 4316 0

AI#开源图像处理 # 工具 # 日常应用 # 绿色软件 # 办公软件 # 图形图像 # pdf # 开源 # 图片处理 # 人工智能 # AI # OCR # 免费 # 效率工具 # 整合包

DeepSeek-OCR 可视化工具：支持自由OCR、Markdown转换、图表解析与目标定位一键整合包 v20251023

🐳 DeepSeek-OCR 智能图像文字识别工具 — 使用说明🌟 这是什么？这是一个智能图像处理工具，可以自动从你上传的图片中：识别文字内容把文档转成 Markdown 格式（适合写博客、笔记）解析图表数据（比如柱状图、折线图里的数字）定位图片中的特定内容（比如“找出老师在哪里”）它基于先进的 AI 模型（DeepSeek-OCR），由剑二...

2025-10-22 AI,开源 4025 3

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包

一句话改图，两张图参考——DreamOmni2 让 AI 理解你的编辑意图一键整合包优化版 v20251014 支持风格迁移、物体替换、光照调整等全能图像编辑

DreamOmni2 是一个“万能图像编辑器” —— 你给它两张图 + 一句指令，它就能智能地把第一张图“改”成你想要的样子，参考第二张图的风格、内容、细节等。🖼️ 它能做什么？（举几个例子）你想做什么DREAMOMNI2 能做到把照片里的衣服换成另一件✅ 上传原图 + 新衣服图 + 指令：“把第一张图的衣服换成第二张的”让人物发型和参考图一...

2025-10-13 AI,开源 4113 0

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI

AI 一键换装 + 换姿势：你的虚拟造型师来了！ Leffa v20251010 一键整合包

🎯 这个工具能做什么？这是一个 AI 换装 + 换姿势的智能图像生成工具，名字叫 Leffa。它能帮你完成两件很酷的事情：1️⃣ 虚拟试衣（AI 换衣服） 👗你只需要提供：一张你自己的全身照片（人像）一张你喜欢的衣服照片AI 就会自动把这件衣服“穿”到你身上，生成一张逼真的试穿效果图！✅ 支持上衣、裤子、连衣裙等多种服装类型✅ 衣服纹理、褶...

2025-10-10 AI,开源 8691 1

AI#开源语音 # 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 语音工具 # 效率工具 # 整合包

Kani TTS：轻量、流式、类人 — 开源AI语音合成系统一键整合包 v20251008

🎙️ Kani TTS — 高质量、模块化、类人语音合成开源项目Kani TTS 是一个由 nineninesix-ai维护的开源文本到语音（TTS）系统，致力于从文本输入生成高质量、自然流畅的语音。项目支持本地独立运行与Web 流式服务，适用于开发、研究及个性化 TTS 场景。GitHub 仓库地址：https://github.com/n...

2025-10-8 AI,开源 5534 0

AI#开源开源

国产AI画画太强了！一句话生成高清美图，支持中文提示词，最低6G英伟达即可运行，15秒出图 Qwen-Image+Edit一键整合包 v20250828 新增 qwen-image-edit-2509-lightningv2.0-20250927 整合包

Qwen-Image 是由通义实验室推出的多模态大模型，集成在 Qwen（通义千问）系列中，专注于实现强大的图文理解与生成能力。该模型基于 Qwen 的语言理解基础，深度融合视觉模块，使其能够同时处理和理解图像与文本信息，支持跨模态任务，如图像描述生成、视觉问答（VQA）、图文匹配、图像理解与推理等。核心特点：强大的图文理解能力Qwen-Im...

2025-9-27 AI,开源 7802 10

AI#开源图像处理 # 工具 # 日常应用 # 视频处理 # 绿色软件 # 图形图像 # 开源 # 抠像 # 抠图 # 人工智能 # AI # 免费 # 效率工具 # 整合包

27video v3.1 超级强大AI视频抠像工具剑二十七原创作品附视频演示

这个工具基于AI大模型BiRefNet文件二次开发。可以对视频进行抠像。速度快，效果也不错。对显卡占用很低，8G的英伟达显卡就可以流畅运行了。操作极其简单，无需任何基础会点鼠标即可。下面截图几张抠像效果演示20241209 v1.1 更新记录1 保留白色和黑色背景这2种视频抠像，新增了一个自定义背景图片抠像。2...

2025-9-23 AI,开源 1.6万 53

AI#开源图像处理 # 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 抠像 # 抠图 # 人工智能 # AI # 整合包

不止AI抠图，更懂细节，应该是最强的AI抠图了，集合了15种抠图模型：BiRefNet 覆盖多场景图像抠除处理需求一键整合包 v20250920

BiRefNet 是一个专注于高分辨率二值图像分割（Dichotomous Image Segmentation, DIS）的开源深度学习模型。它在背景移除、前景提取、掩码生成等任务中表现出卓越性能，广泛应用于：图像编辑与合成视觉特效处理自动抠图（无需 Trimap）数字内容创作（如 Blender 插件、AI 绘画工具集成）🚀 核心特性...

2025-9-21 AI,开源 9070 2

AI#开源工具 # 绿色软件 # 音频处理 # 人工智能 # AI # 效率工具 # 整合包

开源TTS新选择：FireRedTTS2 实现高质量对话语音合成一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音（Text-to-Speech, TTS）项目，由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力，适用于多种应用场景，如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术，采用了先进的神经网络架构（如 Tacotron、FastSpee...

2025-9-16 AI,开源 1.8万 13

AI#开源工具 # 视频处理 # 神器 # 绿色软件 # 开源 # 人工智能 # AI # 整合包 # 视频生成

一键生成视频内容：Wan2.2让AI创作变得简单基于官方开源模型二次开发 6分钟出视频 v20250913

Wan2.2-TI2V-5B 是一个基于 Transformer 架构的文本到视频（Text-to-Video）生成模型，具有以下特点：🔧 核心特性50亿参数规模：大型 Transformer 模型，具备强大的视频生成能力文本生成视频（T2V）：直接根据文本描述生成视频内容图像生成视频（I2V）：基于参考图像生成相关视频内容高分辨率支持：支持...

2025-9-13 AI,开源 4531 0

AI#开源图像处理 # 工具 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 图片编辑 # 整合包

"字节跳动放大招：AI绘画终于能'换装不换人'了！" 能保持主体一致性 USO v20250903 一键整合包

🌟 USO：字节跳动开源的内容与风格解耦统一框架🔍 项目简介USO (Unified Style-Subject Optimized) 是字节跳动UXO团队推出的创新性开源项目，全称为"内容与风格解耦与重组统一框架"。该项目旨在解决图像生成领域中长期存在的风格与内容难以平衡的技术难题，为AI图像创作提供更灵活、更高质量的解...

2025-9-3 AI,开源 4161 4

AI#开源工具 # 音乐 # 绿色软件 # 字体 # 开源 # 人工智能 # AI # 整合包 # 音乐生成

这个开源AI，让你0基础创作歌曲 YuE v20250902 支持50系显卡，最低英伟达12G 显卡

YuE 是由 Multimodal Art Projection (MAP) 团队推出的开源音乐生成基础模型项目，旨在推动开放、可控、高质量的 AI 音乐生成技术发展。该项目专注于实现从文本（如歌词和风格描述）到完整歌曲的端到端生成，是当前 AI 音乐领域中一个功能强大且具有前瞻性的开源解决方案。核心特点与技术亮点全曲生成 (Full-Son...

2025-9-1 AI,开源 3410 0

AI#开源图像处理 # 工具 # 日常应用 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 整合包

nunchaku-flux.1-kontext-dev AI生图一键整合包最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

心血来潮，想试试FLUX.1-Kontext-dev 这个新出的模型，但是奈何显卡不是很牛X，生图效率不够高，所以找了下，发现nunchaku 双截棍这个量化模型还不错，就花了点时间学习下。然后又花点时间写了个界面，方便大伙来玩玩这个。我的4070ti spuer 16G 30步出1024x1024 大概30秒，显卡占用不到4G，这个效...

2025-8-31 AI,开源 2.1万 94

AI#开源工具 # 视频处理 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 整合包

腾讯AI会“配音”了！给视频能自动配上声音+音乐一键整合包 HunyuanVideo-Foley v20250830

HunyuanVideo-Foley 是一个基于深度学习的音效生成系统，能够根据输入的视频内容，自动识别其中的视觉动作和场景（如脚步、关门、物体碰撞等），并生成与之同步、逼真的环境音效或动作音效。这类技术在影视后期、短视频制作、游戏开发、虚拟现实等领域具有广泛的应用前景，能够显著降低人工配音效的成本和时间。🔧 核心功能视频驱动音效生成（Vid...

2025-8-29 AI,开源 5005 15

站长推荐