IndexTTS  v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS v2.0 重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 支持批量生成语音+生成字幕 附效果演示 20250920更新

IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核心痛...
AI,软件 2.1万 51
开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

开源TTS新选择:FireRedTTS2 实现高质量 对话语音合成 一键整合包 v20250916

FireRedTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 FireRedTeam 开发并维护。该项目致力于提供高质量、低延迟、易于集成的语音合成能力,适用于多种应用场景,如语音助手、有声读物生成、无障碍访问、智能客服等。项目基于深度学习技术,采用了先进的神经网络架构(如 Tacotron、FastSpee...
AI,开源 1.8万 16
无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

无显卡压力!中文生成高清美图,AI画师免费为你服务,采用魔搭API 生图 27pic-api-qwen v1.0

这是一个傻瓜式 AI 图像工具,你只需要:输入一段文字描述(比如:“一个穿汉服的美女在大树下微笑”)点一下“开始处理”等几秒~几分钟 → AI 自动生成一张精美图片!你还可以:✏️ 编辑已有图片:上传一张图,告诉 AI “把她的头发染成蓝色”、“加一只猫”、“换成海滩背景” → AI 自动修改!📸 批量生成:一次输入 10 行、100 行描述...
AI 3782 0
一键生成视频内容:Wan2.2让AI创作变得简单  基于官方开源模型二次开发 6分钟出视频 v20250913

一键生成视频内容:Wan2.2让AI创作变得简单 基于官方开源模型二次开发 6分钟出视频 v20250913

Wan2.2-TI2V-5B 是一个基于 Transformer 架构的文本到视频(Text-to-Video)生成模型,具有以下特点:🔧 核心特性50亿参数规模:大型 Transformer 模型,具备强大的视频生成能力文本生成视频(T2V):直接根据文本描述生成视频内容图像生成视频(I2V):基于参考图像生成相关视频内容高分辨率支持:支持...
AI,开源 4226 0
开源 小宾AI抠图 image-matting 一款功能强大、操作简便、注重隐私保护的本地AI图片处理软件 v0.2.5

开源 小宾AI抠图 image-matting 一款功能强大、操作简便、注重隐私保护的本地AI图片处理软件 v0.2.5

image-matting是一个基于开源模型的本地AI图片处理软件,旨在通过AI技术实现高效的图像抠图功能。该项目采用了briaai发布的RMBG-1.4开源模型,为用户提供了一个功能丰富、操作简便的图片处理工具。核心功能AI抠图:支持单张和批量图片抠图,用户无需复杂的操作即可快速从图片中提取出所需的前景物体,无论是人像还是物体,都能达到较高...
软件 6284 7
手机软件 安卓app libretorrent 一款专为Android平台打造的自由且开源的全功能bt下载工具 v4.0.1

手机软件 安卓app libretorrent 一款专为Android平台打造的自由且开源的全功能bt下载工具 v4.0.1

LibreTorrent是一款专为Android平台打造的自由且开源的全功能Torrent客户端软件。它不仅提供了丰富的功能特性,还确保了用户的数据安全和隐私保护。以下是对LibreTorrent的详细介绍:一、软件概述LibreTorrent基于开源理念开发,致力于为用户提供高效、稳定且易于使用的Torrent下载体验。其界面简洁明了,操作...
安卓 3098 0
"字节跳动放大招:AI绘画终于能'换装不换人'了!" 能保持主体一致性 USO v20250903 一键整合包

"字节跳动放大招:AI绘画终于能'换装不换人'了!" 能保持主体一致性 USO v20250903 一键整合包

🌟 USO:字节跳动开源的内容与风格解耦统一框架🔍 项目简介USO (Unified Style-Subject Optimized) 是字节跳动UXO团队推出的创新性开源项目,全称为"内容与风格解耦与重组统一框架"。该项目旨在解决图像生成领域中长期存在的风格与内容难以平衡的技术难题,为AI图像创作提供更灵活、更高质量的解...
AI,开源 3797 4
这个开源AI,让你0基础创作歌曲 YuE v20250902  支持50系显卡,最低英伟达12G 显卡

这个开源AI,让你0基础创作歌曲 YuE v20250902 支持50系显卡,最低英伟达12G 显卡

YuE 是由 Multimodal Art Projection (MAP) 团队推出的开源音乐生成基础模型项目,旨在推动开放、可控、高质量的 AI 音乐生成技术发展。该项目专注于实现从文本(如歌词和风格描述)到完整歌曲的端到端生成,是当前 AI 音乐领域中一个功能强大且具有前瞻性的开源解决方案。核心特点与技术亮点全曲生成 (Full-Son...
AI,开源 3129 0
Shark007Codecs 一款功能强大的视频解码器 v20.3.2

Shark007Codecs 一款功能强大的视频解码器 v20.3.2

ADVANCED Codecs是一款功能强大的视频解码器,专为Windows系统设计,特别适用于Windows 7/8/10以及XP/2003系统。这款解码器由外国网友开发,以其全面的解码能力和对电脑系统的低负担而广受好评。主要特点全面解码能力:ADVANCED Codecs囊括了几乎所有常用视频格式的解码支持,无需用户额外安装其他Codec...
软件 3229 0
nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

nunchaku-flux.1-kontext-dev AI生图一键整合包 最低4G显卡可运行 30秒出图 v20250830 支持无限生图+批量图片编辑+lora模型+超分

心血来潮,想试试FLUX.1-Kontext-dev 这个新出的模型,但是奈何显卡不是很牛X,生图效率不够高,所以找了下,发现nunchaku 双截棍 这个量化模型还不错,就花了点时间学习下。然后又花点时间写了个界面,方便大伙来玩玩这个。 我的4070ti spuer 16G 30步 出1024x1024 大概30秒,显卡占用不到4G,这个效...
AI,开源 1.9万 95
手心输入法 一款专注于输入本质、纯净且好用的输入法软件 v3.2.6.1006

手心输入法 一款专注于输入本质、纯净且好用的输入法软件 v3.2.6.1006

手心输入法是一款专注于输入本质、纯净且好用的输入法软件。它摒弃了与输入法无关的功能,不包含任何广告和推广,确保用户在使用过程中不会受到任何干扰。这款输入法的界面简约清爽,去除了冗余功能,只保留了核心体验,让用户能够专注于输入本身。手心输入法支持多种输入方式,包括九宫格拼音、拼音全键盘、双拼全键盘、英文全键盘、手写键盘、笔画键盘和五笔键盘等,用...
软件 2363 0
腾讯AI会“配音”了!给视频能自动配上声音+音乐 一键整合包 HunyuanVideo-Foley v20250830

腾讯AI会“配音”了!给视频能自动配上声音+音乐 一键整合包 HunyuanVideo-Foley v20250830

HunyuanVideo-Foley 是一个基于深度学习的音效生成系统,能够根据输入的视频内容,自动识别其中的视觉动作和场景(如脚步、关门、物体碰撞等),并生成与之同步、逼真的环境音效或动作音效。这类技术在影视后期、短视频制作、游戏开发、虚拟现实等领域具有广泛的应用前景,能够显著降低人工配音效的成本和时间。🔧 核心功能视频驱动音效生成(Vid...
AI,开源 4549 16
开源免费、无时间限制 数字人 图片+音频一键生成视频 InfiniteTalk v20250825

开源免费、无时间限制 数字人 图片+音频一键生成视频 InfiniteTalk v20250825

InfiniteTalk 是由 MeiGen-AI 团队开发的先进开源项目,专注于解决长视频生成中的关键挑战——实现无限长度的高质量会说话视频生成。该项目突破了传统数字人技术的时长限制,能够生成任意长度的自然流畅的"会说话"视频内容。核心功能与特点1. 无限长度视频生成突破性技术:解决了传统TTS(文本转语音)和数字人视频...
AI,开源 6595 27
视频创作者必备!KrillinAI提供从翻译到配音的全流程解决方案,智能分段与精确字幕,打造专业级视频内容 v1.4.0

视频创作者必备!KrillinAI提供从翻译到配音的全流程解决方案,智能分段与精确字幕,打造专业级视频内容 v1.4.0

KrillinAI是一个基于AI大模型的视频翻译和配音工具,它提供了专业级的翻译服务以及一键部署的全流程解决方案。这个开源工具旨在帮助用户轻松实现视频内容的本地化与增强,使其能够适配多种内容平台,如YouTube、TikTok、Bilibili、抖音(国内版)、微信视频号、快手等。KrillinAI的核心功能包括视频翻译、配音与声音克隆、字幕...
安卓 4867 4
balenaEtcher 一款功能强大、易于使用、开源的镜像烧录软件 v2.1.4

balenaEtcher 一款功能强大、易于使用、开源的镜像烧录软件 v2.1.4

Etcher是一款功能强大且易于使用的操作系统镜像烧录软件,它专为将OS镜像安全、快速地烧录到SD卡、USB驱动器等存储设备而设计。Etcher采用Web技术开发,确保用户体验流畅且直观,使得即便是非技术背景的用户也能轻松上手。Etcher的核心优势在于其安全性和稳定性。它能够有效防止用户在操作过程中意外写入到硬盘,从而保护用户的数据安全。同...
软件 3289 0
开源 DashPlayer(视频播放器) 专为英语学习者打造 v5.1.7

开源 DashPlayer(视频播放器) 专为英语学习者打造 v5.1.7

DashPlayer是一款专为英语学习者设计的视频播放器。这款播放器的主要目标是帮助用户通过观看视频来提升他们的英语水平。它提供了一个平台,让用户能够沉浸在真实的语境中,从而更好地理解和掌握英语。通过使用DashPlayer,你可以更轻松地提高你的英语能力,无论你是初学者还是已经有一定基础的学习者。软件特色高效的界面布局:DashPlayer...
软件 2612 1
赛博算命上线!让人工智能为你抽一支未来签 赛博算命师 一键整合包 v20250823

赛博算命上线!让人工智能为你抽一支未来签 赛博算命师 一键整合包 v20250823

🔮 什么是 CyberFortune_Telling?这是一个基于人工智能模型驱动的虚拟占卜系统。它可能结合了自然语言处理、生成模型与命理知识库,能够根据用户输入的信息(如生辰、问题、关键词等),生成个性化的运势解读、塔罗牌占卜、星座分析或签文预测等内容。界面充满赛博朋克美学,科技感与神秘主义交织,带来前所未有的互动体验。🤖 技术亮点:基于M...
AI 5784 14
Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

Ovis2图片反推提示词工具v5.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍

本工具基于Ovis2-4B和Ovis2-2B 这2个大模型制作而成。其实早之前我就有分享过反推提示词工具 moondream,但是我昨天遇到了这个大模型,发现功能更加强大,反推出来的提示更加丰富,更多细节描述。这个工具要求显卡比较低,英伟达显卡6g及以上就可以愉快玩耍了我用同一张图片反推提示词下面是Ovis2-4B生成的提示词The...
AI,开源 1.8万 52
小巧精悍的数码照片浏览器  bkViewer 绿色免安装 v7.9h

小巧精悍的数码照片浏览器 bkViewer 绿色免安装 v7.9h

介绍bkViewer是一款功能强大的图像查看和管理软件,它以其高效、便捷和全面的功能深受用户喜爱。无论是个人用户还是专业摄影师,bkViewer都能为图像管理和处理提供极大的便利。以下是对bkViewer软件的详细介绍。功能概述1. 图像查看bkViewer的核心功能是图像查看,支持多种图像格式,包括常见的JPEG、PNG、GIF、BMP,以...
软件 3674 0
开源·高速·高质:Shuttle Jaguar 生成电影级图像 剑二十七二次开发 20秒出图 最低6G英伟达显卡 支持50系 v20250818

开源·高速·高质:Shuttle Jaguar 生成电影级图像 剑二十七二次开发 20秒出图 最低6G英伟达显卡 支持50系 v20250818

我在网上瞎逛的时候,发现了这个模型还不错,就花点时间做了二次开发。Shuttle Jaguar 是一款由 ShuttleAI 开发的文本生成图像(Text-to-Image)人工智能模型,专注于生成具有高度审美感、电影级质感和逼真视觉效果的图像。该模型能够在仅需 四步推理 的极短时间内,将自然语言描述的文本提示(prompt)转化为高质量的图...
AI,开源 5814 9
AI 一键换衣,想穿哪件试哪件!AI-Clothes-Changer 一键整合包 支持50系显卡 v20250818

AI 一键换衣,想穿哪件试哪件!AI-Clothes-Changer 一键整合包 支持50系显卡 v20250818

AI-Clothes-Changer 是一个基于深度学习的交互式图像生成项目,旨在实现“虚拟试衣”功能 —— 用户上传一张人物穿着衣服的照片,再上传一件想要试穿的服装图像,系统即可将目标服装自然地“穿”在人物身上,生成逼真的换装效果图像。🔍 核心功能虚拟换衣(Virtual Try-On)输入:一张人物全身照 + 一件衣服的正面图像(如 T ...
AI 5721 5
EchoMimic 一个由阿里巴巴推出的开源AI数字人项目 支持50系显卡 一键整合包 v3 20250815更新

EchoMimic 一个由阿里巴巴推出的开源AI数字人项目 支持50系显卡 一键整合包 v3 20250815更新

EchoMimic是一个由阿里巴巴推出的开源AI数字人项目,该项目在数字人技术领域内实现了显著的创新与突破。以下是对EchoMimic的详细介绍:一、项目背景与意义随着人工智能、深度学习、计算机视觉以及自然语言处理技术的飞速发展,数字人技术逐渐成为连接现实世界与虚拟世界的重要桥梁。EchoMimic项目的诞生,旨在通过先进的技术手段,将静态图...
AI,开源 6051 8
手机软件 安卓app Etar-Calendar 一款基于开源理念设计的日历app  v1.0.51

手机软件 安卓app Etar-Calendar 一款基于开源理念设计的日历app v1.0.51

Etar Calendar是一款基于开源理念设计的日历应用,旨在为用户提供一个简单、直观且功能丰富的日程管理解决方案。这款软件不仅继承了Material Design的美学理念,更在实用性上做出了诸多创新,使其成为了众多开源爱好者心中的优选。Etar Calendar的核心优势在于其简洁而不失强大的功能设计。软件提供了月视图、周视图、日视图以...
安卓 2451 0
不用会设计!用 FLUX.1-Krea-dev,打几个字就能出高质量图片 剑二十七二次开发整合包 v2.0

不用会设计!用 FLUX.1-Krea-dev,打几个字就能出高质量图片 剑二十七二次开发整合包 v2.0

FLUX.1 [Krea-dev] —— 是 Black Forest Labs 推出的 FLUX.1 系列文本到图像生成模型的一个变体,专为设计类应用优化。一、模型背景1. 开发者:Black Forest Labs由前 Stability AI 核心团队成员(包括部分 Stable Diffusion 开发者)创立。2024 年推出 FL...
AI,开源 4464 11
NewPipe 一个专为Android平台设计的自由、轻量级在线流媒体播放APP v0.28.0

NewPipe 一个专为Android平台设计的自由、轻量级在线流媒体播放APP v0.28.0

NewPipe是一个专为Android平台设计的自由、轻量级流媒体前端应用程序。它以其开源、无广告、无需用户登录即可享受多种流媒体服务的特性而广受好评。以下是对NewPipe的详细介绍:一、软件概述NewPipe是一个功能强大的流媒体播放器,它支持多种视频和音频服务,包括但不限于YouTube。该软件通过从用户正在使用的服务的官方API(如P...
安卓 2542 0
手机软件 安卓app mpv-android 一个专为Android平台设计的开源视频播放器 v2025-07-27

手机软件 安卓app mpv-android 一个专为Android平台设计的开源视频播放器 v2025-07-27

mpv-android是一个专为Android平台设计的视频播放器,它基于libmpv库构建,为用户提供了强大且灵活的视频播放体验。mpv-android的核心特性之一是其支持硬件和软件视频解码。这意味着无论用户的设备性能如何,都能获得流畅的视频播放体验。硬件解码能够利用设备的GPU加速功能,减轻CPU的负担,从而在处理高清甚至4K视频时表现...
安卓 2929 0
让每一张旧照重获新生,从模糊老照片到高清重现:HYPIR 高清修复图片 一键整合包 v20250801

让每一张旧照重获新生,从模糊老照片到高清重现:HYPIR 高清修复图片 一键整合包 v20250801

HYPIR 是由 XPixel Group(一个专注于图像恢复与底层视觉研究的学术团队)提出的一种基于混合先验的图像恢复模型。该项目的核心目标是解决图像在退化过程中(如模糊、噪声、压缩等)丢失的细节信息,通过引入数据驱动先验与模型驱动先验的融合机制,实现高质量的图像复原。HYPIR 的名称来源于其核心思想:Hybrid Prior(混合先验)...
AI,开源 1.2万 34
E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

E2/F5-TTS AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 已支持最新50系显卡 v1.1.7

SWivid/F5-TTS 是一个开源项目,旨在提供一个基于 Diffusion Transformer 和 ConvNeXt V2 架构的文本到语音(TTS)系统,该系统名为 F5-TTS。F5-TTS 的全称是“A Fairytaler that Fakes Fluent and Faithful Speech with Flow Mat...
AI,开源 1.2万 42
一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

一键克隆你的声音:Higgs-Audio 高质量的文本转语音生成 开源语音生成工具 中文一键整合包 v20250728

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统,基于先进的深度学习技术,能够生成高质量、自然的人声。该项目在 GitHub 上开源,提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...
AI,开源 4201 10
开源免费 qView 多平台简约图片查看器 绿色免安装 v7.1

开源免费 qView 多平台简约图片查看器 绿色免安装 v7.1

一款开源免费的简约图片查看器,支持多平台,支持简体中文支持bmp、gif、jpg、png、 TIFF、 WEBP等等格式qView是一款功能全面、界面简洁、体积小巧的图片查看软件,它为用户提供了非常方便和高效的图片浏览体验。首先,qView支持众多图片格式,包括常见的bmp、gif、jpg、png、tiff和webp等,用户无需担心图片格式的...
软件 2689 0
字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

字节出品 MegaTTS3 - AI智能语音合成系统,文字秒变自然语音,支持多语言高质量输出 v20250725

MegaTTS3 是字节跳动开源的一个先进的文本到语音(TTS)合成系统,具有以下特点:🌟 核心特性1. 高质量语音合成基于扩散模型的语音生成技术支持高保真度的语音合成生成自然、流畅的语音输出2. 强大的语音克隆能力能够克隆特定人的声音特征只需少量参考音频即可实现声音复制保持原始音色的同时合成新内容3. 多语言支持支持中文、英文等多种语言跨语...
AI,开源 5773 0
阿里出品 Ovis-U1-3b 多模态理解、文本到图像生成+图像编辑。 一键整合包

阿里出品 Ovis-U1-3b 多模态理解、文本到图像生成+图像编辑。 一键整合包

Ovis-U1 是由阿里巴巴AIDC-AI团队开发的一个先进的多模态大语言模型项目。这个项目专注于构建能够同时处理文本和图像信息的AI系统。核心特点多模态融合能力能够同时理解和处理文本与图像数据实现跨模态的信息理解和生成支持图文混合的输入输出场景统一架构设计采用统一的模型架构处理不同类型的模态数据简化了传统多模态系统中复杂的模块组合提高了模型...
AI,开源 4072 0