Echo(回声) v0.9.1 文字合成语音 声音克隆AI工具

Echo(回声) v0.9.1 文字合成语音 声音克隆AI工具

B站UP主凯凯-你好 开发的一款文字合成语音 声音克隆工具,免费使用,操作简单“灵声妙语”是一款集创新、高效、个性化于一体的智能声音工具软件,它以其极简的设计风格、卓越的性能表现以及全球多平台覆盖的能力,赢得了广大用户的青睐。该软件以“让创意更简单,让艺术走进生活”为核心理念,致力于为用户提供极致的用户体验。从下载安装的那一刻起,用户就能感受...
软件 4327 4
神器 开源 一键安装!Pinokio v3.8.0 支持目前主流的大部分AI项目,操作极其简单

神器 开源 一键安装!Pinokio v3.8.0 支持目前主流的大部分AI项目,操作极其简单

这个工具全部都是免费的。我记得之前有个叫什么白的工具貌似还收费,这个基本上你听说过的AI开源项目 它都有,而且还是一键安装。一个工具整合AI绘画、AI视频、AI语音,还有AI数字人的工具:AI 绘画,又能 AI 对话、AI 视频生成、AI语音生成,还能 AI 数字人支持 W...
软件 5429 7
Trae v1.98.2 字节跳动 开发的AI 自动编程工具

Trae v1.98.2 字节跳动 开发的AI 自动编程工具

Trae 是由字节跳动推出的一款人工智能集成开发环境(AI IDE),旨在通过智能化的功能提升开发者的编程效率和体验。以下是对 Trae 的详细介绍:智能代码生成与补全Trae 集成了先进的 AI 模型,如 Claude 3.5 和 GPT-4o,能够根据开发者的描述自动生成高质量的代码片段或完整的项目代码。在编写代码的过程中,Trae 还会...
软件 2169 0
AudioX  一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX 一个极具创新性和实用性的AI开源音频和视频生成工具。一键汉化整合包

AudioX是一个创新的开源项目,专注于实现一种全新的音频与音乐生成方式。该项目由Zeyue Tian及其团队开发,并在GitHub上公开分享,为音频生成领域带来了革命性的突破。AudioX的核心是一个统一的Diffusion Transformer模型,旨在解决现有音频生成方法中的局限性,如模态隔离、高质量多模态训练数据稀缺以及多样化输入整...
AI,开源 5634 14
开源离线语音识别输入工具CapsWriter v2.0.4——支持无限时长语音+音视频文件转录字幕

开源离线语音识别输入工具CapsWriter v2.0.4——支持无限时长语音+音视频文件转录字幕

CapsWriter 是一款免费开源且可完全离线识别的语音输入工具,无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统,已经更新融合了语音输入以及音视频文件实现字幕转录的功能。相比某些必须在线识别又或者需要付费又有时长限制的app、软件或网站而言,此款良心多了,基本能满足大部分场合需求如会议记录或键盘失灵等。有需自取~~~...
开源 4218 7
BEN2 v1.1 AI人工智能 图片批量抠图+视频抠像工具 一键整合包 视频可以输出透明通道

BEN2 v1.1 AI人工智能 图片批量抠图+视频抠像工具 一键整合包 视频可以输出透明通道

虽然我已经分享了不少的抠图和视频抠像的工具,但是谁又会嫌弃好工具多呢?所以抽空做了这个BEN2的整合包,这个整合包最大的特点就是可以输出带有透明通道的webm视频格式。在图像和视频处理领域,前景分割技术一直是研究和应用的热点。无论是视频编辑、特效制作,还是人工智能驱动的内容生成,精准的前景分割都是实现高质量输出的关键。而今天我们要介绍的,是一...
AI,开源 6471 5
魔塔文生图工具 魔塔ai网页本地版 群内bing制作分享,大小不到10K

魔塔文生图工具 魔塔ai网页本地版 群内bing制作分享,大小不到10K

我之前做的那个27pic-api还算受大伙的欢迎,但是可能使用的人多了就导致接口被封了,好像现在失效了,一直没去更新。这不群内小伙伴bing 制作了本工具。非常不错,我就喜欢善于动手动脑的小伙伴。API Token去魔搭社区获取注册账号后,记得绑定阿里云账号,就可以获取令牌了再次感谢bing的无私分享使用说明,解压双击即可打开网页,...
开源 2109 0
ClearerVoice-Studio   AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作

ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包,旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理,通过融合复数域深度学习算法与先进模型架构,显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术,通过FRCRN(复...
AI,开源 4662 0
MeloTTS v0.1.2  AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包

MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能...
AI,开源 3394 4
入梦AI变声器RMAIVoiceChanger v5.5 免费 免安装

入梦AI变声器RMAIVoiceChanger v5.5 免费 免安装

今天因为有点事 需要去找下变声软件。早上已经分享了一款,没想到还是给我另外一款貌似更好用,设置更加简单的变声工具,也是免费使用。入梦自己开发基于RVC的AI变声器,永久免费给大家分享使用,数十种中精选音源一键切换,建议最低配置位N卡1060以上,CPU四核心以上主频大于3.0GHZ,包集成入梦虚拟声卡,AI降噪等,入梦工具箱等辅助工具,使用简...
软件 9838 21
免费 AI 人声 替换AI 唱歌 伴奏分离软件 Replay v7.1.1 附视频演示和教程

免费 AI 人声 替换AI 唱歌 伴奏分离软件 Replay v7.1.1 附视频演示和教程

上面是这个工具的视频演示和教程。基本上是有手就行了。早几天分享的文字转语音工具,有小伙伴在问是否有人声替换工具?今天分享这个的工具 不仅是人声替换,还可以分离人声,AI唱歌就太简单了。像网上流传很广的孙燕姿唱周杰伦的歌这类的视频和教程已经很多了。我之前也不是没有研究过,但是一直没有分享是因为这类教程对于普通的小伙伴来讲入门的门槛有点高,操作...
软件 2.1万 57
LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包

LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架,基于音频条件潜在扩散模型(Latent Diffusion Models),旨在实现语音与唇形运动的高精度同步。该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术,解决了传统方法依赖中间表示(如3D模型或2D关键点)的复杂性问题,直接生成动态逼...
AI,开源 5857 17
免费使用 麻薯AI变声器 v5.0 内含模型+虚拟声卡 让榜一大哥连夜跑路工具

免费使用 麻薯AI变声器 v5.0 内含模型+虚拟声卡 让榜一大哥连夜跑路工具

这个是用在电脑上的AI变声,其内核应该是开源项目RVC,具体的我没去研究。因为我貌似也用不上这个工具,比如你打游戏的时候或者和别人语音聊天的时候 可以实时变声玩玩,感觉还是有点意思的,这类的软件不多,大大部分都是收费的,难得遇到一个免费使用的良心工具,切用且珍惜如果不会使用,可以点击软件右下角的使用教程,是视频教程应该很容易学会本地端永久免费...
开源 3.1万 116
免费开源的 AI 图像放大提升增强画质工具,跨平台 upscayl 最新v2.15 官方中文版 20241226更新

免费开源的 AI 图像放大提升增强画质工具,跨平台 upscayl 最新v2.15 官方中文版 20241226更新

我之前分享的那几波AI图片素材,全部都是用爬虫爬取后,把原来比较小的图片用这个工具无损放大后再分享的。Upscayl 是一个免费开源的 AI 图像超分辨率工具,AI 模型通过猜测细节来增强图像,提升分辨率。Upscayl 适用于 Linux、macOS 和 Windows,以 Linux 为先的理念建立。下载后即开即用,无需联网。Upscay...
开源 6.1万 277
Stable Diffusion(AI绘画) 绘世 WebUI+comfyui+SD-Forge  自更新一键下载安装汉化版 4.9 202408更新 附A卡整合包 附我常用的大模型和ControlNet 模型

Stable Diffusion(AI绘画) 绘世 WebUI+comfyui+SD-Forge 自更新一键下载安装汉化版 4.9 202408更新 附A卡整合包 附我常用的大模型和ControlNet 模型

距离我上次更新这个已经过去了三个月多了,这中间AI发展实在是太迅速了,我也中间分享了无数用AI生成的图片素材,感兴趣的小伙伴可以在文末的链接进去看看,基本都是基于这个工具生成的。全部免费下载。大概有几千张,大部分都是精品。目前秋叶同学的这个离线包已经更新到了2.58,因为实在是太大了,上传速度实在是慢,所以更新时间稍稍晚了一点点。喜欢这个工具...
开源 24.4万 865
AI音乐生成工具v1.1基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

AI音乐生成工具v1.1基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包

DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已...
AI,开源 4302 5
AI人工智能 图片高清修复放大Tile-Upscaler v1.0  一键汉化整合包

AI人工智能 图片高清修复放大Tile-Upscaler v1.0 一键汉化整合包

本工具基于Tile-Upscaler二次开发,简单直接,操作点2下即可,图片高清修复效果还不错,处理速度我的4070tisuper一张1080x1920的图片大概8秒就可以完成高清修复。效果演示原图我个人觉得高清修复效果还可以。所以就花了点时间整合了一下,另外修改了部分代码1 修正一些小bug2 删除没用的演示例子3&nb...
AI,开源 4693 2
万象生图 v2025.0125 一款利用先进人工智能技术打造的图像生成与增强软件

万象生图 v2025.0125 一款利用先进人工智能技术打造的图像生成与增强软件

万象生图是一款利用先进人工智能技术打造的图像生成与增强软件,旨在为用户提供高质量的图像处理解决方案。无论是日常应用还是专业设计,这款软件都能满足用户的多样化需求。以下是对万象生图的详细介绍。功能概述1. 图像生成万象生图的图像生成功能利用深度学习和神经网络技术,能够根据用户输入的文本描述生成高度逼真的图像。用户只需输入简单的关键词或描述性文字...
软件 3482 2
MatAnyone v1.0.0 人工智能AI 自定义视频抠图 一键汉化整合包 附视频演示

MatAnyone v1.0.0 人工智能AI 自定义视频抠图 一键汉化整合包 附视频演示

MatAnyone是一个专注于人类视频抠图(Matting)的实用框架,其独特之处在于支持目标分配功能,并能在核心区域语义和精细边界细节上表现出稳定的性能。该项目由Peiqing Yang等人在2025年提出,并在CVPR(Conference on Computer Vision and Pattern Recognition)这一顶级计算...
AI,开源 7219 12
InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包

InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目,它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍:主要功能音乐生成:支持文本提示、音乐类型、音乐结构等多种控制方式,可生成高质量的音乐作品。歌曲生成:能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成:可以生成各种类型的音频,包括但不限于背景音乐、音效...
AI,开源 3168 0
Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS 一款开源 功能强大、高效且灵活的文本转语音工具 一键整合包

Spark-TTS是一款先进的文本转语音(Text-to-Speech,TTS)系统,它利用大型语言模型(Large Language Model,LLM)的强大功能,实现了高度准确且自然流畅的语音合成。该系统旨在为研究和生产使用提供高效、灵活且强大的解决方案。Spark-TTS的核心优势在于其简洁性和效率。它完全基于Qwen2.5构建,无需...
安卓 6556 14
CogView4 一键整合包 一个功能强大且易于使用的文本到图像生成模型 支持中文提示词

CogView4 一键整合包 一个功能强大且易于使用的文本到图像生成模型 支持中文提示词

该项目由群里傻木推荐,我测试了下 说实话 效果真是一般,对中文的支持还是不够好,下面有截图。我目前这个整合包只能算是半成品,目前只做到了可以运行,但是效率性能什么的都没有去做优化。以后看心血来潮了再动动。CogView4是一个前沿的文本到图像生成模型,由THUDM(清华大学计算机系自然语言处理与人机交互实验室)开发并开源在...
开源 2709 0
开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一,专注于高质量的语音合成,能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍:一、项目背景与目的随着人工智能技术的不断发展,语音交互已成为人机交...
软件 9905 30
MMAudio  v0.1 AI视频生成背景声音  文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio v0.1 AI视频生成背景声音 文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用

MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍:项目概述MMAudio由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法,能够在广泛的音视频和音文本数据集上进行训练。此外,同步模块可以将生成的音频与视...
AI,开源 4630 0
超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250210更新

超强挂机AI生图comfyui工作流,提示词自动生成,一键操作,出图效果好,效率高 挂机流20250210更新

上次虽然我也分享了一个工作流,但是感觉还是不够完美,因为还是需要自己去提交提示词,感觉有点麻烦,然后又研究了下,做了现在的这个工作流。无需自己提交提示词,一键生成。适合我这样的喜欢挂机来生图的人。白天电脑生图的话 其他事就干不了了。因为显卡占用实在太高了,连打个网页版传奇都不行了。有了这个工作流就不一样了,晚上睡觉后开始挂机,早上起来就有几百...
素材 8681 23
开源 Video2X v6.4.0 一个基于 Python 编写的视频、GIF 和图像放大及帧插值软件

开源 Video2X v6.4.0 一个基于 Python 编写的视频、GIF 和图像放大及帧插值软件

这个软件主要用于提升视频的质量,通过升频和提高分辨率来实现。对于那些希望改善老旧或低分辨率视频视觉效果的用户来说,它提供了一个强大的解决方案。video2x 的主要功能是将视频升频到更高的分辨率。它运用先进的算法来分析和处理视频的每一帧,增加像素数量,从而提升整体的清晰度和细节。这对于提升旧的 VHS 录像带、DVD 转制视频或其他低质量视频...
软件 3339 0
永中Office2024 个人版 v9.0.5847.101一款非常优秀的国产办公软件

永中Office2024 个人版 v9.0.5847.101一款非常优秀的国产办公软件

介绍永中Office(Yozo Office)是一款由永中软件股份有限公司自主研发的全面办公软件,面向企业、政府机构以及个人用户。它集成了文字处理、电子表格、简报制作和PDF阅读四大核心应用,同时支持桌面办公和移动办公,旨在为用户提供高效、稳定、安全的办公解决方案。以下是对永中Office的详细介绍。基本功能文字处理:永中Office的文字处...
软件 2551 1
HivisionIDPhotos v1.3.1 一个专注于证件照智能制作的开源项目 一键整合包 支持批量处理 附视频演示

HivisionIDPhotos v1.3.1 一个专注于证件照智能制作的开源项目 一键整合包 支持批量处理 附视频演示

HivisionIDPhotos 是一个专注于证件照智能制作的开源项目,由Zeyi-Lin开发并维护。该项目旨在通过先进的图像处理和机器学习技术,为用户提供一种高效、便捷的证件照制作解决方案。项目结合了轻量级抠图、多尺寸规格生成、智能换底等多种功能,让用户能够轻松制作出符合标准的证件照。核心功能轻量级抠图:HivisionIDPhotos采用...
AI,开源 5487 19
开源 DCT-Net_Webui v20250116 修改增强版 一款将图片/视频转绘漫画效果工具 支持批量处理 附三倍快乐演示

开源 DCT-Net_Webui v20250116 修改增强版 一款将图片/视频转绘漫画效果工具 支持批量处理 附三倍快乐演示

视频转动漫的工具貌似有不少,之前我也分享了,但是今天分享的这个,操作是极其简单,我顺手还做了个批量处理。这样就更方便了。Q群一个小伙伴提供了一台远程4060显卡的机器给我远程测试,所以也顺手把N卡包也整合好了。N卡的效率确实是超级高啊,我用CPU跑10秒的视频大概要3-5分钟,但是N卡的话 一分钟不到就搞定了。确实是爽。下面是截图一下给你们看...
AI,开源 8037 10
鲜艺AI抠图v3.1.0 免费且无需联网的 AI 抠图 可以批量处理

鲜艺AI抠图v3.1.0 免费且无需联网的 AI 抠图 可以批量处理

鲜艺AI抠图是一款功能强大的免费AI抠图工具,它以其高效、精准和便捷的特点受到了广大用户的喜爱。以下是对该软件的详细介绍:基本信息软件名称:鲜艺AI抠图软件类型:AI抠图工具平台支持:Windows、macOS特点:免费、离线运行、不登录、不联网核心功能毫秒级抠图:鲜艺AI抠图内嵌了先进的AI模型,能够实现快至毫秒级的精准抠图,大大提高了抠图...
软件 4864 4
开源 Fish Speech v1.5.0 优化版 文字转语音 可以克隆声音 一键整合包 附效果演示

开源 Fish Speech v1.5.0 优化版 文字转语音 可以克隆声音 一键整合包 附效果演示

Fish Speech是一个由Fish Audio团队开发的全新文本转语音(TTS)解决方案,旨在通过先进的机器学习和深度学习技术,将文本转换成高质量、逼真的语音输出。该项目基于CC-BY-NC-SA-4.0许可证发布,意味着任何人都可以在遵守许可证规定的前提下自由使用、改进和分享代码和模型。技术亮点Fish Speech项目采用了一系列前沿...
开源 1.1万 23
开源 FasterWhisperGUI(音频处理工具) v0.8.5 人声分离 人声识别 字幕处理 附模型下载

开源 FasterWhisperGUI(音频处理工具) v0.8.5 人声分离 人声识别 字幕处理 附模型下载

Faster Whisper GUI 是一个基于 Faster Whisper 引擎构建的图形用户界面(GUI)项目。这个开源项目旨在提供一个用户友好且功能强大的语音识别解决方案,使用 Python 语言开发,并借助 Faster Whisper 引擎的高效语音处理能力,来实现快速、准确的语音识别功能。以下是对这个开源项目的详细介绍。项目背景...
软件,开源 6989 7