开源免费 AI语音识别转文字工具，制作视频字幕的利器 stt v20250805 整合包附全部模型

2026-01-23 AI,开源 5941

20240323-1666228331-1girl,solo,(distance_1.1),((upper_body)),_realistic,jewelry,color hair,(sexy_1.2),cityscape,looking at viewer,long hair,_makeup,.png

下面文字是作者原话

这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。

部署或下载后，双击 start.exe 自动调用本地浏览器打开本地网页。

拖拽或点击选择要识别的音频视频文件，然后选择发声语言、输出文字格式、所用模型(已内置base模型),点击开始识别，识别完成后以所选格式输出在当前网页。

全过程无需联网，完全本地运行，可部署于内网

其实在很久以前我就有分享过几款制作视频字幕的工具，但是由于有些配置有点复杂，有些又需要N卡来运行，各种原因都没有怎么受大伙的欢迎

今天分享的这款效果也不错，速度也不错。我亲测了几个视频，处理起来速度还不错，错别字也不算多，目前我还没有遇到语音转文字几乎没错的工具，可能是普通话标准与否这些都有很大的关系。所以完美的暂时没有见过。

下面看截图

这个工具操作也是极其简单，所有操作都是在本地进行，不用担心泄露什么。先把视频文件或者语音文件拖进来。然后选好语音，选好模型。点立即识别等待几十秒后就可以在下面的框框里看到识别后的文字。字幕是带有时间戳的，把txt文件的后缀改成.srt，直接拖到视频剪辑软件里面就可以了。

为了方便小伙伴们的使用，我已经把所有的模型都放在压缩包里了，省得你们再去找模型了。

下面说下这些模型我的使用心得。

base 处理速度最快，但是效果也是最差

small 和base差不多

我觉想准确率高点的话至少要用medium。但是用medium有个bug，就是生成文字里面有繁体中文。解决也很简单用繁体转简体工具转换一下就好了

large-v2和v3 这2个模型效果是最好的，但是处理时间也是最长的。

所以小伙伴可以根据自行的需求来试试各个模型。

下载地址

夸克网盘

下载有疑问看下这里

语音神器人工智能 AI 文字字幕识别利器整合包 Tag

深度整合 FLUX.2-klein-base-9B：一款为内容创作者打造的本地化 AI 绘图+多图片编辑工具一键整合包 v20260123

颜值高韩国鲸鱼Whale浏览器中文版 v4.35.351.16

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 3 条评论

蓦然

2024-09-26

一段话试下来，large-v2分了几行，而v3就只有一行

回复
复杂演变鼠标

2024-07-01

看看

回复
无情闻小蝴蝶

2024-06-09

我需要高速网盘

回复

只显示最新的15条留言

个人中心

最近更新

热门软件

下载地址