批量语音转文字小工具是一款非常不错的文字语音转换工具,软件主要用来进行MP3文件批量上传,进行语音转文字的功能,依托于百度AI软件的识别率还是非常不错的。
我们严格按照如下步骤来进行操作:
1、KEY的申请
软件上方的APIKEY和SECRETKEY需要去百度AI网页的语音识别板块上申请,完全免费的申请。
如下,打开短语音识别网页:https://ai.baidu.com/tech/speech/asr,点击立即使用。
百度账号登录,进入如下界面,按照箭头先都领取了。
然后创建应用,按照箭头指示随便写即可:
然后查看应用详情里,就能看到APIKEY和SECRETKEY了,复制到软件中即可。
2、选择识别语种
软件一共可选:极速版普通话、免费版普通话、免费版英文、免费版粤语、免费版四川话这几种,其中第一个极速版普通话正确率最高。
3、选择音频转换
点击按钮可批量选择多个mp3音频,然后自动进行转换,识别完成后自动保存识别结果到软件目录的音频转换结果文件夹中
1、批量音频转文字
可以批量选择要转换的音频即可自动识别,不限时长,免费,识别速度尚可,需要耐心等待。
(1)例如批量识别小学生课文
(2)例如识别长达五分钟的《荷塘月色》
2、文字转语音
这个没什么好说的,输入文字,选择发音人、语速、音调之类的,可以试听,可以生产mp3格式的音频文件
3、截图OCR
点击截图按钮即可截图,自动弹出识别文字。
4、图片批量识别
在截图OCR下拉按钮有个图片批量文字识别功能,这都属于OCR功能,简单又粗暴,批量选择图片,即可识别所有图片中的文字。
5、复制翻译
看英文文献,有时懒,要是可以有置顶悬浮窗,实时监测剪切板,遇到想要翻译的段落,直接复制,即可给出多国语言翻译结果也是刚需;当然有些论文文本无法复制,因此还复用了截图OCR的功能,对OCR结果进行翻译
6、图种制作
没什么意思,就是将一张图和一个压缩文件合并成一个图片文件,这个生成的图片文件打开是一张图,要是后缀修改为zip,解压以后就可以看到原先的压缩文件
1,音频到文字:当前,市面上的大部分音频文字都是收费的。音频到文本的需要是:上传一段音频,直接将其识别为文本,对于会议记录更好,注意不要实时语音识别。
2,文字到声音:声音不应太僵硬。
3,截图文本识别(OCR):屏幕截图完成后,屏幕截图中包含的图片中的文字将会弹出。
4,批量图片文字识别:选择多张图片,直接识别每张图片的文字。
5,复制翻译:看看英文文献,有时候懒,如果可以有天花板浮动窗口,实时监控剪贴板,遇到你要翻译的段落,直接复制,可以给多语言翻译结果只是需要;当然,有些文章的文字无法复制,因此屏幕截图的OCR功能也被重用来翻译OCR结果。
6,图片制作:这不具有影响力,纯粹是个人爱好,没有技术含量。
去年我用Python编写过几款小工具,解决了一些刚需,比如音频转文字这种大多数都需要收费的场景。
通过在吾爱破解论坛上的热度可以看到,这几款小工具确实挺受欢迎的。
不过,最近很多网友反映软件的各种bug,诸如音频转文字生成空文件夹,我也是最近发现百度AI的申请网页发生了变化,所以干脆将原先的这个音频功能独立出来,独立起来好处多,修复了很多bug,所以今天就要说说这款工具了。
这款独立版的软件去除了原先的黑框,修复了很多bug