您的位置 首页 > 数码极客

swiftscribe

王新民 编译整理
量子位·QbitAI 出品

百度昨天宣布推出SwiftScribe,一个利用人工智能(AI)技术,快速将录音转成文字的免费工具。

SwiftScribe界面

SwiftScribe可以播放音频,并且支持调整音频播放速度,用户可以边听音频边对自动转写的文字进行校对编辑。编辑完成后,可以将文字导出成纯文本或Word文档。

SwiftScribe页面上显示,这一工具是由百度美国推出的。百度美国包括百度自动驾驶部门(ADU)、百度研究院和百度USDC。

百度新推出的这个工具,和国内科大讯飞的录音宝,国外Nuance的Dragon功能类似,不过后两者是收费的。SwiftScribe目前是免费的,不过项目经理武田(音)说,希望未来能将它变成一个生意。

在过去几年中,百度一直在优化他们的语音识别软件DeepSpeech。去年,该公司推出了一款Android输入法TalkType,把DeepSpeech技术用到了输入上。百度把语音输入放在了比打字更优先的位置,是因为说话能比用手指点击字母更快地传递信息。现在,百度又面向专业人士,推出了另一款由DeepSpeech增强的工具。

除了百度之外,美国的亚马逊、苹果、谷歌和微软,国内的科大讯飞、搜狗也都一直在进行语音识别的研究。

使用SwiftScribe时,用户上传需要转录的.wav或.mp3格式音频文件,然后系统将会在云端对其进行处理。通常来说,一个30秒的文件需要10秒的处理时间,长为一分钟的音频文件在30秒内即可处理好。武田在接受美国媒体VentureBeat采访时说,SwiftScribe最长能处理1小时音频,需要20分钟的处理时间。

Swiftscribe转写的文字没有标点符号,因此,用户需要对自动处理的结果进行修改编辑,如大小写调整,添加标点符号和修改拼写错误等等。为了方便用户修改,SwiftScribe提供了调整音频速度、快进、快退、插入空行等快捷键。

开发SwiftScribe的灵感来自武田在加州大学圣芭芭拉分校读研期间的采访经历。作为一个中国留学生,武田通常需要花费10小时时间来听写1小时音频。武田说,据她所知,一个专业人士整理1小时音频需要4-6小时。

通过和几个速记员的交流,武田和她的同事Nina Wei认为,SwiftScribe可以帮速记员们提升1.67倍的工作速度,也就是节约40%的时间。这意味着他们可以做更多的工作,并最终获得更多的报酬。

这款产品是针对速记员设计的,他们习惯于使用计算机而不是移动设备进行输入,因此SwiftScribe只有网页版。当然,对于记者、历史学家等职业来说,SwiftScribe也是一个很有用的工具。

未来,SwiftScribe团队希望可以提供为视频自动转录文字加字幕的功能,支持更多的文件格式,以及增加一个能够自动添加标点符号的功能,来完善这款应用程序。

今天AI还搞了哪些大新闻?
在量子位(QbitAI)公众号会话界面回复“今天”,看我们全网搜罗的AI新鲜资讯。比心❤~

关于作者: luda

无忧经验小编鲁达,内容侵删请Email至wohenlihai#qq.com(#改为@)

热门推荐