作为一名媒体从业者,小编在工作中少不得要和录音笔打交道,有时还要亲自带着录音笔去采访。虽说有了录音笔,让采访过程的记录更为轻松,但回到公司,面对动辄四五十分钟的录音,小编常常欲哭无泪。也正是因为这种体验,所以小编一直对语音识别技术的发展较为关注。
语音识别的终极梦想,是真正能够理解人类语言甚至是方言环境的系统。但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发。
在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步。
技术原理
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
作为语音识别的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比,因此,只有在预处理阶段得到能够表征语音信号本质特征的特征参数,才能够将这些特征参数进行匹配进行识别率高的语音识别。若果让小编用一句话来进行总结就是:对语音识别来说,给它足够的数据量进行学习是关键。
应用案例
近日,搜狗召开发布会,正式推出其自研的速记神器——搜狗听写。这是一款能够将语音实时转变成文字的速记工具,拥有转写和听写两种模式,主要面向文字工作者。
搜狗语音交互技术中心总经理王砚峰表示,搜狗听写中涉及到了大量前沿技术,例如大规模的优质语音数据训练和深度学习的技术能力积累等,不仅可应用于多个场景,其语音识别准确率也高达97%以上。搜狗听写可提供两种服务,语音转写和语音听写。此外,它还同时具备了边听边改、无线标重点、多端同步、信息分享等多个功能。
微软公司近日宣布,其对话式语音识别系统的出错率达到5.1%,创下目前为止的最低水平,超过了去年微软人工智能及研究事业部一组研究人员所实现的5.9%出错率,达到了专业速录员的同等水平。在此次研究中,专业速录员具备重复收听录音等优势。
与此同时,市面上玲琅满目的产品也反映了这种飞跃式发展,例如亚马逊Echo、苹果Siri等等。
语音识别成关键
在智能 家居 ,不管是智能家电还是机器人,语音识别技术都是必备的基本功能之一。据知名市场调研公司MarketsAndMarkets发布的调查报告称,全球智能 家居 市场规模将在2022年达到1220亿美元,2016-2022年年均增长率预测为14%。而在机器人方面,研究机构IDC预测,至2020年,全球机器人与相关服务市场规模将由2016年的915亿美元增至1880亿美元。从这两点数据来看,可想而知未来智能 家居 的市场之大。
在控制方式上,除了部分智能家电之外,语音控制已经成为了市场的主流,而这就是语音识别市场的商机。未来,作为人机自然交互的前提之一,语音识别必然是智能 家居 的发展趋势,只有语音识别的准确率接近完美,人机的自然交互才能继续开展。在智能 家居 市场的推动下,语音识别技术必将成为重点发展对象。
三大挑战
首先就是对象识别的准确性。现在,在应用上,我们看见语音识别多是在智能 家居 领域,包括智能家电和服务机器人。此时,我们就要考虑一个问题了,当多个家庭成员同时讲话时,智能家电和服务机器人该执行谁的命令呢?它们又如何能在众声音中找出自己主人的命令?这些都是当前语音识别所需要解决的问题,毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。
第二个必须解决的问题是语言扩展:世界上大约有7000种语言,绝大多数语音识别系统能够支持的语言数量大约是八十种。扩展系统带来了巨大的挑战。此外,我们缺少许多语言的数据,而且匮乏数据资源则难以创建语音识别系统。
还要降低周边环境的干扰。对于人类来讲,在嘈杂环境中听别人说话或是从众多声音中找出自己想听的内容还是一件较为简单的事,而与此相反,这件事在机器这里并没有那么容易。
编者总结
随着智能 家居 市场的扩大,应用语音识别的产品和场景越来越多,同时也是对它的一个挑战。如果连准确性都无法保证的话,那么人机交互也无从谈起。语音识别技术在2017年前半年发展足够迅速,至于未来会如何,让我们拭目以待吧!