手机语音“听话”到“懂话”的进化

吴茂林 2015年07月20日 14:04

人类发明工具的目的是什么?“弥补自身不足”、“提升效率”是最基本的需求;而随着人类智力的进步,各类工具也得到了发展,从石器时代的石斧石锅到现代文明的各种器械,都表现出在不同时代的各种形态特点。

具体到手机这个已经浸入人们日常生活中的设备,当它智能化之后,必然要求其逐渐具备与人类社会进步相对等的能力,才能进行便利和对等的人机交流,其中智能语音交互就是目前最热门的一个功能,例如中兴通讯上个月发布的星星2号,就是第一款主打智能交互功能的手机。

语音交互的进化历程

回顾人类发展历史,不难看出,随着人类不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。

而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。

而作为这种功能在移动端延伸,手机相关的语音交互功能最早要追溯到十几年前的功能机时代。它最初是以语音拨号的形式来实现这种交互,当时以摩托罗拉、诺基亚为首的一批国外手机厂商,通过预先录制预存用户的语音样本,然后使用时由用户进行语音口述,比对预留样本,从而实现语音拨号的功能。

这项功能后续进行了进一步的发展,例如摩托罗拉在其A系列上从语音拨号进化到语音控制层面,就是通过语音能控制手机发短信、打开应用程序诸如音乐等。但是,这一阶段的语音交互技术有个致命的问题,就是准确性不高。因为它采用的是通过预存样本比对的技术来实现,这样的技术受限度很大,主要有以下三个:

A 受外界背景噪音干扰:因为是采用的样本音频分析对比,所以对来源音频的质量要求较高,如果来源音频背景噪音太严重,会造成与预留样本不符而比对失败。想想,你在一个安静的环境里录完音,然后在大街上去使用,这种成功率会高吗?

B 使用者发音前后不一干扰:

同样的道理,你预留的样本音频是健康时的,而使用时因为风寒感冒了,很可能会造成比对失败,这样也会影响成功率。

C 其它使用者无法使用:你的样本是你自己的,如果换成你的爱人,或者小孩,按照这种样本对比,就根本无法使用了。

以上这些因素,造成之前的手机语音功能识别率太低,如同鸡肋,所以也没有在手机中起到决定性的作用。

语音交互的新时代来临

进入到智能操作系统时代,手机、平板、可穿戴、智能家居、智能汽车等不断出现,各种业务、软件、应用也迅速普及,而且越来越多应用也开始引入语音功能,有助于培养用户使用习惯,语音交互迎来了春天般的新时代机遇。

据咨询公司统计和预测,近两年国内智能终端语音交互市场使用群体或将达到惊人的规模:

分析当前语音交互的热潮,主要具备了以下几个主要原因:

A 人工智能算法突破

前述我们讲的过去的语音识别主要原理是模式匹配法,即在训练阶段,用户将词汇表中的词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

而现在的技术突破方向是”机器学习”,通过语音识别声学模型训练,使用带预训练的多层神经网络,语音识别错误率可降低30%,是近20年来语音识别技术方面最快的进步。

B 大数据的灵活应用

随着及手机、平板、可穿戴等各种移动智能终端的普及应用,已经可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。

而在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累成为现实并将提升到战略高度。

C 高速移动数据网络打通大动脉

2/3G时代,流量的限制使得语音交互技术无限制使用的条件不足,海量语音资料库累积较慢,限制了语音辨识与语义理解的提升;而如果局限于本地模式下,又缺乏大数据处理的支撑导致语音辨识率低,影响用户体验,使用频次下降,形成负反馈,就如同前十几年那种鸡肋的局面。

4G时代,手机网速大大提高,语音应用的频次和范围不断增加,海量语音资料库迅速增长;语音辨识准确率以及语音分析能力大大提升,而语音辨识精确度与语义理解能力的提升,又将进一步推动语音交互发展提升体验,形成正向反馈,带动语音交互应用更加丰富。

简单总结,就是人工算法实现功能上的智能化,大数据形成大量的声学模型,保障误别的成功率,而4G高速网络能讲样本快速上传并下载相应的识别结果,提升用户体验。从这个层面上讲,现在语音识别已经不仅仅是“听”这个层面上,更多的是朝听完之后“懂”的层面上发展,成为用户真正的助力帮手。

语音交互的未来

随着人类对智能设备的依赖和人机之间的交互日益频繁,原有的操控方式变得越来越复杂、效率低下,迫切需要诞生一种新的更简便的操作方式;而语音一旦成为主流的交互手段,可以做到各种设备指令统一、简洁,大大降低人类对智能设备操作的要求、节省人机互动的时间。

哪些人群会在语音交互的这股浪潮中得到益处?语音交互的智能化又能给行业带来什么样的新动向?

首先,随着智能设备和应用的影响逐渐扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。

其次,语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后,第四代的入口。语音识别将使人机交互能够以人类最熟悉的方式进行,其优势以及价值一旦发挥出来,天然的交互入口起到导流作用,将对即时通讯、搜索、购物、LBS等垂直应用服务市场产生巨大的影响,而且语音交互将凌驾于搜索引擎、浏览器等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链,前景极为看好,这也正是产业巨头纷纷在这一领域投入巨大资源的根本原因。

第三是语音交互产业链的形成。

当前,从整个产业链条来看,在语音交互技术领域,涌现出一大批优秀的中国企业,经过多年的积累,语音技术已不再是国际巨头一家独大的局面。如在核心技术研发环节,有小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所;人机交互技术及服务提供商,如科大讯飞、捷通华声、车音网等语音技术提供商及微信、QQ等平台服务商。在数据和内容提供商环节更是百花齐放,应用领域包括影视(百事通、优酷、土豆等)、音乐、餐饮(大众点评、订餐小秘书)、财经(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等细分行业;智能终端设备提供商中包括以中兴、联想、华为等为代表;智能电视领域有长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等。

值得关注的是,作为用户数量最大的智能手机行业,目前还只有中兴通讯一家看到了这一个市场的巨大潜力,投入了大量的人力物力进行推广。中兴通讯早在2012年就已开始智能语音技术的自主研发,并与Audience、Nuance等语音技术企业合作推出了一系列创新语音应用服务,是目前国内最早布局手机语音技术的终端厂商之一。2013年10月,中兴率先发布了业内首款全语音操作的应用服务“驾驶助手”。2014年初,中兴通讯推出“最听话的手机”星星1号,其语音识别率达到了90%,识别一个人名反应速度1.2S(1500条名片数据),语音识别率及反应速度均居全球第一,同时,星星1号还搭载了“自定义语音唤醒词”技术,用户能够根据自己的心情和需要自行定义手机的锁屏唤醒词。2014年12月,中兴通讯推出搭载最新智慧语音Wit Voice,同期推出的星星2号手机第一个做到系统级、全嵌入式的穿透使用,同时识别率更高,相应速度更快,它实现了语音技术新的跨越。消费者可以通过语音控制完成拍照、应用开启及驾驶模式下的导航与音乐等生活娱乐功能,在语音技术的基础上

第四,行业联盟促进产业高速发展。

2014年9月,中兴曾联合Nuance、Audience、高德、百度、中国科学院自动化所等语音技术权威机构组成的“智慧语音联盟”,同时发布行业首个智能语音技术规范标准“5A标准”。即倡导未来的智能语音解决方案需要具备个性化语音体验(Anyone)、智能全操控(Anyhow)、全天候操作(Anytime)、千万级数据本地存储(Anything)以及全环境使用(Anywhere)这五大特征。

“5A标准”代表了目前语音技术行业最先进的理念和最高研发水准,首次为业内提供了智能语音终端可参考的标准性规范。这个联盟为全行业的智慧语音发展搭建平台,引领智能终端从“触控时代”迈向“声控时代”。

写在后面:我在十几年前就幻想有一种能脱离手触交互模式的技术能出现,例如在我开车时就可以方便的进行交互,那时候蓝牙耳机还很贵的。后来,特别是微博微信盛行之后,我更喜欢有一种交互的模式,能让我用嘴来输入而不是用手一个字一个字去敲打。而智能语音技术,不仅让我的输入更快捷和省力,而且对于一些特殊人群而言,解决了他们使用手机的障碍。

一门技术从鸡肋变成香勃勃,这就是科技进步的力量!

推荐文章