语音识别/AI分进合击 软硬件厂剑指家庭智能中枢

更多猛料?欢迎关注老杳个人微信号:laoyaoshow
来源: 新电子   发布者:新电子
热度29票   时间:2017年3月08日 05:06
语音识别不算新玩意,但在自然语言处理技术及人工智能的加持下,现在的语音助理不仅能控制家中的各式设备,还可以连上云端,与各种资讯服务结合。语音助理很可能会成为继遥控器、触控荧幕之后,最重大的人机介面创新,相关软硬体业者无不为此全力备战。

将各式各样的智能应用服务带入家庭,可说是科技产业追逐已久的大梦,但要如何让使用者与机器设备自然地互动,却是人因工程上的大挑战。就人类的角度,最终极的人机介面应该是用意念来对机器下达指令,但目前相关技术还在基础研究阶段,短期内很难看到商品化的机会;动口不动手,用自然语言来传达指令,则是次佳的解答。但这项功能在硬体和软体方面,都有很大的技术挑战。

语音识别添智能 亚马逊/Google两强相争

在硬体面,收音系统的设计涉及许多声学上的专业及复杂的演算法,例如指向性收音、回音消除、背景噪音消除等。而在软体面,系统除了要听得懂各种自然语言外,还得考虑各地方腔调、习惯用语等变数,才能提供精准的辨识结果,并进一步将其中的关键字萃取出来,转化成系统能理解的指令。
在语音识别与人工智能结合之后,利用语音指令操作硬体设备出现重大突破。亚马逊(Amazon)在2014年底正式推出Echo声控扬声器(图1),并可透过其内建的Alexa语音助理,为使用者提供查询天气、订购商品、控制家中其他电器设备等种种应用服务。
图1 亚马逊Echo智能扬声器
资料来源:亚马逊
 
Echo扬声器推出后,不仅引发话题,更在消费市场上获得欢迎。据研究机构Consumer Intelligence Research Partners预估,自2014年底上市以来,Echo扬声器在美国已卖出超过510万台。由于Echo扬声器并非个人消费性电子产品,其销售型态比较接近一户一台,因此510万台这个数字已相当可观。

就在Echo扬声器取得重大成功之后,同样在人工智能领域有深入布局的Google,在2016年底发表Google Home,该产品同样是搭载语音助理及人工智能的扬声器,与Echo在本质上并无太大差异。不过,由于Google本身已经有相当多样化的云端服务,因此Google Home所搭载的Google Assistant语音助理,未来很可能会与自家的其他服务进一步结合,以便满足消费者各式各样的需求。

但亚马逊也不是省油的灯。或许是早已预料到其他大厂也将加入智能扬声器战局,该公司早在Echo推出后半年,便宣布将开放Alexa服务给其他开发商使用,同时还提供相关硬体开发套件给其他业者,要借由生态系的力量来拉开与其他竞争平台的差距。截至目前为止,Alexa已经有超过七千项技能(Skill,类似智能型手机上的App)可供使用者下载,涵盖领域包含天气预报、新闻、家庭自动化控制、教育、运动健身等(图2)。
图2 Echo扬声器所搭载的Alexa语音助理,已经成为一个庞大的生态系统。
资料来源:亚马逊
 
精准接收语音指令 麦克风阵列技术不可或缺

智能扬声器的使用者体验好坏,主要涉及四大环节,分别是收音麦克风、语音处理器、语音识别引擎以及云端上各种应用服务。其中,收音麦克风的设计,是智能扬声器能否精准辨识使用者指令的第一道关卡。

泉声电子董事长温增丰表示,利用语音指令来控制电子产品,对使用者来说,是最自然的人机介面。但要让机器设备清楚地听到指令,背后涉及许多声学上的专业。

在家庭环境中,其实存在着许多背景噪音,麦克风本身也有底噪。要避免这些噪音盖过使用者所发出的语音指令,可分成两个层次来谈。针对外部的背景噪音,硬体制造商可透过多颗麦克风元件搭配噪声消除演算法,来消除使用者以外的杂音。这部分涉及麦克风制造商及语音处理器的搭配。至于麦克风的底噪,则要看电声元件业者的功力,以及所选用的麦克风设计架构。

一般来说,驻极体麦克风(ECM)的讯噪比(SNR)是最好的,可达70dB以上。截至目前为止,专业录音室所使用的麦克风,基本上都还是ECM的天下。不过,微机电(MEMS)麦克风的讯噪比近年来也有显著改善,目前业界的水准可以做到64∼65dB,与ECM的差距正在拉近。

不过,ECM有一个先天的缺点,就是采用阵列式设计时,ECM麦克风模组的组装加工较为困难,MEMS则没有这个问题,在大量生产时,加工相对简便。不过,MEMS麦克风先天上对低频的反应不如ECM麦克风,这也是应用开发商在选择麦克风元件时,必须特别注意的。

因此,温增丰总结指出,就智能扬声器应用来说,未来应该会是以MEMS麦克风为主流。毕竟,在采用阵列式架构的前提下,MEMS麦克风有很明显的优势。目前市面上的智能扬声器,绝大多数都是采用阵列式麦克风,例如中国科大讯飞和电商平台京东联合成立的灵隆科技,便推出了采用五颗麦克风的叮咚音箱;亚马逊的Echo则内建七颗麦克风(图3);Google Home则只有两颗。
图3 Echo扬声器顶端的周围与正中央,一共内建了七颗MEMS麦克风。
资料来源:iFixit
 
虽然麦克风的数量不一定能跟语音指令的接收效果画上等号,但麦克风数量越多,理论上音源追踪的解析度也越高,亦即更能精准锁定发话者的相对角度,并滤除掉其他背景杂讯。

值得一提的是,麦克风收音效果的好坏,除了跟麦克风元件有关之外,应用产品的机构设计也会对收音效果产生决定性影响。因此,硬体制造商若不是自己的机构团队有一定的声学设计实力,就要靠电声元件供应商提供支援。

语音处理器商机涌现 土洋IC厂大对决

在麦克风接收到声音讯号后,后续的噪音消除、回声消除、音源追踪、背景音消除等功能,原则上都是透过语音处理器搭配各种专用演算法来实现,有些则可以透过更后段的语音识别引擎来处理。不管是微处理器(MPU)或数位讯号处理器(DSP),都可以扮演语音处理器的角色。

目前市场上最主要的语音处理器供应商,除了与亚马逊结盟的科胜讯(Connexant)之外,台湾本土IC设计业者骅讯、瑞昱、新唐也都有晶片解决方案。楼氏电子(Knowles)则为了强化其麦克风业务布局的完整性,购并了语音处理技术业者Audience。据了解,联发科内部也有一支研究团队正在研究相关题目,更有意要打进亚马逊供应链。

事实上,语音处理器已经是相当成熟的技术,加上半导体效能飞快成长,就硬体的层面来说,针对一般应用,目前市面上有很多平价Cortex-M微控制器(MCU)或入门级DSP,都已经能扮演语音处理器的角色,差别仅在于各家厂商所开发的独特演算法,可能在不同的特定情境有特殊优势;又或是某些针对高阶语音设备,例如远距会议设备所设计的专用晶片,以便执行一些非常复杂而特别的演算法。

人机沟通情况特殊 辨识引擎调校不可免

不过,由于语音识别技术是最近几年才突然窜起的新领域,现有的语音处理器大多仍是为了人与人的语音通话需求而设计,因此语音讯号处理器输出资料到语音识别引擎后,还是有很多匹配跟调校的工作要做。

赛微科技副总经理刘进荣(图4)便指出,人的听觉是个很有趣的感官,很多语音处理器输出的讯号其实仍含有很多杂讯,但在人的耳朵听起来,却已经非常清晰。然而,这些讯号进入语音识别引擎后,由于杂讯还是很明显,会影响辨识准确率,因此辨识引擎仍须对讯号再做一次清理,才会开始进行语音识别。辨识引擎业者必须视应用的实际状况进行程度不一的客制化,语音处理器跟语音识别引擎才能完美匹配。
图4 赛微科技副总经理刘进荣指出,语音识别引擎不一定
非得要靠云端资源才能实现。
 
相较于手机或PC上的语音助理,Echo这类智能扬声器的语音识别系统设计是非常复杂的。手机或PC的语音助理是近场收音,情况单纯很多,但智能扬声器或其他支援语音控制的智能家电,则是远场收音系统,因此从麦克风、语音处理器到语音识别引擎,整个讯号链在设计时都要考虑到更多变数。

至于语音识别引擎本身,近几年来在技术上也有相当明显的突破。早期的语音控制系统其实并不好用,使用者必须记住很多指令,而且要一字不差地念出那些指令,系统才会回应。不过,随着自然语言处理技术(Naturl Language Processing, NPL)取得重大进展,让使用者不用再背诵指令,可以用很自然、口语的方式表达其意图,辨识引擎则从中提取出几个关键字,经过演算、重组后精确判断使用者意图,并执行相应的指令。
 
本地端/云端辨识引擎各有长处

在本届CES上,搭配云端辨识引擎的智能扬声器虽然大出风头,但刘进荣认为,在智能家庭应用中,产品开发商不一定要一窝蜂地加入Alexa或是Google Home的生态系统,在本地端装置搭载辨识引擎的作法,还是有些不可取代的好处。

刘进荣进一步分析,引入云端架构最大的好处,在于拥有庞大的运算资源,甚至还可以与人工智能(AI)连结,实现非常高阶的对话系统,而且除了辨识引擎的能力更强外,还可以连结到各式各样的内容来源,提供更多服务,例如天气预报、交通资讯查询、重点新闻提要等。因此,整体来看,结合云端的语音识别/控制架构,将是未来的主流趋势。

不过,采用云端架构的语音助理设备,还是有三大弱点存在:

.隐私权保障:以亚马逊的架构为例,只要使用者一唤醒Alexa,系统就会开始录音并上传到亚马逊的云端进行分析,之后再回应使用者的操作。
.网路流量:云端架构会产生相对庞大的网路流量,在某些宽频网路建设还不太好的地区,这种架构未必适合。
.产品市场受到云端服务限制:由云端所衍生出来的多元应用服务,其实多半是很在地化的,这意味着硬体制造商若推出采用云端架构的终端产品,其销售区域反而会受到云端内容的限制。
 
事实上,能够提供多元应用服务的语音助理设备,都有很强的地域性,很难行销全球。举例来说,在美国,Echo目前拥有压倒性的市占率,但只要一离开美国,Echo就很难卖得动,一来是语言辨识支援的问题,二来是在美国以外的地区,亚马逊目前还无法提供充分在地化的服务。因此,刘进荣认为,若终端产品制造商的产品定位是家庭控制中枢,而非可以对话聊天、提供各种生活资讯的全功能语音助理,以本地端为主的设计,是更具成本效益的作法。因为应用情境相对固定,这类语音识别引擎的词库跟辨识模型不必包山包海,只需要相对精简的资源,就能做到自然语言处理。以赛微目前的引擎来说,只要1GHz的应用处理器就能跑得动。

事实上,2016年时,赛微就已经与台湾家电厂声宝展示了可以用自然语言控制的全套家电设备,证明在家庭设备控制领域,不仰赖云端的语音识别功能,也能派上用场。另外,该公司也曾经与亚马逊联合展示过支援中文的Alexa语音助理功能。

不过,亚马逊内部及其他业界人士均指出,亚马逊目前并没有把中文支援当作优先开发项目,因为亚马逊的电子商务服务主要是以欧美市场为主,华语市场不是亚马逊的重点。

动口不动手将是人机介面的未来

简化人机介面,让电子产品更便于使用,一直是科技业者努力的目标。遥控器曾经是一个划时代的发明,但随着各种家电产品都配备遥控器,加上设备本身的功能不断演进,导致遥控器本身的设计跟着日益复杂,本身也变成具有一定学习曲线的产品,已经不能算是好的解决方案。

语音识别以及其背后的自然语言处理技术,除了解决遥控器的问题,还很可能会演变成另一个颠覆科技产业的革命性技术。事实上,能够改变人类行为模式的人机介面技术,往往带来市场洗牌。将触控荧幕导入手机,让苹果(Apple)与三星电子(Samsung Electronics)成为手机产业的领导者,也终结了诺基亚(Nokia)跟摩托罗拉(Motorola)等老牌业者在手机市场上的领导地位。

自然语音识别是目前可普及应用的人机介面技术中,上手障碍最低的一种。在这波动口不动手的浪潮中,谁会倒下,谁又能窜起,相信是个很值得持续关注的题目。


    扫描下方二维码关注老杳或集微网官方微信:




  • 【手机中国联盟官博系列赠机活动进行中,欢迎参与】

  • 老杳吧本周热点帖子

    老杳吧今日热点帖子


    TAG: 智能 语音识别
    顶:6 踩:1
    对本文中的事件或人物打分:
    当前平均分: (7次打分)
    对本篇资讯内容的质量打分:
    当前平均分: (6次打分)
    【已经有人表态】
    上一篇 下一篇