友情提示:本文共有 4386 个字,阅读大概需要 9 分钟。
文|朱晓培
2016年,一场AlphaGo与李世石的比赛,4:1的比分,就像一场启蒙运动,所有的互联网科技公司,所有的风险投资,都把眼光都投向了人工智能。
人工智能(AI)的浪潮,来势汹汹。不论是亚马逊Echo掀起的智能音响浪潮,还是iPhoneX里升级的Siri,不约而同的把人工智能的落地点放在了语音交互上。
在一些业内人士看来,现阶段,语音技术已经趋于成熟,机器也能听懂人说话了,这使得,语音成为最主要的人工智能交互方式。
搜狗CEO王小川认为,随着人工智能技术的发展和应用,搜索和输入法的未来将走向自动问答,从而形成前台的自然交互与后台的知识计算相结合的人工智能结构。
“说实话,我们团队是赶上了这一波人工智能的红利。”搜狗语音交互中心技术总监陈伟说,他与搜狗语音团队似乎一直恪守着低调准则:没有准备好不发布、没有成果不发声。
9月初,WMT官方公布成绩:搜狗语音交互技术中心-机器翻译团队提交的中英和英中系统,获得了人工评价指标的双向第一名,并且在八项机器评价指标中获得了七项第一,包括主要机器指标BLEU(Bilingual Evaluation Understudy)第一名。
WMT全称Workshop on Machine Translation,是由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。从2006年开始到2017年,一共举办了12届,本届WMT共有20多家国际知名的机构参与展示,包括约翰霍普金斯大学、美国空军研究实验室、搜狗语音交互技术中心的机器翻译团队、中科院计算所等。
这意味着,中国的语音翻译技术,已经迈入世界最前端的顶尖领域。而搜狗CEO王小川一直提的搜狗人工智能战略,也从语音开始落地。
巨头暗战语音市场
陈伟在搜狗工作五年了,他博士期间的研究方向就是语音,偏语音识别。
但2010年以前,语音方向的工作机会很少,他实验室的师兄师姐基本都换了方向,有做咨询的,也有做软件开发的。陈伟当时也没想太多,就坚持做了下来。到了2011年,随着苹果发布Siri,语音生态一下子热了起来,微软也上线了小冰。
2012年,陈伟加入搜狗,隶属桌面事业部的研究部。搜狗招聘他的目的很明确,就是要在搜狗输入法上面上语音识别。但当时,业界也只是认为语音是一个很好的辅助输入的方式。会不会成为主流?还没人知道。包括陈伟自己,心里也是有疑问的。
虽然属于桌面事业部,但搜狗当时的第一个想法还是要把语音往手机上放。虽然,ios当时还不让用输入法,但安卓上已经开始爆发了。陈伟说,他们能够感觉到移动互联网的时代已经来了。
“还好一直坚持下来了,准确率也是一点点磕下来的”。陈伟说。搜狗输入法一上线,出错率到了30%-40%,但能够感受到用户的需求,流量一直在持续上涨。到现在,出错率已经降低到了10%。在安静的、没有口音的情况下,准确率可以稳定到97%。
但市场上的对手同样强大。谷歌、微软、Facebook、科大讯飞等国内外科技巨头都在布局语音市场。
据CNBC掌握的消息,亚马逊的云计算业务部门一直在研发一种针对开发者的翻译服务,开发者可以使用这一服务来打造多种语言版本的网站和应用。一位知情人士透露,如今亚马逊准备通过自己的AWS来进一步推广机器翻译服务。
而几个月之前,谷歌翻译(Google Translate)也从基于短语的系统转向神经机器翻译系统。如今,谷歌也将神经机器翻译系统纳入针对开发者的服务之中。
Facebook近日也宣布,将在加拿大的蒙特利尔设立新的、也是其第四个AI研究实验室。该实验室将由Joelle Pineau负责,而Pineau是对话系统和增强学习领域的专家,也是麦吉尔大学的一名教授。
巨头的加入,也从侧面正面了语音是一个大市场。
而中国工业和信息化部电子科技信息情报研究所数据显示,自2012年以来,全球智能语音产业规模呈持续快速增长的趋势。2013年,全球智能语音产业规模整体达33.7亿美元,同比增长38.1%;2014年较2013年同比增长41.0%。预计到2017年,全球智能语音规模将达112.4亿美元。
机器翻译带来的机会
“我们公司在做AI的时候,肯定是早于AlphaGo火起来的时候。因为搜狗本身一直做的就是技术,聚焦输入法和搜索两个主产品,所以我们一直希望能把AI技术用在这个上面。落地第一件事就是做好识别,放在输入法上。”陈伟说。
2012年开始,搜狗成立了一个语音识别团队,围绕语音识别与输入法的结合做研究。2014年后,机器翻译由SMT(统计机器翻译)向NMT(神经机器翻译)迁移。
有人这样解释两种机器翻译之间的区别:SMT技术是模拟人类的翻译行为,比如先查单词,考虑短语翻译,句子结构调序等,最终写出好的译文。而NMT技术是模拟人们翻译外文资料时的大脑工作过程,事实上我们不清楚大脑的具体工作过程,因此NMT也像黑箱子,可解释性差。但从翻译结果看,SMT要远超出SMT。
成立后,搜狗语音交互中心先围绕着基于神经网络的机器翻译技术做了半年,感觉技术打磨得很好了,就开始把技术应用在输入法上。2016年11月的世界互联网大会上,搜狗第一次把已有的语音技术和新做的机器翻译技术结合在一起,做了机器同传的技术,现场试用。到现在,搜狗机器同传在各种大会的演示,已经接近百场。
“我们机器翻译技术已经在搜狗输入法的语音翻译搜狗同传上得到了应用,流量已经基本200多万了。”陈伟说。
但困难一直都在,因为技术一直在更新。
“我们既然要做这件事情,就一定往前面走,为了领先对手,这个状态是很痛苦的,你要不停的从数据的角度考虑,技术的迭代来考虑。”陈伟认为,算法是很难形成壁垒的,只能保证现在上线的是业界领先的,但是并不能保证一直领先。搜狗的优势在于拥有大量的用户数据,可以快速把数据壁垒做起来。
统计显示,搜狗输入法单语音输入日频次已达3亿次,同比增长80%以上。通过大规模的优质语音训练数据和深度学习,搜狗可以将这种语音识别的技术优势转化到了更多的适用场景中。
机器翻译技术负责人王宇光认为,NMT(神经机器翻译)给了搜狗机会。如果是以前的SMT(统计机器翻译)时代,让一个成立两年的团队去追赶一个积累了五六年的团队,肯定是追不上的。但是,搜狗恰好赶上2012年之后,所有的技术框架都推倒了,从头开始做,大家在同一起跑线上跑,比得是谁跑得快跑得慢了。而作为国内是最大的输入法,搜狗的一个优势是数据量比对手大很多。
只让机器以句子为单位分析,还是不够
机器学习在翻译领域确实很有用,但是它也有一些弱点。他们并不是在翻译句子或者文章,而是在翻译词语。即便现在翻译软件越来越智能,但他们逐字逐句翻译的倾向依然存在。
学术论文《神经机器翻译的六大挑战(Six Challenges for Neural Machine Translation)》,总结了神经机器翻译(NMT)六大挑战:领域误匹配、训练数据的总量、生僻词、长句子、词对齐和束搜索(beam search)。
“我们发现一个很有意思的现象,机器比较傻,不管说得听懂没听懂,都要翻译一个结果。”陈伟说,人工同传会有选择的丢句子,这是搜狗语音翻译接下来的的重点,通过语义分析,可以把一些不太重要、对语意影响不大的句子扔掉。
机器是单句对单句的翻译。搜狗语音翻译除了要求准确性外,还要低延迟,2、3秒内就要翻译出来,导致遇到特别长的句子就会断句翻译,影响到翻译的效果。翻译严重依赖上下文,比如当出现一个“Apple”,只有根据上下文,人们才知道,说的是苹果公司,还是可以吃的苹果,这是机器翻译最大的难题。
要解决这个问题,陈伟认为搜狗需要把两件事做好:一是把识别准确率保持在稳定的97%,二是更好的找到一个完整的语译边界。
2013年前后,搜狗做过语音助手,但项目进展并不好。陈伟反思认为,语音助手没做好,原因是产品的边界没有定义清楚。所以再做搜狗语音翻译,就特别注意做垂直和细分,做车载就注重导航需求,做音乐就重点做听歌。
“这两件事(准确率和定义边界)能做好就已经很难了。”陈伟说,做好这两件事,关键还是要引入更多的资源和知识,特别是像诗词、机构名、人名、地名的翻译。只有引入更多的知识,才知道怎么翻译更合适。
“实用”是最关键的衡量标准
“WNT比赛,主要是面向新闻领域,今年新增加聊了中英和英中两个方向,新闻语译大概有800、900万的训练数据。”陈伟说。8月份上线的搜狗听写,是业内是第一家商用的语音技术产品。
早在2016年8月,搜狗推出了语音交互引擎“知音”,主打“自然交互+知识计算”的技术战略。其后,搜狗打造出“知音OS”语音交互平台,面向手机、电视、可穿戴、车载设备等智能设备,目前,已经在小米、魅族、创维、海尔等产品中落地应用。
2017年2月,基于搜狗搜索立知系统研发的人工智能问答机器人“汪仔”,还登陆了中国收视率最高的益智答题节目《一站到底》。
而搜狗听写更加专注于特定的场景和人群,让语音技术为更多人所用。搜狗听写使用了搜狗输入法的长时语音转写技术,从立项到现在,错误率已经下降了30%。在声学模型方面,采用了端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式则使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。
搜狗在识别方面,会考虑怎么能在听歌的场景下做交互,更多做这些细节的事情。现在,搜狗有在输出自己的音箱解决方案。在儿童智能手表唐猫上面的语音也是都够语音支持,接下来,搜狗还会发布其他产品。
“大家现在做机器翻译,除了服务自身外,也是想做一些生态出来。语音这一块,我们觉得交互是一个非常明朗的场景状态,我们希望把能力输出出去,探索一下到底语音交互的真实场景会在什么地方。”王宇光说,搜狗认为比较刚需的场景应该在车载、智能家居、可穿戴上,因此搜狗会围绕这三个场景围绕去做,跟一些公司做深度定制,比如小米、创维。
陈伟的团队目前的精力主要放在交互上,做多模态的输入,包括语音的听、说和识别,其中识别包括声纹识别,语种识别、语音分析等。
声纹识别的商业化落地空间还很大。比如和互联网电视厂商合作,可以做节目的推荐,根据不同的声音,判断是爸爸、妈妈、还是爷爷、奶奶,进而推荐不同的节目,如果是儿童,还可以启动儿童锁,避开成人节目。
但商业化的进程,还要看用户的容忍程度。如果用户要求像支付一样,实现100%的准确率,那么,机器翻译还有很长一段路要走。但是,对于偏娱乐场景交互的电视,陈伟觉得,搜狗应该是可以满足要求的,在声纹里面处理,可以达到94—95%的准确率。
AI是搜狗未来重要的核心战略。搜狗CEO王小川曾表示,“人类对于人工智能的终极描绘,始终是同人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。”
本文如果对你有帮助,请点赞收藏《搜狗的AI之路 从语音开始落地》,同时在此感谢原作者。