第一句子大全,网罗天下好句子,好文章尽在本站!

巨头暗战智能语音交互 实时翻译为何成又一个风口

时间:2024-01-04

比如谷歌、百度在干着一件人工智能+汽车的大事,即无人驾驶;苹果、微软、搜狗等致力于将人工智能技术与语音服务场景结合,今年8月,搜狗推出全新语音交

友情提示:本文共有 2890 个字,阅读大概需要 6 分钟。

进入2016年,各大科技巨头、投资公司、分析机构等都在不断发布、解读着关于人工智能( Artificial Intelligence)的各种消息,作为吃瓜群众的我们由此也逐渐知道了很多高大上的“黑科技”。

比如谷歌、百度在干着一件“人工智能+汽车”的大事,即无人驾驶;苹果、微软、搜狗等致力于将人工智能技术与语音服务场景结合,今年8月,搜狗推出全新语音交互引擎“知音”;此外,IBM花了大约250亿美元来收购和完善Watson系统,希望靠人工智能来预测未来,并应用于金融、交通、教育等领域;阿里巴巴、蚂蚁金服在积极探索人脸识别,希望利用人工智能让移动支付更加便捷和安全。

处于风口的人工智能,甚至也出现在了好莱坞剧本中,迪士尼动画《超能陆战队》中的机器人大白就是个典型的“人工智能+医疗”的产物,它就像医疗伴侣,能够快速扫描、检测出人体的不正常情绪或受伤并对其治疗;就连时下爆红的HBO连续剧《西部世界》也在探讨着拥有自主思维的机器人与人类世界发生的种种冲突和对抗。

尽管在预言家的口中,人工智能将在未来的现实生活中无孔不入,无人驾驶、机器人管家、人工智能医疗方案等等,但目前对于大众而言,我们当下阶段接触到人工智能最主要的方式,仍是互联网科技公司提供的一些基础性服务,比如搜索、输入法、导航等产品中。在其背后,我们都发现了语音交互的影子。事实上,智能语音交互已经成为各大互联网巨头角逐的关键性领域,因为说话是人们生活最常用到的沟通方式,随着移动互联网的深入,智能语音交互日益成为用户的痛点。

从语音识别到实时翻译,人工智能较量升级

智能语音识别是包括谷歌、搜狗、讯飞等科技公司深耕的重要语音技术,从概念上来看,语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,其应用于智能终端则可以带来更便捷的服务,比如语音输入、语音拨号、语音导航、语音拍照等。麻省理工科技评论认为,“语音识别将成为人机交互的重要方式。”

在人们印象里,智能语音识别的代表性产物莫过于微软Cortana 、苹果Siri等语音秘书类产品,它们尽管使用便捷,但在应用场景和实用性上却有不少的限制。因此,语音识别作为一项重要且基础性的人机交互技术,如何更好的满足更多的应用场景,同时具备很好的实用性,也成为语音巨头们竞相突破的关口。

在刚刚结束的乌镇世界互联网大会上,搜狗公司CEO王小川就展示了在智能语音交互领域的最新成果——语音实时翻译。通过该技术,搜狗 CEO 王小川的中文讲话内容被实时识别为文字并翻译为英文在屏幕上显示,将王小川关于人工智能专业领域的报告进行机器同传。

例如,当王小川说到「搜索的未来就是人工智能时代的皇冠」时,屏幕上实时显示出了「In the future, search will be the Crown of the AI Era」,机器还能随着语句的逐渐完整,根据语义自动修改调整之前识别的内容。这也是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,可谓是“技惊四座”。

王小川透露,这次推出的语音实时翻译,融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术,基于大数据和深度学习,涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,翻译的结果比传统机器翻译更加流畅,效果更好。

无独有偶,在搜狗实时翻译发布仅过了两天,国内另一家语音巨头科大讯飞也在其发布会上展示了包括语音听写、实时互译、车载语音交互系统等语音交互成果。

在笔者看来,搜狗和讯飞在语音实时翻译技术的成果,反映了国内语音巨头在人工智能领域的较量正在升级,且都在用户场景和实用性上做更大的突破,可以认为是代表了国内该领域的最高水平。两家公司在技术上孰高孰低,目前尚无定论。

从目前看来,搜狗对于语音技术的应用,更加to C(用户),讯飞语音则to B(企业)多一些。搜狗的优势在于不仅拥有大量的数据资源、庞大的用户量,也拥有完善的搜索、输入法、地图导航等产品布局,因此搜狗语音技术更能直面用户的实用性需求;讯飞则拥有更广泛的开发者、厂商合作关系,其语音解决方案将主要通过厂商合作或销售方式应用于车载系统、教育、家居、机器人等领域。

基于深度神经网络实时翻译如何实现

在搜狗、讯飞相继展示语音实时翻译成果后,外界纷纷惊呼这种技术甚至将会颠覆专业同声传译从业者的饭碗,同时对于其背后的技术原理尤为感兴趣。目前在互联网上,关于讯飞实时互译技术背后的原理解读仍然较少,搜狗则在近期一场媒体沟通会上,主动揭开了搜狗实时翻译技术的神秘面纱。

搜狗语音交互中心技术负责人陈伟介绍,传统机器翻译所采用的主流方式叫“统计翻译”,从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。这就需要把整个建模流程分成对齐模型、分层模型等多个模型,每个模型完成特定的很小的功能,最后串起来完成复杂的机器翻译系统。在这个过程中,每个模型的错误也会不断叠加。

搜狗语音实时翻译,在实现路径上不同于传统机器翻译,它使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,准确率可以提升30%-40%。从系统框架来看,主要包括“发音”、“语音断句”、“语音识别”、“文本断句”、“机器翻译”、“输出判断”等若干部分。

从实用效果来看,在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域,采用五分制人工评分能达到 4.4 分,逐步走向实用化。陈伟透露,目前搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟,语音输入日频次高达 1.9 亿次。

搜狗将该实时翻译技术命名为SNMT(Sogou NeuralMachineTranslation),这不免让人将其与谷歌的GNMT(GoogleNeuralMachineTranslation)联系一起。今年9月,谷歌宣布,网络和移动版的谷歌翻译将使用新的神经机器翻译系统,并以GNMT命名,它能让翻译系统不再像以前一样逐字逐句的翻译,而是根据整篇文章的大意来对句子进行分析。在新技术使用后,翻译错误可减少 60%及以上。

陈伟介绍,两者的基本构架有类似的,但还是有着相当大的差异。谷歌神经网络机器翻译使用了一个深度的长短时记忆神经网络,该网络含有8层的编码器和解码器,而搜狗目前最多只有 5 层。

在我看来,这就意味着谷歌需要投入更多的资源和人力来攻克更为复杂的架构(当然潜力也更为巨大),而搜狗在反应速度上将更具有优势,目前它的延迟只有 2 秒,而在准确性上,搜狗由于已经通过搜狗语音积累了大量中国人的口语语音数据,也可以一定程度上弥补由层数所造成的劣势。

结语

从全球人工智能的发展和趋势看,围绕智能语音交互诞生的成果无论从数量和实用性上看,仍然是其他人工智能领域所不能比拟的。随着语音实时翻译技术的成熟,它将可能应用于更多的生活和工作领域,但它也只是人工智能真正改变世界的一个节点而已。未来畅想的无人驾驶、远程医疗、机器人管家也许终将有一天会变成现实,他们也都离不开语音交互这个重要关口。

本文如果对你有帮助,请点赞收藏《巨头暗战智能语音交互 实时翻译为何成又一个风口》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(5)
  1. 梧桐花开时2024-01-17 11:04梧桐花开时[海南省网友]117.74.93.157
    智能语音交互+实时翻译的结合,让沟通变得更简单、更畅快。
    顶5踩0
  2. 单飞︿2024-01-14 18:55单飞︿[火星网友]103.193.121.211
    期待智能语音交互+实时翻译能给我们的生活带来更多的便利。
    顶0踩0
  3. 你的眼里没有晴2024-01-12 02:47你的眼里没有晴[山东省网友]202.14.185.127
    @阳光下的泡沫 这个技术可以让人们跨越语言障碍,真是太方便了!
    顶50踩0
  4. 阳光下的泡沫2024-01-09 10:39阳光下的泡沫[广东省网友]116.90.191.208
    @奥运箱包看来巨头们都意识到了智能语音交互的潜力,未来会有更多创新的应用。
    顶10踩0
  5. 奥运箱包2024-01-06 18:30奥运箱包[辽宁省网友]203.24.58.134
    真是时代的进步啊,智能语音交互+实时翻译确实会成为下一个热门领域。
    顶0踩0
相关阅读
巨头扎堆的小市场:不学外语 机器翻译搞定一切?

巨头扎堆的小市场:不学外语 机器翻译搞定一切?

编者按:本文系网易智能工作室公众号smartman 163出品,文:抹茶。36氪经授权转载。2016年的一部翻译官火了,这是国内首部聚焦翻译领域的电视剧,让人们

2023-05-29 #经典句子

从智能英语行业三巨头到好大一棵树 十一个细节了解智橡树!

从智能英语行业三巨头到好大一棵树 十一个细节了解智橡树!

而今,智橡树俨然成为好大一棵树独秀于林

2023-10-21 #经典句子

语音翻译市场:未来已来 会是蓝海市场吗?

语音翻译市场:未来已来 会是蓝海市场吗?

创世纪十一·4品橙旅游6月,北京分音塔科技有限公司以下简称分音塔推出了第二代人工智能翻译机新品全球首款出境游综合服务产品准儿WiFi翻译一体机,也掀

2019-05-15 #经典句子

语音打字 实时翻译 动口不动手的时代来了!

语音打字 实时翻译 动口不动手的时代来了!

有时候就在想,要是动动嘴就能搞定这些文字稿,那岂不是美哉?拿到这款讯飞智能鼠标M110之后,我发现,动口不动手的办公时代来了!一、产品包装讯飞智能

2009-10-13 #经典句子

语音输入 实时翻译 满是黑科技的咪鼠智能语音键盘KB1体验

语音输入 实时翻译 满是黑科技的咪鼠智能语音键盘KB1体验

我最近体验到一把咪鼠科技推出的智能语音键盘,将语音技术融合到键盘中,让键盘拥有了语音输入,语音翻译,一键截图识别,智能导航等极为智能的功能,对

2023-06-23 #经典句子

当键盘能听懂人话 咪鼠语音键盘KB1评测:语音打字+实时翻译

当键盘能听懂人话 咪鼠语音键盘KB1评测:语音打字+实时翻译

个人认为TNT的关键在于想打造一个全新的品类,但这不管是市场教育还是用户的试错成本都非常的艰难,反而把语音操控等功能集成到我们现有的PC外设上更加靠谱

2023-06-03 #经典句子

CES2020|Sogou搜狗智能AI语音设备帮助我们更好的交流

CES2020|Sogou搜狗智能AI语音设备帮助我们更好的交流

在美国拉斯维加斯举办的CES2020上,我们见到国内Sogou搜狗展示了旗下各类AI智能设备,其展示的不仅仅是产品本身,更多的是Sogou搜狗自身对于AI智能与语言

2023-07-27 #经典句子

文思海辉·金融打造全自动 100%话务覆盖的智能质检系统

文思海辉·金融打造全自动 100%话务覆盖的智能质检系统

存在人工成本高、覆盖率低、质检效果差、数据汇总难等等缺点

2023-10-03 #经典句子