第一句子大全,网罗天下好句子,好文章尽在本站!

解决自然语言歧义 IJCAI 卓越研究奖得主提出 SenseBERT 模型

时间:2014-01-07

今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他

友情提示:本文共有 3077 个字,阅读大概需要 7 分钟。

机器之心原创

作者:Tony Peng

参与:魔王

自然语言理解和生成对于 AI 系统来说是一大难题,语言的复杂性和模糊性对 AI 系统提出了很大挑战。今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他前沿文本生成系统的「HAIM」。AI21 Labs 的愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。

给出一个包含同形异义词(homonym)的句子,如「He is a great bass player who hates eating bass」,人类可以相当自信地理解前一个「bass」是一种乐器贝斯,后一个「bass」是一种淡水鱼。而 AI 算法很可能无法解决如此简单的文本歧义问题。「威诺格拉德模式」(Winograd Schema,机器需要识别问题中的前指关系,即指出问题中某一代词的先行词)也能难倒 AI 系统。经典例子是「The trophy doesn』t fit in the suitcase because it is too big.」。这句话中,AI 系统很难确定「it」指「trophy」还是「suitcase」。

为了教会算法更好地理解人类语言的歧义现象,以色列研究公司 AI21 Labs 今日发布论文《SenseBERT: Driving Some Sense into BERT》,提出一种能够显著提升词汇消歧能力的新模型,该模型在复杂的 Word in Context (WiC) 语言任务中取得了当前最优结果。

这篇论文的重要创新是,SenseBERT 不仅能够预测遮蔽词汇(masked word),还能预测它们在给定语境下的实际含义。AI21 Labs 的研究人员使用英语词汇数据库 WordNet 作为标注参照系统,设计了一个网络来预测单词在语境中的实际含义。然后将该预训练网络嵌入 BERT。

SenseBERT 论文是 AI21 Labs 的首批研究项目之一,在过去一年半的时间中秘密进行。AI21 Labs 创建于 2017 年,总部位于以色列特拉维夫,创始人为斯坦福大学计算机科学系荣誉退休教授、AI Index 发起人 Yoav Shoham 和以色列军事情报局 8200 部队前网络安全团队负责人 Ori Goshen。

正如位于伦敦的 DeepMind 和位于旧金山的 OpenAI,AI21 Labs 也运行着一家商业化 AI 公司,该公司遵循独特的研究方向:连接传统知识表示方法和深度神经网络。知识表示在 1980 年代非常流行,是一种从语言中提取语义预测的机器学习技术。

近年来神经网络显现出其局限性,因此符号主义和神经方法的结合成为趋势。尽管神经网络在很多 AI 领域中取得了显著进展,但它们仍然对语义束手无策。即使最聪明的自然语言理解 (NLU) 系统,在目标语言任务中也会被对抗数据样本轻易愚弄。2017 年,斯坦福研究人员发现,向 SQuAD 问答数据集添加对抗问题可将 16 个公开模型的平均 F1 分数从 75% 降到 36%(参见论文《Adversarial Examples for Evaluating Reading Comprehension Systems》)。

类似的问题也出现在文本生成系统中。今年早些时候,OpenAI 发布了语言模型 GPT-2,它可以生成逼真的文本段落。然而,斯坦福大学计算机科学系副教授、SQuAD 联合创建者 Percy Liang 泼了一盆冷水:「GPT-2 语言模型可以像人类一样写作,但它并不清楚自己写的是什么。」

「AI 仍然缺乏 5 岁孩童就拥有的常识,它们距离人类智能还很遥远。」Shoham 博士说道。

Shoham 博士因其在知识表示和博弈论领域的巨大贡献而闻名,他认为神经网络的改进需要知识表示的加持。

上周五,Shoham 博士获得 IJCAI 2019 卓越研究奖。他在大会现场表示:「我没有看到,神经网络在子进化时间尺度上学会算术、时空、因果关系、心理状态、言语行为等的证据。而知识表示准确聚焦于编码这些难以理解的概念:时间、动作、信念。」

Yoav Shoham

2017 年,Shoham 博士在一个向弱势群体普及编程技能的以色列非营利项目中结识了 Ori Goshen。他们发现彼此志趣相投,于是决定创办 AI21 Labs(AI for the 21st century),其愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。

Shoham 博士的朋友 MobileEye CEO Amnon Shashua 是 AI21 Labs 的主要投资人和董事长。AI21 Labs 拥有一支 20 人的团队,从 Pitango Ventures、8VC 等机构获得了总计 950 万美元的投资。

MobileEye CEO Amnon Shashua

和 SenseBERT 一同公开的还有其自研文本生成系统「HAIM」,其可控性优于其他前沿文本生成系统,如 OpenAI 的 GPT-2 和华盛顿大学的 Grover。大多数文本生成器基于人类写的前提合成文本,但是生成的文本常常会跑题、不连贯,或者与原始语境相悖。HAIM 的工作原理稍有不同:先为模型提供开头和结尾,然后模型使用切题的生成文本填补中间内容,连接开头和结尾。输出结果可以根据长度进行调整。

HAIM 的名字也是自己起的。研究人员输入开头「The team needed a name. The best suggestion...」(这个团队需要一个名字,最佳建议是……)和对应的结尾「...everybody agreed it was a great name for a state-of-the-art natural language generator.」(……每个人都认为这对当前最优的自然语言生成器而言是一个绝佳的名字)。然后模型提出了「HAIM」,研究者对这个缩略词进行了逆向工程,得到了「Halfway Acceptable Interpolating Machine」。(Shoham 博士称其为「玩笑式的事后合理化」。)

AI21 Labs 发布了 HAIM-Large 模型的 demo,该模型包含 3.45 亿参数,在 40GB OpenWebText 数据集上训练而成。

HAIM-Large demo 地址:https://www.ai21.com/haim

GPT-2 和 HAIM 的可控性对比。

Shoham 博士此前创立的多家 AI 公司被高价收购,这位 63 岁的连续创业者无疑具备管理公司的能力。然而 AI21 Labs 面临着不一样的挑战:它更技术向,需要大量投资来支持商业化之前的科研活动(像 OpenAI 和 DeepMind 那样)。最重要的是,它的愿景是创建能够解决最令 AI「头痛」的问题之一(自然语言理解和生成)的系统。

当被问及 AI21 Labs 在这片未知领域的规划时,Shoham 博士告诉机器之心:「自然语言理解和生成是一个多方面问题,我们对它可能也只是部分理解。要想取得成功,你不需要全面理解,而是需要从富有成效的角度去理解。我们不认为自己是世界上最聪明的,但是我们也不认为还有什么人比我们聪明。我们有机会成功,但不必要是唯一的成功者。这不是零和游戏。」

本文如果对你有帮助,请点赞收藏《解决自然语言歧义 IJCAI 卓越研究奖得主提出 SenseBERT 模型》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
83亿参数打造超大语言模型;开源最新视听觉算法 秒学习 神同步

83亿参数打造超大语言模型;开源最新视听觉算法 秒学习 神同步

... | 英伟达1小时成功训练BERT,83亿参数打造史上最大语言模型】来源:VB、TechCrunch、GitHub英伟达一举创造了2个壮举!训练出了世界上最大的语言模型——MegatronLM,包含83亿参数,比BERT大24倍,比GPT-2大5.6倍;还打破了实时对话AI的...

2023-11-27 #经典句子

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

...进行了验证。旧词新意和另造新词是非常容易引起语言上歧义的问题,特别是对于中文来说,字与字之间以及词与词之间是没有分隔符的,如果出现歧义现象会对中文的NLP算法产生非常大的损害。先前的NLP算法都是基于循环神经...

2023-06-01 #经典句子

顶会最佳论文奖得主:初入科研领域 如何正确做科研?

顶会最佳论文奖得主:初入科研领域 如何正确做科研?

文字整理:智源社区 常政、贾伟、王炜强每个人都拥有着相似的才智,为什么有些人能顺利地完成学生到学者的过渡,能在学术生涯早期早早地做出突破性工作;而有些人,虽有雄心壮志,却始终不得其法,不能进入科研之门...

2018-05-03 #经典句子

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

...前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。创新工场方面解释,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时...

2023-08-20 #经典句子

赛尔笔记|以文档为额外知识的生成式对话

赛尔笔记|以文档为额外知识的生成式对话

...究者有所帮助。2. 正文在人机对话研究中,早期的生成式模型容易给出通用且缺少信息含量的回复,通过使用多样性强化策略或者大规模参数的模型能够很大程度上改善这个问题。此外,在生成回复时引入外部知识也是一种增加...

2023-11-10 #经典句子

AI不会断句?中文分词新模型帮它进步

AI不会断句?中文分词新模型帮它进步

...前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。基于此,两篇论文各自提出了键-值记忆神经网络的中文分词模型和基于双通道注意力机制的分词及词性标注模型,将外部知识(信息)融入分词...

2022-12-04 #经典句子

伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!

伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!

作者 | 王晨光、刘潇采编 | 陈大鑫近日,图灵奖得主、深度学习教父Yann LeCun在社交媒体发出警告,称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待。”他还强调:作为一个问答系统,GPT-3不是很好。用“...

2023-09-14 #经典句子

创新工场两篇论文入选ACL 2020 将中文分词数据刷至新高

创新工场两篇论文入选ACL 2020 将中文分词数据刷至新高

...带来了多少乐趣。丰富多变的中文行文,给人的理解造成歧义,也给AI分词带来挑战。近日,自然语言处理领域(NLP)顶级学术会议 ACL 2020 (https://acl2020.org/)正在火热举行。令人振奋的是,来自创新工场大湾区人工智能研究院的...

2023-11-28 #经典句子