友情提示:本文共有 1602 个字,阅读大概需要 4 分钟。
ACL 2019 收录论文分享:《Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment》。
摘要
现有的基于监督学习的对话系统,缺乏对多轮回复方向的控制和规划,导致对话中发生重复、发散等问题,使得用户的交互体验较差。在本文中,我们对多轮对话进行了复合评估(compound assessment),并基于该评估利用强化学习优化两个自对话(self-play) 的机器人,促进生成过程中较好地控制多轮对话的方向。
考虑到对话的一个主要动机是进行有效的信息交换,针对PersonaChat 问题(两个人相互对话聊兴趣爱好),我们设计了一个较为完善的评估系统,包括对话的信息量和连贯度两个主要方面。我们利用复合评估作为反馈目标(reward),基于策略梯度算法(policy gradient),指导优化两个同构的对话生成机器人之间的对话策略(dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。在公开数据集上进行了全面的实验,结果验证了此方法生成的多轮对话质量,显著超过其他方法。
1、引言
最近几年,越来越多的智能对话系统开始走进大家的生活,比如闲聊型的小冰、任务型的Echo等。这些对话系统可以模仿人与人的交互,生成一些流畅的句子,但是这些系统通常忽视了人与人聊天的内在原因:信息交换和社交关系增强。现实中,每个人都有自己的人设或背景信息,比如“热爱滑雪”、“喜欢看权力的游戏”等。因此,我们提出了一个切实的对话目标:让双方在对话中彼此了解更多。我们利用两个对话机器人来模拟两个人的对话,让他们在通顺自然的聊天中,增进对于彼此人设的了解。
2、模型介绍
我们设计了一个新的生成-评估框架进行多轮对话,如图1所示。在已部署的知识选择策略下,两个对话机器人根据它们的背景信息相互介绍自己,并对双方的句子做出合适的回应。它们产生的对话和相应的背景信息,被送到策略评估端进行评估,包括信息量和连贯性等方面。这些评估被整合成复合反馈指标(compound reward),作为强化信号指导对话策略持续进化。
图2是具体对话生成的网络架构图。由上文(context) 和背景知识(knowledge) 作为输入,我们的对话策略可以选择一条合适的知识Zi来产生有信息且连贯的回复。
从图中可以看出,产生高质量的回复,关键在于合适知识的选择(图2中蓝色部分),这部分会在生成-评估强化学习框架下,基于策略梯度算法持续进化。
3、实验结果及分析
在公开数据集PersonaChat上,我们进行了全面的实验验证和分析。如表1所示,在自动指标上,包括回复多样性和知识利用上,此方法显著优于其他方法。
如表2所示,在人工评估上,包括整体得分、知识覆盖率、简洁度和连贯性指标上,此方法也显著优于其他方法。
在表3中,我们给出了由每个方法生成的仿真对话的具体case。可以看出,此方法可以产生有信息且连贯的对话。
4、结论
为了产生有信息且连贯的多轮对话,本文提出了一个新的生成-评估框架。两个对话机器人模拟人类产生自然的对话,并根据评估端提供的打分,不断进化它们的对话策略,以彼此了解更多。实验验证了此方法在自动指标和人工评估上,都显著优于其他方法。
本篇论文可在百度学术搜索下载。
至此,《Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment》论文的分享到此结束,敬请期待2019百度被ACL收录的其他论文。
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。
本文如果对你有帮助,请点赞收藏《ACL 2019论文分享:自我进化的对话机器人》,同时在此感谢原作者。