ACL 2019论文分享：自我进化的对话机器人

时间：2011-11-29

摘要现有的基于监督学习的对话系统，缺乏对多轮回复方向的控制和规划，导致对话中发生重复、发散等问题，使得用户的交互体验较差

友情提示：本文共有 1602 个字，阅读大概需要 4 分钟。

ACL 2019 收录论文分享：《Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment》。

摘要

现有的基于监督学习的对话系统，缺乏对多轮回复方向的控制和规划，导致对话中发生重复、发散等问题，使得用户的交互体验较差。在本文中，我们对多轮对话进行了复合评估(compound assessment)，并基于该评估利用强化学习优化两个自对话(self-play) 的机器人，促进生成过程中较好地控制多轮对话的方向。

考虑到对话的一个主要动机是进行有效的信息交换，针对PersonaChat 问题（两个人相互对话聊兴趣爱好），我们设计了一个较为完善的评估系统，包括对话的信息量和连贯度两个主要方面。我们利用复合评估作为反馈目标（reward），基于策略梯度算法(policy gradient)，指导优化两个同构的对话生成机器人之间的对话策略(dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。在公开数据集上进行了全面的实验，结果验证了此方法生成的多轮对话质量，显著超过其他方法。

1、引言

最近几年，越来越多的智能对话系统开始走进大家的生活，比如闲聊型的小冰、任务型的Echo等。这些对话系统可以模仿人与人的交互，生成一些流畅的句子，但是这些系统通常忽视了人与人聊天的内在原因：信息交换和社交关系增强。现实中，每个人都有自己的人设或背景信息，比如“热爱滑雪”、“喜欢看权力的游戏”等。因此，我们提出了一个切实的对话目标：让双方在对话中彼此了解更多。我们利用两个对话机器人来模拟两个人的对话，让他们在通顺自然的聊天中，增进对于彼此人设的了解。

2、模型介绍

我们设计了一个新的生成-评估框架进行多轮对话，如图1所示。在已部署的知识选择策略下，两个对话机器人根据它们的背景信息相互介绍自己，并对双方的句子做出合适的回应。它们产生的对话和相应的背景信息，被送到策略评估端进行评估，包括信息量和连贯性等方面。这些评估被整合成复合反馈指标（compound reward），作为强化信号指导对话策略持续进化。

图2是具体对话生成的网络架构图。由上文(context) 和背景知识(knowledge) 作为输入，我们的对话策略可以选择一条合适的知识Zi来产生有信息且连贯的回复。

从图中可以看出，产生高质量的回复，关键在于合适知识的选择（图2中蓝色部分），这部分会在生成-评估强化学习框架下，基于策略梯度算法持续进化。

3、实验结果及分析

在公开数据集PersonaChat上，我们进行了全面的实验验证和分析。如表1所示，在自动指标上，包括回复多样性和知识利用上，此方法显著优于其他方法。

如表2所示，在人工评估上，包括整体得分、知识覆盖率、简洁度和连贯性指标上，此方法也显著优于其他方法。

在表3中，我们给出了由每个方法生成的仿真对话的具体case。可以看出，此方法可以产生有信息且连贯的对话。

4、结论

为了产生有信息且连贯的多轮对话，本文提出了一个新的生成-评估框架。两个对话机器人模拟人类产生自然的对话，并根据评估端提供的打分，不断进化它们的对话策略，以彼此了解更多。实验验证了此方法在自动指标和人工评估上，都显著优于其他方法。

本篇论文可在百度学术搜索下载。

至此，《Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment》论文的分享到此结束，敬请期待2019百度被ACL收录的其他论文。

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

本文如果对你有帮助，请点赞收藏《ACL 2019论文分享：自我进化的对话机器人》，同时在此感谢原作者。