《用于任务型对话的全局到本地的记忆指针网络》阅读笔记

Word count: 3.2kReading time: 12 min

 2019/10/09   Share

《用于任务型对话的全局到局部的记忆指针网络》阅读笔记

题目：GLOBAL-TO-LOCAL MEMORY POINTER NETWORKS FOR TASK-ORIENTED DIALOGUE

来源：ICLR 2019

原文链接：https://arxiv.org/abs/1901.04713.pdf

论文代码：https://github.com/jasonwu0731/GLMP

转载请注明出处：apex&momoco

Abstract

端到端的任务型对话任务系统的实现一直充满挑战，因为知识库的庞大和不断变化以及难以并入一个学习框架里的特性。为解决这些问题，本文提出了GLMP网络：

全局记忆编码器：对对话历史进行编码，并且修改全局上下文表示，同时产生一个全局上下文指针。
局部记忆解码器：解码器生成一个带有空slots的响应草稿，通过全局记忆指针在外部知识库中过滤出有用的信息，通过局部记忆指针填上这些空slots

全局记忆编码器和局部记忆解码器共享一个外部知识库。

结果表明，GLMP在拷贝准确率和减弱常见的OOV问题的能力上均有提升，并且在simulated bAbI Dialogue dataset 以及human-human Stanford Multi-domain Dialogue dataset 两个数据集上进行自动或手动的测试均比以往表现最好的模型更好。

Introduction

传统Pipeline方法实现任务型对话系统需要耗费精力设计每个单独的模块，基于端到端通过循环神经网络和记忆网络实现任务型对话系统的方法就显得省时省力同时还便于拓展领域。这种方法让对话状态在任务完成过程中的传递被隐藏起来并且不需要手动对每个状态进行标注还消除了对模块之间依赖关系建模和手工解释知识库的需求。

然而，通过记忆网络建模知识库会过度将系统响应的生成和外部知识相结合。引入一个大型复杂的知识库相当于给模型输入附加了一个充满噪声的部分。与闲聊不同，在任务型对话中，需要准确获得知识库中的响应实体，引入大量噪声意味着响应的生成变得不稳定。

综上所述，指针网络或拷贝网络所具备的直接从输入源中拷贝重要信息的能力就变得十分关键，同时这种拷贝方式也和人类获取信息的方式相似。

因此，作者提出了 $GLMP$ 网络。

GLMP Model

GLMP主要包括了三部分：外部知识库External Knowledge、全局记忆编码器Global Memory Encoder、局部记忆解码器Local Memory Decoder。

首先定义：

模型输入为：历史对话序列 $X = (x_1,...,x_n)$ 、知识库 $KB$ 的知识信息 $B=(b_1,...,b_l)$

系统响应 $Y=(y_1,...,y_m)$ 为期望输出

其中 $n,l,m$ 为对应的长度

模型工作步骤如下：

全局记忆编码器通过一个上下文RNN对历史对话进行编码，并将其隐藏状态写入外部知识。
使用最后一个隐藏状态用来读取外部知识并生成一个全局记忆指针。
解码过程中，本地记忆解码器通过一个草稿RNN生成草稿响应。
将全局记忆指针和草图神经网络的隐藏状态则被作为一个过滤器和query传给外部知识库，最终获得系统响应。

External Knowledge

外部知识库主要包括了一个全局上下文表示，这个表示被编码器和解码器所共享。

通过端到端记忆网络来存储字级别的知识库内容以及具有时间依赖性的对话历史，由于记忆网络有较好的多跳推理能力，故非常适合用来增强拷贝机制。

Global contextual representation

在KB储存模块中每个知识元素 $b_i \in B$ 都表示一个三元组结构 $(Subject,Relation,Object)$ 。其次对话上下文 $X$ 则被存储在对话存储模块中，其结构同样为三元组，可表示为 ${($user,turn1,I),($user,turn1,need),($user,turn1,gas)}$ 。

对于以上两个存储模块来说，通过一个词袋表示的方法来作为存储空间的嵌入。如推理过程中，通过直接指向一个存储地址来对这个词进行拷贝。 $Object(.)$ 被记作是从一个三元组中获得一个object词。

Knowledge read and write

记忆网络参考：论文解读：记忆网络（Memory Network）

外部知识模块由许多可训练的embedding矩阵组成 $C =(C^1,...,C^{K + 1})$ ；

其中 $C^k \in R^{|V| \times d_{emb}}$ ， $K$ 是记忆网络里最大跳跃次数， $|V|$ 是词汇表大小， $d_{emb}$ 是embedding的维度。

把外部知识的存储定义为： $M = [B;X]=(m_1,...,m_{n+l})$ ；

其中， $m_i$ 为上述三元组组成成分之一

为了能够访问外部知识库，需要初始化一个query向量 $q^1$ ，并且这个向量可以在循环遍历 $K$ 次跳跃后计算每次跳跃 $k$ 的注意力权重：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; p_i^k=Softmax((q^k)^Tc_i^k)$
其中， $c_i^k=B(C^k(m_i))\in R^{d_{emb}}$ 是在embedding矩阵 $C^k$ 中第 $i$ 个位置存储的embedding；

$q_k$ 是第k跳的query向量，而 $B(.)$ 则是词袋函数。

让 $p^k \in R^{n+l}$ 为一个软存储attention，它决定了查询向量相关的存储空间。然后模型通过对 $c^{k+1}$ 加权求和和并更新query向量 $q^{k+1}$ 来读取存储空间 $o^k$ ：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; o^k=\sum_ip_i^kc_i^{k+1},\;\;\;\;\;\;q^{k+1}=q^k+o^k.$

Global Memory Encoder

如上图所示，全局记忆编码器首先用一个上下文RNN来建模序列依赖关系并且建模上下文 $X$ 。然后把隐藏状态 $H$ 写入外部知识中。如上一部分图 $(b)$ 。

然后最后一个编码器隐状态作为query来查询外部只是，并获得两个输出：全局记忆指针，记忆查询结果。

由于用记忆网络来建模外部记忆之间的依赖关系十分困难，则通过写入隐藏状态到外部知识中作为连接边可以提供序列性和上下文性的信息。并且用合理的表示，指针能够正确地从外部知识中拷贝词汇，这样也能减弱OOV的问题。

此外，使用已编码的对话历史作为query能够激励从外部知识中读取与隐藏对话状态或用户意图有关的记忆信息。并且学习了全局记忆分布的全局记忆指针和已编码的对话历史以及KB信息被一并传给解码器。

Context RNN

对话历史首先被一个GRU编码成隐状态序列：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; H=(h_1^e,...,h_n^e)$

最后一个隐状态 $h_1^e$ 用来作为对外部知识进行查询query的对话历史。

此外隐状态序列 $H$ 还被写入外部知识库中的对话历史模块，和该隐状态相关原始记忆表示进行求和：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; c_i^k=c_i^k+h_{m_i}^e \;\;\;\; if\;\;\; m_i \in X \;\; and \;\;\forall k \in [1, K+1]$

Global memory pointer

全局记忆指针 $G=(g_1,...,g_{n+l})$ 是一个向量有0和1之间的真值组成。

与传统的attention机制所有权值加和为一不同， $G$ 中每一个概率都是独立的。

首先通过 $h_n^e$ 对外部知识进行查询直到最后一跳，通过执行内积然后是 $Sigmoid$ 得到每个记忆分布 $g_i$ ，最终组成全局记忆分布 $G$ ：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; g_i=Sigmoid((q^K)^Tc_i^K),\;\;\;g_i^l= \begin{cases} 1\;\;\;\;\;if\;\;Object(m_i)\in Y \\ 0\;\;\;\;\;otherwise \end{cases}$

为了提升这个全局记忆分布的表现，作者还设置了一个辅助loss来把全局记忆指针当作多分类任务进行训练：

首先设置了一组全局指针的标签： $G^{label}=(g_1^l,...,g_{n+l}^l)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; Loss_g=-\sum_{i=1}^{n+l}[g_i^l \times log\;g_i+(1-g_i^l) \times log(1-g_i)]$

通过这组标签以检测记忆中的词汇是否存在于预期的系统响应 $Y$ 中，全局记忆指针则通过二元交叉熵在 $G$ 和 $G^{label}$ 之间进行训练。

Local Memory Decoder

给定已编码的对话历史 $h_n^e$ ，已编码的KB信息 $q^{K+1}$ ，以及全局记忆指针 $G$ 。

通过拼接 $h_n^e$ 和 $q^{K+1}$ ，局部记忆解码器首先会初始化它的草稿RNN，生成一个草稿响应，该响应排除slot值，但包含草稿标记。

例：sketch RNN会先生成“@poi is @distance away.” 而不是直接生成 “Starbucks is 1 mile away.”

在每一个时间步的解码过程中，sketch RNN的隐状态的有两个作用：

从词汇表中预测下一个生成词(token)。
作为一个查询向量，用于查询外部知识。

如果一个草稿里的标签被生成了，全局记忆指针则会被传给外部知识，然后局部记忆指针就会选出响应标签位置上期望产生的实体词，否则，这个词就会被sketch RNN直接生成。

@poi标记在第一个时间步生成，因此，Starbucks从局部记忆指针获取作为系统响应输出字的单词。

Sketch RNN

通过一个GRU来生成不带真实slot值的草稿响应 $Y^s=(y_1^s,...,y_m^s)$

Sketch RNN基于编码的对话历史 $h_n^e$ 和KB信息 $q^{K+1}$ 学习生成一个动态的的对话行为模板。

每一个解码的时间步 $t$ ，Sketch RNN的隐藏状态 $h_t^d$ 及当前生成词的概率分布 $P^{vocab}_t$ 为：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;h_t^d=GRU(C^1(\hat{y}^s_{t-1}),h^d_{t-1}),\;\;\;\;\;\;\;\;\;\; P_t^{vocab}=Softmax(Wh_t^d)$

并且通过标准交叉熵对Sketch RNN进行训练：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; Loss_v=\sum_{t=1}^m-log(P_t^{vocab}(y_t^s))$

Local memory poiter

局部记忆指针 $L=(L_1,...,L_m)$ 由指针序列组成。

每个时间步 $t$ ，全局记忆指针 $G$ 首先通过它的注意力机制修改全局上下文表示：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; c_i^k=c_i^k \times g_i,\;\;\;\;\; \forall i \in [1,n+l]\;\;and\;\; \forall k \in[1,K+1]$

然后通过sketch RNN的隐藏状态 $h_t^d$ 查询外部知识。

最后一跳中的记忆attention对应的局部记忆指针 $L_t$ ，它表示为时间步 $t$ 时的记忆分布。

为了训练局部记忆指针，在最后一跳的外部知识记忆注意力的基础上添加一个监督。

首先，在解码时间步 $t$ ，给局部记忆指针定义了位置标签 $L^{label}$ ：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; L_t^{label}=\begin{cases} max(z)\;\;\;\;\;if\; \exist z \;s.t. y_t=Object(m_z)， \\ n+l+1\;\;\;\;\;otherwise \end{cases}$

$L$$和$$L^label$$之间计算loss： >$$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; Loss_l = \sum_{t=1}^m-log(L_t(L_t^{label}))$

同时还设置了一个防止同一个实体词被多次拷贝的记录 $R\in R^{n+l}$ ， $R$ 中的所有元素最开始都被初始化为1。

在解码过程中，如果一个记忆位置被指向，那么 $R$ 中对应的记忆位置将被掩蔽(masked out)。

在推理时：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \hat{y}_t=\begin{cases} argmax(P_t^{vocab})\;\;\;\;\;if\; argmax(P_t^{vocab}\notin ST， \\ Object(m_{argmax(L\odot R)})\;\;\;\;\;otherwise \end{cases}$

最后，所有参数被联合训练，让三个loss加权求和最小化：

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; Loss=\alpha Loss_g+\beta Loss_v+\gamma Loss_l$

其中 $\alpha、\beta、\gamma$ 均为超参数。

Experiment

实验主要基于两个公开数据集：

the bAbI dialogue

bAbI数据集主要包括了五个关于餐厅领域的模拟任务，任务1到4分别是关于对API的调用、修改API调用、推荐选项和提供附加信息，任务5则是前4个任务的综合测试。

每个任务有两个测试集：一个遵循与训练集相同的分布规律，另一个具有OOV实体值。

Stanford multi-domain dialogue(SMD)

该数据集是一个人和人之间的多领域对话数据集。

主要包括了3个不同的领域：日历调度，气象信息检索和导航功能。

两者区别在于前者对话轮数较多且对话内容规范；后者则含有相对较少的对话轮数、更多样化的响应内容以及复杂的知识库信息。

Result

Conclusion

这篇论文提出了一个用于任务型对话的端到端的可训练模型，称为全局到局部记忆指针网络。全局记忆编码器和局部记忆解码器的设计目的是将共享的外部知识整合到学习框架中。经验表明，全局和局部记忆指针能够有效地产生系统响应，甚至在词汇表外的情况下，并可视化全局内存指针的帮助。因此，模型在模拟数据集和人-人数据集上都达到了最高的水平，并具有扩展到其他任务如问答和文本摘要的潜力。

Author：ApEx&mOmOcO

原文链接：https://apexmeister.github.io/2019/10/09/blog4/

发表日期：October 9th 2019, 3:03:49 pm

更新日期：October 9th 2019, 3:12:36 pm

Next Post

QA系统问题中的常用指标
Previous Post

《ReCoSa：在多轮对话生成任务中通过自注意力机制检测相关上下文》阅读笔记

CATALOG

1. 《用于任务型对话的全局到局部的记忆指针网络》阅读笔记



缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true