《Learning Sequence Encoders》阅读笔记

来源：EMNLP 2018
原文链接：https://arxiv.org/abs/1809.0320

知识图谱补全（KGC）任务中，目前的研究主要集中在静态多关系数据上。而本文主要针对动态知识图谱补全任务，即在实体之间的关系可能只保持一段时间或者只在特定时间点有效的情况下，进行知识图谱补全。根据以往关于静态知识图谱的工作，本文整合了时间信息，提出了一种学习某时间节点的潜在实体和关系类型表示的方法。为了整合时间信息，本文利用RNN学习时间的表示，并将其融入知识图谱的学习中。实验通过四种不同的动态知识图谱数据集证明了其有效性。

Introduction

知识图谱G = (E, R) 可以表示为三元组(subject, predicate, object) 的集合，静态知识图谱链接补全任务则为对(s, p, ?) 或(?, p, o) 进行三元组补全。本文主要针对带有时间信息的KG补全任务，即G = (E, R, T) ，其中不仅包含一般三元组，还包含相关的时间信息,比如(subject, predicate, object, timestamp) 或(subject, predicate, object, time predicate, timestamp) ，举个栗子：(Barack Obama, born, US, 1961) 、(Barack Obama, president, US, occursSince, 2009-01) 表达了和奥巴马相关的出生时间、就任时间，其中时间谓语「occursSince」表达了一个时间区间的起点。可以看出，时间信息的表达方式存在异质性，这也是时间相关的KG补全任务中常见的一个挑战。

KG补全任务中的Embedding方法，目标是学习一个scoring function，函数的输入为三元组各部分的embedding: $e_{s}、e_{o}、e_{p}$ ，希望学得的函数与该三元组为真的相似度成正比。目前KG补全任务中的Embedding方法有

TRANSE： $f(s,p,o)=||e_{s}+e_{p}?e_{o}||_{2}$

DISTMULT： $f(s,p,o)=(e_{s}?e_{o})e_{p}^{T}$

本文主要贡献：

对于KG补全任务，将时间信息融合到通用KG Embedding方法中，用token序列表示时间谓语，用digit表示时间点并训练RNN模型，得到的表示结果可以应用到目前KG补全任务中所有的标准scoring function。

Related Work

1. Jiang et al. (2016) 将一些关系的时序信息作为辅助信息帮助学习更好的知识图谱补全模型。

2. Esteban et al., (2016) 认为一些即将发生的事件会引起知识图谱内容的改变。作者用一个额外的事件图谱来指导原知识图谱预测未来的新节点或需要修改的节点。

3. Leblay and Chekol (2018) 将时间信息的向量表示融入TransE-type的score function中。

和之前的方法有所不同，本文将时间token当做序列，并采用RNN编码，这有助于在带有诸如「since」、「until」等时间token的情况下进行关系类别编码。同时，RNN提供一种感应偏差，对于相似的时间点之间可以进行参数共享（比如：发生在同一个世纪）。本文的方法可以和目前所有的scoring function结合应用。

Model

对带有时间信息的relation triples编码之前，将三元组带有的时间信息分解为一个时间tokens序列，用后缀y、m、d表示数字对应的年月日信息，如下：