来源:EMNLP 2018

原文链接:https://arxiv.org/abs/1809.0320

知识图谱补全(KGC)任务中,目前的研究主要集中在静态多关系数据上。而本文主要针对动态知识图谱补全任务,即在实体之间的关系可能只保持一段时间或者只在特定时间点有效的情况下,进行知识图谱补全。根据以往关于静态知识图谱的工作,本文整合了时间信息,提出了一种学习某时间节点的潜在实体和关系类型表示的方法。为了整合时间信息,本文利用RNN学习时间的表示,并将其融入知识图谱的学习中。实验通过四种不同的动态知识图谱数据集证明了其有效性。

Introduction

知识图谱G = (E, R) 可以表示为三元组(subject, predicate, object) 的集合,静态知识图谱链接补全任务则为对(s, p, ?) 或(?, p, o) 进行三元组补全。本文主要针对带有时间信息的KG补全任务,即G = (E, R, T) ,其中不仅包含一般三元组,还包含相关的时间信息,比如(subject, predicate, object, timestamp) 或(subject, predicate, object, time predicate, timestamp) , 举个栗子:(Barack Obama, born, US, 1961) 、(Barack Obama, president, US, occursSince, 2009-01) 表达了和奥巴马相关的出生时间、就任时间,其中时间谓语「occursSince」表达了一个时间区间的起点。可以看出,时间信息的表达方式存在异质性,这也是时间相关的KG补全任务中常见的一个挑战。

KG补全任务中的Embedding方法,目标是学习一个scoring function,函数的输入为三元组各部分的embedding: e_{s}、e_{o}、e_{p} ,希望学得的函数 f(s,p,o) 与该三元组为真的相似度成正比。目前KG补全任务中的Embedding方法有

TRANSE: f(s,p,o)=||e_{s}+e_{p}?e_{o}||_{2}

DISTMULT: f(s,p,o)=(e_{s}?e_{o})e_{p}^{T}

本文主要贡献:

对于KG补全任务,将时间信息融合到通用KG Embedding方法中,用token序列表示时间谓语,用digit表示时间点并训练RNN模型,得到的表示结果可以应用到目前KG补全任务中所有的标准scoring function。

Related Work

1. Jiang et al. (2016) 将一些关系的时序信息作为辅助信息帮助学习更好的知识图谱补全模型。

2. Esteban et al., (2016) 认为一些即将发生的事件会引起知识图谱内容的改变。作者用一个额外的事件图谱来指导原知识图谱预测未来的新节点或需要修改的节点。

3. Leblay and Chekol (2018) 将时间信息的向量表示融入TransE-type的score function中。

和之前的方法有所不同,本文将时间token当做序列,并采用RNN编码,这有助于在带有诸如「since」、「until」等时间token的情况下进行关系类别编码。同时,RNN提供一种感应偏差,对于相似的时间点之间可以进行参数共享(比如:发生在同一个世纪)。本文的方法可以和目前所有的scoring function结合应用。

Model

对带有时间信息的relation triples编码之前,将三元组带有的时间信息分解为一个时间tokens序列,用后缀y、m、d表示数字对应的年月日信息,如下:

本文将token和时间修饰词token链接起来做为谓语序列 p_{seq} ,并将时间KG中的三元组归纳为 (s, p_{seq} ,o) ,此时的谓语序列中即包含了时间信息,如下表:

本文应用LSTM进行带有时间信息的序列编码, p_{seq}
ightarrow e_{p_{seq}} ,模型的最后输出状态即为 e_{p_{seq}}

然后应用得到的带有时间信息的embedding学习scoring functions,本文将该策略在TransE模型和DISTMULT模型上予以实践。

TA-TRANSE: f(s,p,o)=||e_{s}+e_{p_{seq}}?e_{o}||_{2}

TA-DISTMULT: f(s,p,o)=(e_{s}?e_{o})e_{p_{seq}}^{T} .

在KG补全任务中,应用字元级模型进行时间信息编码的三个优点:

(1)使用数字和修饰符(例如since)作为token,有助于相似的时间点以及相似的时间表达 之间的知识共享;

(2)测试时,可以得到在训练中没有见过的时间点信息;

(3)对于有无时间信息的三元祖,模型都可以进行编码。

Experimental Result

1. 数据集

本文在四个不同数据集上进行了实验,详细情况如下图:

其中[ ]中的数字是各个数据集中带有时间信息的三元组数目。

2. Link Prediction

本文提出的TA-TRANSE and TA-DISTMULT在实验结果上对TRANSE和DISTMULT方法在MRR, hits@10,hits@1指标中几乎均有提升。对于MR(Mean Rank)度量来说,作者解释其很容易受到异常值影响,所以提升效果不一致。

3. Training Loss

作者对比TA-TRANSE和TRANSE训练时的loss大小,在相同设置的情况下,发现TA-TRANSE学习时间信息的能力使得其在训练中的loss更低。

Conclusions

本文提出了一种digit-level LSTM用于学习KG中包含时间信息的facts表示,并且可以直接应用于目前KG补全任务中已有的scoring function方法中。

推荐阅读:

相关文章