來源:EMNLP 2018

原文鏈接:https://arxiv.org/abs/1809.0320

知識圖譜補全(KGC)任務中,目前的研究主要集中在靜態多關係數據上。而本文主要針對動態知識圖譜補全任務,即在實體之間的關係可能只保持一段時間或者只在特定時間點有效的情況下,進行知識圖譜補全。根據以往關於靜態知識圖譜的工作,本文整合了時間信息,提出了一種學習某時間節點的潛在實體和關係類型表示的方法。為了整合時間信息,本文利用RNN學習時間的表示,並將其融入知識圖譜的學習中。實驗通過四種不同的動態知識圖譜數據集證明了其有效性。

Introduction

知識圖譜G = (E, R) 可以表示為三元組(subject, predicate, object) 的集合,靜態知識圖譜鏈接補全任務則為對(s, p, ?) 或(?, p, o) 進行三元組補全。本文主要針對帶有時間信息的KG補全任務,即G = (E, R, T) ,其中不僅包含一般三元組,還包含相關的時間信息,比如(subject, predicate, object, timestamp) 或(subject, predicate, object, time predicate, timestamp) , 舉個栗子:(Barack Obama, born, US, 1961) 、(Barack Obama, president, US, occursSince, 2009-01) 表達了和奧巴馬相關的出生時間、就任時間,其中時間謂語「occursSince」表達了一個時間區間的起點。可以看出,時間信息的表達方式存在異質性,這也是時間相關的KG補全任務中常見的一個挑戰。

KG補全任務中的Embedding方法,目標是學習一個scoring function,函數的輸入為三元組各部分的embedding: e_{s}、e_{o}、e_{p} ,希望學得的函數 f(s,p,o) 與該三元組為真的相似度成正比。目前KG補全任務中的Embedding方法有

TRANSE: f(s,p,o)=||e_{s}+e_{p}?e_{o}||_{2}

DISTMULT: f(s,p,o)=(e_{s}?e_{o})e_{p}^{T}

本文主要貢獻:

對於KG補全任務,將時間信息融合到通用KG Embedding方法中,用token序列表示時間謂語,用digit表示時間點並訓練RNN模型,得到的表示結果可以應用到目前KG補全任務中所有的標準scoring function。

Related Work

1. Jiang et al. (2016) 將一些關係的時序信息作為輔助信息幫助學習更好的知識圖譜補全模型。

2. Esteban et al., (2016) 認為一些即將發生的事件會引起知識圖譜內容的改變。作者用一個額外的事件圖譜來指導原知識圖譜預測未來的新節點或需要修改的節點。

3. Leblay and Chekol (2018) 將時間信息的向量表示融入TransE-type的score function中。

和之前的方法有所不同,本文將時間token當做序列,並採用RNN編碼,這有助於在帶有諸如「since」、「until」等時間token的情況下進行關係類別編碼。同時,RNN提供一種感應偏差,對於相似的時間點之間可以進行參數共享(比如:發生在同一個世紀)。本文的方法可以和目前所有的scoring function結合應用。

Model

對帶有時間信息的relation triples編碼之前,將三元組帶有的時間信息分解為一個時間tokens序列,用後綴y、m、d表示數字對應的年月日信息,如下:

本文將token和時間修飾詞token鏈接起來做為謂語序列 p_{seq} ,並將時間KG中的三元組歸納為 (s, p_{seq} ,o) ,此時的謂語序列中即包含了時間信息,如下表:

本文應用LSTM進行帶有時間信息的序列編碼, p_{seq}
ightarrow e_{p_{seq}} ,模型的最後輸出狀態即為 e_{p_{seq}}

然後應用得到的帶有時間信息的embedding學習scoring functions,本文將該策略在TransE模型和DISTMULT模型上予以實踐。

TA-TRANSE: f(s,p,o)=||e_{s}+e_{p_{seq}}?e_{o}||_{2}

TA-DISTMULT: f(s,p,o)=(e_{s}?e_{o})e_{p_{seq}}^{T} .

在KG補全任務中,應用字元級模型進行時間信息編碼的三個優點:

(1)使用數字和修飾符(例如since)作為token,有助於相似的時間點以及相似的時間表達 之間的知識共享;

(2)測試時,可以得到在訓練中沒有見過的時間點信息;

(3)對於有無時間信息的三元祖,模型都可以進行編碼。

Experimental Result

1. 數據集

本文在四個不同數據集上進行了實驗,詳細情況如下圖:

其中[ ]中的數字是各個數據集中帶有時間信息的三元組數目。

2. Link Prediction

本文提出的TA-TRANSE and TA-DISTMULT在實驗結果上對TRANSE和DISTMULT方法在MRR, hits@10,hits@1指標中幾乎均有提升。對於MR(Mean Rank)度量來說,作者解釋其很容易受到異常值影響,所以提升效果不一致。

3. Training Loss

作者對比TA-TRANSE和TRANSE訓練時的loss大小,在相同設置的情況下,發現TA-TRANSE學習時間信息的能力使得其在訓練中的loss更低。

Conclusions

本文提出了一種digit-level LSTM用於學習KG中包含時間信息的facts表示,並且可以直接應用於目前KG補全任務中已有的scoring function方法中。

推薦閱讀:

相关文章