《Learning Sequence Encoders》 閱讀筆記
來源:EMNLP 2018
原文鏈接:https://arxiv.org/abs/1809.0320
知識圖譜補全(KGC)任務中,目前的研究主要集中在靜態多關係數據上。而本文主要針對動態知識圖譜補全任務,即在實體之間的關係可能只保持一段時間或者只在特定時間點有效的情況下,進行知識圖譜補全。根據以往關於靜態知識圖譜的工作,本文整合了時間信息,提出了一種學習某時間節點的潛在實體和關係類型表示的方法。為了整合時間信息,本文利用RNN學習時間的表示,並將其融入知識圖譜的學習中。實驗通過四種不同的動態知識圖譜數據集證明了其有效性。
Introduction
知識圖譜G = (E, R) 可以表示為三元組(subject, predicate, object) 的集合,靜態知識圖譜鏈接補全任務則為對(s, p, ?) 或(?, p, o) 進行三元組補全。本文主要針對帶有時間信息的KG補全任務,即G = (E, R, T) ,其中不僅包含一般三元組,還包含相關的時間信息,比如(subject, predicate, object, timestamp) 或(subject, predicate, object, time predicate, timestamp) , 舉個栗子:(Barack Obama, born, US, 1961) 、(Barack Obama, president, US, occursSince, 2009-01) 表達了和奧巴馬相關的出生時間、就任時間,其中時間謂語「occursSince」表達了一個時間區間的起點。可以看出,時間信息的表達方式存在異質性,這也是時間相關的KG補全任務中常見的一個挑戰。
KG補全任務中的Embedding方法,目標是學習一個scoring function,函數的輸入為三元組各部分的embedding: ,希望學得的函數 與該三元組為真的相似度成正比。目前KG補全任務中的Embedding方法有
TRANSE:
DISTMULT:
本文主要貢獻:
對於KG補全任務,將時間信息融合到通用KG Embedding方法中,用token序列表示時間謂語,用digit表示時間點並訓練RNN模型,得到的表示結果可以應用到目前KG補全任務中所有的標準scoring function。
Related Work
1. Jiang et al. (2016) 將一些關係的時序信息作為輔助信息幫助學習更好的知識圖譜補全模型。
2. Esteban et al., (2016) 認為一些即將發生的事件會引起知識圖譜內容的改變。作者用一個額外的事件圖譜來指導原知識圖譜預測未來的新節點或需要修改的節點。
3. Leblay and Chekol (2018) 將時間信息的向量表示融入TransE-type的score function中。
和之前的方法有所不同,本文將時間token當做序列,並採用RNN編碼,這有助於在帶有諸如「since」、「until」等時間token的情況下進行關係類別編碼。同時,RNN提供一種感應偏差,對於相似的時間點之間可以進行參數共享(比如:發生在同一個世紀)。本文的方法可以和目前所有的scoring function結合應用。
Model
對帶有時間信息的relation triples編碼之前,將三元組帶有的時間信息分解為一個時間tokens序列,用後綴y、m、d表示數字對應的年月日信息,如下: