論文筆記整理:葉橄強

動機

在構建知識圖譜

的過程中,不可避免地會產生雜訊和衝突。基於知識圖譜的任務或應用一般默認假定知識圖譜中的知識是完全正確的,這樣會不可避免地會帶來潛在的偏差。而本文則建立了一個知識圖譜三元組置信度的度量模型(Knowledge GraphTriple trustworthiness measurement model, KGTtm),量化其語義正確性和所表達事實的真實程度。本文的主要貢獻在於:

  1. 提出了一種綜合利用三元組語義信息和全局推斷信息的知識圖譜三元組置信度的度量方法,可以度量和整合實體層面、關係層面和知識圖譜全局層面的置信值。
  2. 基於Freebase數據集構造的基準數據,驗證了知識圖譜三元組置信度的有效性。
  3. 知識圖譜三元組置信度的度量模型計算出的置信度可用於知識圖譜的構建或改進。

概念

知識圖譜三元組置信度(KG triple trustworthiness),用來衡量三元組所表達知識的真實程度或者說可信程度。

知識圖譜三元組置信度的值所在範圍為[0,1],值越接近0表明該三元組是錯誤的概率越大,反之,值越接近1則表明該三元組是真實的概率越大。基於這個概念,可以發現並衡量現有知識庫中可能存在的錯誤,提高知識庫中知識的質量。

方法

本文提出了一個基於交叉神經網路結構的新模型:知識圖譜三元組置信度的度量模型(Knowledge GraphTriple trustworthiness measurement model, KGTtm)。這個模型可以從三個層面衡量三元組可信賴的概率,包括實體層面、關係層面和整個知識圖譜層面等,然後針對這三個不同的層次,分別提出了問題並通過設計三種演算法和三種對應的評估器來解決,最後通過融合器整合三個評估器的結果,輸出一個最終的三元組置信值。模型如圖所示:

該模型的圖示在縱向上可分為上下兩個層次。上面部分是多個置信評估單元(評估器)的集合,這些評估器的輸出構成下面部分的融合器的輸入,而下面部分的融合器是一個多層感知器,為每個三元組生成最終的置信值。

1. 評估器

(1) ResourceRank演算法

本文提出了ResourceRank演算法,用於刻畫兩個實體之間的關聯強度。該演算法的思路是,如果實體對(h, t)之間的關聯性很強,那麼會有非常多的資源從頭部實體h通過所有關聯路徑傳遞到知識圖譜中的尾部實體t。例如在下圖中,從節點(實體)A到節點E的邊(關係)非常密集,也就是說(A, E)這兩個實體之間存在較高的關聯強度,因此可以很容易地猜測到(A, E)之間存在關係;但是從節點G到節點F之間沒有直接關聯的邊,類似地可以認為(G, F)之間不存在關係。

ResourceRank演算法主要包括三個步驟:

(1)構建一個以頭實體h為中心的有向圖;

(2)迭代運算圖中的資源流直到其收斂,並計算尾實體t的資源保留值;

(3)綜合其他特徵並輸出(h, ?, t)的可能性。

頭節點h擁有的資源將通過所有相關路徑流向整個有向圖中的其他節點。本文參考PageRank演算法,模擬了資源流到分佈穩定的過程,將尾實體上資源的值表示為R(t|h):

其中,M_t 是所有通向節點 t 的節點集合,OD(e_i) 是節點 e_i 的出度,BW(e_it)是從節點到節點 t 帶寬。因此對於 M_t 中個每個節點 e_i,從節點 e_i 到節點 t 轉移的資源量為

因為知識圖譜中可能存在的錯誤和雜訊,構造的有向圖並不完美並且可能存在影響資源流動的閉合迴路。因此為了提高模型的容錯率,假設每個節點的資源流都有相同概率θ可以直接跳轉到的隨機節點,並且隨機流向t的這部分資源是 1/N,其中 N 是節點總個數。

由於有向圖中節點的不同狀態可以反映實體所包含的信息,因此用以下六個特徵去構造特徵向量V,分別是①R(t|h),②頭節點的入度ID(h),③頭節點的出度OD(h),④尾節點的入度ID(t),⑤尾節點的出度OD(t),⑥首節點至尾節點深度Dep。經過激活函數的處理後,向量V轉化成的概率值RR(h,t),即表明頭實體h和尾實體t之間可能存在一個或多個關係的可能性,其中具體的轉化方法是:

其中α是非線性激活函數,而Wi和bi是在模型訓練時候可以調節的參數矩陣。RR(h,t)值的範圍在[0, 1]之間,值越接近1表明h和t之間越有可能存在關係。

(2) 基於平移的能量函數演算法:

本文提出了基於平移的能量函數演算法(Translation-basedenergy function, TEF),用於計算實體對(h, t)之間出現這種關係r的可能性。

一個可信的三元組需要滿足:h+r≈t,因此可以定義能量函數E(h, r, t) = |h + r – t|,其值越小,實體對(h, t)之間建立關係r的概率越大,(h, r, t)的可信度越好,反之亦然。

基於平移的能量函數演算法(TEF演算法)的具體步驟為:首先計算每三個元素的能量函數E(h, r, t),以實現實體或關係的低維分散式表示,然後利用一個改進的sigmoid函數將E(h, r, t)轉化為實體對(h, t)構成關係r的概率,轉化公式為:

其中,δr是與關係r相關的閾值。當E(h, r, t) =δr的時候,概率值P為0.5。λ是用於平滑處理的超參數,可以隨模型訓練進行動態調整。

(3) 可達路徑推理演算法:

本文提出了可達路徑推理演算法(Reachable paths inference, RPI)。在有向圖中,從頭實體到尾實體有許多真實存在的、通過一步或者多步可達的路徑,這表明了頭尾實體之間存在語義相關性和三元組之間蘊含的複雜推理模式,而這些可達路徑將是判斷三元組置信度的重要依據。

要利用可到達的路徑來推斷三元組置信度,主要需要解決兩個關鍵挑戰:

①可達路徑的選擇:

可達路徑的可靠性需要考慮到路徑與目標三元組的語義相關性的因素,因此本文針對這部分提出了一種基於語義距離的路徑選擇演算法:

②可達路徑表示:

通過第一個步驟選定路徑,然後將每個選定路徑映射到一個低維向量以便進行後續計算。傳統的方法僅僅考慮了路徑中的關係,而本文考慮整個知識圖譜中的三元組路徑,不僅包括關係,還包括頭實體和尾實體,因為實體還可以提供重要的語義信息。

每個三元組的三個元素的嵌入作為一個單元s連接起來,因此路徑就被轉換成有序序列S ={s1,s2, …, sn},然後利用遞歸神經網路(RNN)得到最後一次的輸出向量ht,它可以表示每條路徑的語義信息。將排名前K的路徑的輸出ht鏈接在一起向量,然後將向量進行非線性處理得到值RP((h, r, t)),用來表示知識圖譜中相關的三元組判定目標的置信度。

2. 融合器

本文設計了一個基於多層感知器的融合器來輸出最終三元組的置信值。用上述三個評估器得到的輸出構建特徵向量f(s):

然後將其輸入融合器並通過多個隱藏層進行轉換。輸出層是一個二進位分類器,將標籤y=1指定給真三元組,將標籤y=0指定給假三元組,最後使用非線性激活函數去計算

其中是第i層隱藏層,和是第i層隱藏層將被學習訓練的參數矩陣,而和是輸出層的參數矩陣。

實驗

(1) 驗證三元組置信度的有效性:

本文基於從Freebase中提取的一個典型的基準知識圖譜FB15K,驗證KGTtm的三元組置信度輸出是否有效。由於FB15K中沒有明確的標記錯誤,同時考慮到現實世界中大多數知識圖譜錯誤都是由相似實體之間的誤解造成的,於是在該研究中自動生成假三元組作為負示例來引入錯誤和衝突,具體生成過程中保證負例數等於正例數,然後為每個真三元組構造三種假三元組,分別是替換頭實體、替換關係和替換尾實體來生成。

經過測試實驗,將產生的三元組置信值顯示在坐標系中,如圖5(a)所示。左側區域顯示負示例的值分佈,右側區域顯示正示例的值分佈。可以看出,正例的置信值主要集中在上半部分區域,而負示例的值主要集中在較低的區域。這與判斷三元組置信度的規律相一致,證明瞭模型輸出的三元組置信值是有意義的。

此外,通過動態設置三元組置信值的閾值,可以測量輸出的精度和召回率曲線,如圖5(b)所示。只有當三元組置信值高於閾值時,才能認為它是可信的。隨著閾值的增加,精度繼續提高,召回率繼續下降;當閾值在區間[0, 0.5]內調整時,召回率沒有明顯變化,仍處於較高水平;然而如果在區間[0.5, 1]內調整閾值,則召回率快速下降,特別是在閾值越接近1的時候召回率下降得越快。這些結果表明,正例的置信度普遍較高,並且即使將閾值設置為一個較小的值,精度仍能夠保持在較高的水平,這表明該模型能夠很好地識別負實例,並賦予它們一個較小的置信值。

(2) 與其他模型的比較知識圖譜錯誤檢測能力:

如上表所示,本文的模型在精確度和F1分數方面比其他模型有更好的結果。通過張量分解和非線性變換等運算計算出三元組有效性的分數,然後使用sigmoid函數將分數轉換為置信值。與雙線性模型和多層感知器模型相比,本文提出的模型在兩個評價指標上的改進提升超過10%,而利用基於平移的能量函數演算法(TEF)演算法將基於嵌入的TransE、TransH、TransD、TransR和PTransE模型的輸出轉換為三元組置信值,能夠使這些基於嵌入的模型優於傳統的方法,雖然在一定程度上其結果受嵌入質量的影響,但是相比之下本文提出的模型能夠不依賴於單詞嵌入。由於本文提出的模型充分利用了三元組語義的內部語義信息和知識圖譜的全局推理信息,因此實現三元組置信度的度量能夠更為穩健並且表現得更為優異。

總結

為了消除知識驅動學習任務或應用中因知識庫錯誤而產生的偏差,本文建立了知識圖譜三元組置信度的度量模型(KGTtm),對知識庫中的錯誤進行檢測和消除。KGTtm模型是一個交叉的神經網路結構,可以綜合利用知識圖譜的三元組語義信息和全局推理信息從三個角度評價三元組的可信度。實驗基於常用的知識圖譜Freebase進行試驗,而實驗結果很好地證實了模型的有效性。


推薦閱讀:
相關文章