作者:魔圖君

導語:本文通過一些具體的例子解釋說明構建知識圖譜

涉及到的概念和技術。

互聯網的出現為大量內容創建者打開了創造內容產出信息的大門。因此,現在網路上存在大量高質量的用戶生成內容。為了幫助計算機對這些文檔內容有更好的理解,我們需要一種有效的方式來組織和表示這些數據。針對這個問題,人們認為可以把數據中隱藏的知識用圖結構的形式進行表示,於是基於語義網概念提出了知識圖譜來解決這個問題。

簡而言之,知識圖譜以圖結構的組織形式,通過語義關聯描述客觀世界中概念、實體及其關係。如何構建一個用知識圖譜表示的知識庫呢?下面通過一些簡單的例子,描述從網頁中的非結構化純文本中收集信息進而構建知識圖譜的基本流程。

1.知識抽取

在構建的第一階段,我們從海量純文本中識別文本中的實體以及實體間的關係,過濾出對我們有用的事實知識。識別過程涉及到很多自然語言處理技術的應用,例如分詞、命名實體識別、詞形還原等等。在這一步中,例如對於句子世界四大博物館之一盧浮宮

原是法國的王宮,位於巴黎市中心通過信息提取就被簡化為類似以下的簡單陳述句的形式:「盧浮宮 位於 巴黎」2.知識融合三元組在構建的第二階段,大多數知識圖譜將這些簡單陳述句以三元組的形式保存到知識庫中。三元組這個術語來自於語義網的知識表示框架中的RDF概念(資源描述框架),是知識圖譜中知識表示的基本單位,簡稱SPO,用來表示實體與實體之間的關係,或者實體的某個屬性的屬性值是什麼。上面那個陳述句會被轉化拆解成下面三元組的形式,主題:盧浮宮

謂詞:位於

對象:巴黎本體這裡我們再簡單說一下知識圖譜中本體的概念。本體有點類似於我們學生物時的界門綱目科屬種的分類概念,是知識圖譜中的概念層,或者說模式層。本體可以用來規定我們的知識圖譜中包含哪些領域的知識,知識的類別體系:一共有哪些類別,每種類別下面可以有哪些屬性。另外,還能規定例如類別的上下位關係(父類和子類),屬性的約束(例如一個人的出生日期的屬性只能有1個)等等。本體是關於數據的描述和定義(元數據)。在語義網知識體系中,使用了RDFs和OWL語言來描述本體知識。

圖2 數據集DBpedia中的部分本體知識本體知識界定了每個實體應該存在於哪種類別,我們獲取到的三元組會被本體匹配演算法分類在不同的本體類型下。例如,如果本體是「機場」,那麼,一些屬於這一類的實體像「大連周子水機場 」,「 戴高樂機場 」,「廣州白雲機場 」就會被包括進來。該過程也會涉及到自然語言處理技術的應用。

回到剛才那個例子,在知識庫中,我們將以『盧浮宮——位於——巴黎』的形式保存上述關係。這是知識庫中的單個三元組。在實踐中,知識庫包括數百萬這樣的三元組,我們也稱之為事實。這些事實都會被歸入知識庫中對應的本體。

這個過程我們還需要解決一些實體消歧以及共指消解問題。

實體消歧給定一段文本「在舊金山的2019春季發布會上,蘋果推出新耳機產品Airpods2」文本中的提及「蘋果」可能指向的目標實體包括 {蘋果(水果),蘋果公司,蘋果(電影),蘋果(銀行), …},系統需要根據「蘋果」的上下文詞語識別出該段文本中「蘋果」指的是蘋果公司,而不是蘋果(水果)或者蘋果(電影)。共指消解例如,在一遍文章的開頭可能提及到「哈爾濱工業大學」,後面則稱為「哈工大」、「工大」等,可能還會提到「這所大學」、「」這些指代詞等,這裡所有的詞語指向的都是哈工大這同一個實體,我們在提取知識時必須可以辨別出來。

3.三元組轉換為知識圖譜現在,讓我們看看在構建的最後階段,知識庫中的三元組如何轉換為知識圖譜。知識圖譜是一個實體互聯的大型網路。實體間的連接正是基於知識庫中的三元組創建的。

知識圖譜的一個主要功能就是識別實體之間缺失的鏈接,它屬於推理任務里知識補全或事實補全的一部分。為了進一步闡明這一點,讓我們考慮下邊我們從知識庫中收集的這些樣本關係。

Friends (Anne, Jane)Friends (Jane, Jim)LivesIn (Anne, Paris)LivesIn (Jim, Brazil)LivesIn (Jane, Brazil)BornIn (Anne, Paris)BornIn (Jim, Paris)上面是關於Anne、Jane、Jim幾個人的朋友關係,居住地和出生地信息,如果我們嘗試僅基於上述關係構建一個基本的知識圖譜,可以圖結構可視化為下圖:

然而,有一些未知的關係沒有從知識庫中明確檢索出來,例如,

Anne和Jim是朋友嗎?Jane的出生地是什麼?這意味著這種關係可以被視為缺失的鏈接。

人們一般使用統計關係學習(SRL)框架來推斷這些缺失的鏈接。有很多這方面的工作用不同的方式嘗試發現新的或缺失的信息,並計算出推斷這些信息的置信度。

Cohen, Jiang等人使用馬爾可夫邏輯網來發現提取的事實之間的關係[1]。它維護了一個基於一階邏輯的規則庫來指定本體約束。這些約束將用於管理可以被推斷出的可能關係。然而,對於馬爾可夫邏輯網路中,我們稱之為「謂詞」的這種邏輯關係卻只能為其變數取一個二值邏輯變數(布爾值)。這導致在推斷事實的置信度方面會比較差。於是這個問題也引發了概率軟邏輯(PSL)的定義,它使用了Jiang等人和馬爾可夫邏輯網的概念,定義了一個複雜的統計關係框架,它基於以前的事實對所有事實一起進行推導,發現新的/缺失的信息[2]。除此之外,PSL從概率的角度計算置信度,置信度值是[0,1]範圍內的軟數值,從而基於所提供的內容來表示PSL程序認為改事實為真實的程度。一旦發現了新的/缺失的信息,並計算了他們的置信度,我們就可以建立一個具有高可信度事實的知識圖譜。從這個圖譜我們可以獲取,除了提取的原始事實之外的那些無法顯示獲取的新信息。這就是我們如何利用知識庫中的既有事實和基於可用觀察結果得到的新事實知識來構建知識圖譜的過程。不過呢,如何根據人類認知來識別出錯誤的事實或三元組,在知識圖譜社區中仍然是一個未知的開放問題。

4.總結最後,讓我們再總結一下構建知識圖譜時發生的過程:1)階段1:從純文本中提取事實
  • 從非結構化數據源和半結構化數據源中獲取數據。
  • 處理原始數據以便提取信息,這涉及實體,關係和屬性的提取。
  • 如果數據已經結構化好,可直接用於與知識庫進行知識融合。

2)階段2:將提取的事實轉化為三元組

  • 執行本體匹配,將提取的實體和關係歸類到對應的本體類型下。
  • 存儲為知識庫中的三元組。

3)階段3:構建知識圖譜,補全缺失鏈接

  • 應用統計關係學習方法從知識庫構建知識圖譜。
  • 使用統計關係學習方法計算每個事實的置信度,以便確定這些事實的真實程度。
  • 使用置信度識別缺失的鏈接,形成推斷出新的關係鏈接。

最終,知識圖譜可以用在信息檢索,聊天機器人,推薦系統,知識管理系統等應用中,以有效地提供對用戶查詢的響應。

References[1] Jiang, S., Lowd, D., & Dou, D. (2012, December). Learning to refine an automatically extracted knowledge base using markov logic. In Data Mining (ICDM), 2012 IEEE 12th International Conference on (pp. 912–917). IEEE.

[2] Brocheler, M., Mihalkova, L., & Getoor, L. (2012). Probabilistic similarity logic. arXiv preprint arXiv:1203.3469.

[3] 劉嶠, 李楊, 段宏, 劉瑤, & 秦志光. (2016). 知識圖譜構建技術綜述. 計算機研究與發展, 53(3), 582–600. [4]CCKS2018知識圖譜發展報告你也許還想看:

● 人臉檢測與識別的趨勢和分析

● 聊天機器人(智能客服) | 從應用到實踐概述● 乾貨 | 集成聚類回顧(一)

歡迎掃碼關註:

推薦閱讀:

相关文章