數學領域有個有趣的猜想:你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過五個中間人你就能夠認識任何一個陌生人。這就是有名的六度空間理論。要尋找這樣的關係,就要搭建一個社交網路圖,這裡面涉及到的技術,就是建設知識圖譜的技術。

知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從 2012 年 Google 推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。在國內,互聯網巨頭百度和搜狗分別推出「知心」和「知立方」來改進其搜索質量。

一、 什麼是知識圖譜?

1. 知識圖譜概念:知識圖譜本質上是一種大型的語義網路,它旨在描述客觀世界的概念實體事件以及其之間的關係。以實體概念為節點,以關係為邊,提供一種從關係的視角來看世界。

圖1:知識圖譜實例

2. 知識圖譜構成細胞:構成知識圖譜的核心其實就是三元組,三元組是由實體、屬性關係組成的(由Entity、Attribute、Relation組成)

以上圖為例,「姚明出生於中國上海」 可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)。這裡我們可以簡單的把三元組理解為(實體entity,實體關係relation,實體entity)。如果我們把實體看作是結點,把實體關係(包括屬性,類別等等)看作是一條邊,那麼包含了大量三元組的知識庫就成為了一個龐大的知識圖。有些時候會將實體稱為topic,如Justin Bieber。實體關係也可分為兩種,一種是屬性property,一種是關係relation。如下圖所示,屬性和關係的最大區別在於,屬性所在的三元組對應的兩個實體,常常是一個topic和一個字元串,如屬性Type/Gender,對應的三元組(Justin Bieber, Type, Person),而關係所在的三元組所對應的兩個實體,常常是兩個topic。如關係PlaceOfBrith,對應的三元組(Justin Bieber, PlaceOfBrith, London)

二、 知識圖譜應用情況:

1. 已落地:

1) 智能語義搜索:知識圖譜最成熟的一個場景,Google、bing、Facebook、百度;

2) 智能問答機器人、私人助理:微軟小冰、Apple sira;

3) 個性化推薦:淘寶購物、Facebook 內容、頭條新聞;(與推薦系統結合);

4) 反欺詐識別:金融、電信、公安(不一致性檢測技術);

5) 專家系統:給專家系統提供領域數據,輔助決策,IBM Watson Health(智能醫療);

6) 數據存儲與查詢:天眼查企業圖譜、領英經濟圖譜;

2. 探索中:

1) 智能商業模式:針對特定地域和人群,智能推薦商業模式;

2) 智能市場洞察:市場動態及其變化趨勢推理;

3) 智能會員體系:失聯客戶原因推導、喚醒推薦;

三、 知識圖譜發展現狀:

迄今為止,其實際應用在發達國家已經逐步拓展並取得了較好的效果,但它在我國仍屬研究的起步階段。知識圖譜的發展還存在以下障礙。

1. 首先,雖然大數據時代已經產生了海量的數據,但是數據發布缺乏規範,而且數據質量不高,從這些數據中挖掘高質量的知識需要處理數據噪音問題。

2. 其次,垂直領域的知識圖譜構建缺乏自然語言處理方面的資源,特別是詞典的匱乏使得垂直領域知識圖譜構建代價很大。

3. 最後,知識圖譜構建缺乏開源的工具,目前很多研究工作都不具備實用性,而且很少有工具發布。通用的知識圖譜構建平台還很難實現。

四、 知識圖譜技術架構:

核心技術:

1. 數據獲取:獲取內部數據、外部數據,主要涉及資料庫處理技術、爬蟲技術。

(1) 結構化數據:如關係資料庫中的數據,結構化數據一般不需要進行信息抽取,直接可以用於知識融合。

(2) 半結構化數據:如百科等數據,需要使用爬蟲技術獲取;

(3) 非結構化數據:各網站公開數據,需要使用爬蟲技術獲取;

2. 信息抽取:從各種類型的數據源中提取出實體、屬性以及實體間的相互關係,在此基礎上形成本體化的知識表達

(1) 實體抽取:也稱為命名實體識別(named entity recognition,NER),是指從文本數據集中自動識別出命名實體。 比如在下圖中,通過實體抽取我們可以從其中抽取出三個實體——「steve Balmer」, "Bill Gates",和"Microsoft" 。

(2) 關係抽取:文本語料經過實體抽取之後,得到的是一系列離散的命名實體,為了得到語義信息,還需要從相關語料中提取出實體之間的關聯關係,通過關係將實體聯繫起來,才能夠形成網狀的知識結構。這就是關係抽取需要做的事,如下圖所示。

(3) 屬性抽取:屬性抽取的目標是從不同信息源中採集特定實體的屬性信息,如針對某個公眾人物,可以從網路公開信息中得到其昵稱、生日、國籍、教育背景等信息。

3. 知識融合:在獲得新知識之後,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應於多個不同的實體等

(1) 屬性校正:通過屬性相似度比較、實體相似度比較等技術,校正實體屬性信息;

(2) 實體對齊:實體對齊(Entity Alignment)也被稱作實體匹配(Entity Matching),是指對於異構數據源知識庫中的各個實體,找出屬於現實世界中的同一實體。

4. 知識加工:對於經過融合的新知識,需要經過質量評估之後(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量;

(1) 本體構建:自動化本體構建過程包含三個階段——

a) 實體並列關係相似度計算

b) 實體上下位關係抽取

c) 本體的生成

舉個例子,當知識圖譜剛得到「阿里巴巴」、「騰訊」、「手機」這三個實體的時候,可能會認為它們三個之間並沒有什麼差別,但當它去計算三個實體之間的相似度後,就會發現,阿里巴巴和騰訊之間可能更相似,和手機差別更大一些。

這就是第一步的作用,但這樣下來,知識圖譜實際上還是沒有一個上下層的概念,它還是不知道,阿里巴巴和手機,根本就不隸屬於一個類型,無法比較。因此我們在實體上下位關係抽取這一步,就需要去完成這樣的工作,從而生成第三步的本體。

當三步結束後,這個知識圖譜可能就會明白,「阿里巴巴和騰訊,其實都是公司這樣一個實體下的細分實體。它們和手機並不是一類。」

(2) 知識推理:在我們完成了本體構建這一步之後,一個知識圖譜的雛形便已經搭建好了。但可能在這個時候,知識圖譜之間大多數關係都是殘缺的,缺失值非常嚴重,那麼這個時候,我們就可以使用知識推理技術,去完成進一步的知識發現。比如在下面這個例子里——

我們可以發現——如果A是B的配偶,B是C的主席,C坐落於D,那麼我們就可以認為,A生活在D這個城市。根據這一條規則,我們可以去挖掘一下在圖裡,是不是還有其他的path滿足這個條件,那麼我們就可以將AD兩個關聯起來。

(3) 質量評估:質量評估也是知識庫構建技術的重要組成部分,這一部分存在的意義在於:可以對知識的可信度進行量化,通過捨棄置信度較低的知識來保障知識庫的質量。

5. 數據存儲:知識圖譜數據存儲一般有以下兩種選擇

(1)通過RDF(資源描述框架)這樣的規範存儲格式來進行存儲,比較常用的有Jena等。

(2)使用圖資料庫進行存儲,常用的有Neo4j等。

6. 知識更新:知識圖譜的內容更新有兩種方式:

(1)全面更新:指以更新後的全部數據為輸入,從零開始構建知識圖譜。這種方法比較簡 單,但資源消耗大,而且需要耗費大量人力資源進行系統維護。

(2)增量更新:以當前新增數據為輸入,向現有知識圖譜中添加新增知識。這種方式資源消耗小,但目前仍需要大量人工干預(定義規則等),因此實施起來十分困難。

五、 應用例子:應用於金融證券領域的企業知識圖譜

目前金融證券領域,應用主要側重於企業知識圖譜。企業數據包括:企業基礎數據、投資關係、任職關係、企業專利數據、企業招投標數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據等。利用知識圖譜融合以上企業數據,可以構建企業知識圖譜,並在企業知識圖譜之上利用圖譜的特性,針對金融業務場景有一系列的圖譜應用,舉例如下:

1. 企業風險評估

基於企業的基礎信息、投資關係、訴訟、失信等多維度關聯數據,利用圖計算等方法構建科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。

2. 企業社交圖譜查詢

基於投資、任職、專利、招投標、涉訴關係以目標企業為核心向外層層擴散,形成一個網路關係圖,直觀立體展現企業關聯。

3. 企業最終控制人查詢

基於股權投資關係尋找持股比例最大的股東,最終追溯至某自然人或國有資產管理部門。

4. 企業之間路徑發現

在基於股權、任職、專利、招投標、涉訴等關係形成的網路關係中,查詢企業之間的最短關係路徑,衡量企業之間的聯繫密切度。

5. 初創企業融資發展歷程

基於企業知識圖譜中的投融資事件發生的時間順序,記錄企業的融資發展歷程。

本文作者| 工程師Vincent

原力大數據研發部模型演算法工程師。


原力大數據

原力大數據旨在為企業實現:管理、分析、激活企業大數據,發掘企業大數據金礦;洞察、連接、盤活企業存量客戶,深度營銷企業存量客戶。

原力大數據專註於為企業提供基於大數據、雲計算技術的數字化市場營銷產品與服務,包括自主研發的原力MarTech(Marketing Technology營銷技術)雲平台、原力互聯網商情雲平台、企業大數據平台構建及軟硬體集成、企業大數據平台規劃諮詢及相關專業服務

原力大數據存量運營平台五大能力

1 企業自有大數據梳理、清洗、集成及建模,挖掘並積累高價值大數據資源;

2 全方位的企業經營分析可視化應用服務,涉及會員用戶、營銷渠道、營銷商品、營銷活動 等;

3 用戶行為數據分析,建立用戶標籤,提供千人千面的用戶畫像;

4 用戶洞察、精準營銷,提供針對用戶的多渠道、全過程營銷自動化能力;

5 營銷效果實時數據分析評估,營銷活動全過程持續迭代優化。

  • 官 網 丨bigdataforce.com
  • 商務聯繫 丨020- 85279103 商務合作 丨添加微信 jesich

【推薦閱讀】

大數據應用案例

量化消費者動機、能力和出發點,輕鬆4步搞定存量運營丨詞頻分析十九大報告丨歌詞文本分析丨輿情分析-周杰倫「道歉」丨機器學習預測丨輿情分析-人民的名義丨位置大數據應用丨商圈分析丨大數據產品丨教育大數據丨廣告效果評估丨政務大數據

【大數據學習】

分析思維丨數據分析師自我修養丨如何寫價值百萬的分析報告丨入行方向丨大數據就業丨原力大講堂

【觀點】

流量紅利消退的2019年,存量運營是增長突破口丨「媒體」和「渠道」投放KPI驅動的營銷,為何難以實現增長| 大數據變革已是大勢所趨,企業不變將被時代拋棄丨今天不是人工智慧的爆炸時代,卻是場景構建元年丨90%大數據產品都是偽需求丨大數據時代剛剛開啟,尚未到來丨高校開設大數據學科的機遇和挑戰丨為什麼現階段不看好大數據交易

【乾貨/收藏】

28個數據源網站丨9種數據分析方法丨52個可視化工具丨可視化技巧

高校大數據講座 | 大數據就業指導公益巡講?廣州大學站丨暨南大學博雅大講堂


推薦閱讀:
相关文章