這是 阿拉燈神丁Vicky 的第 18 篇文章
註:附 PDF 版下載百度網盤下載鏈接:https://pan.baidu.com/s/1AnWz0nVas54U8sxrJqW1zA

註:附 PDF 版下載百度網盤下載鏈接:pan.baidu.com/s/1AnWz0n

備份下載地址,防止失效:pan.baidu.com/s/1p0IX6K

一、寫在前面的話

1.1.1 全文概要

本文旨在通過技術實現流程與產品應用落地系統的介紹知識圖譜的構建原理與發展方向,不涉及具體實現代碼與演算法,結合市面上現有的知識圖譜應用做簡單分析,錯誤或不當之處敬請指正。

1.1.2 引言

前谷歌阿米特·辛格(Amit Singhal)博士在介紹知識圖譜時如是說:「The World is not made of strings,but is made of things (構成這個世界的不是字元串,而是實體).」

之前寫過一篇關於知識圖譜的文章:《知識圖譜發展的難點&構建行業知識圖譜的重要性》在研讀大量前輩們的文章著作之後有了更深刻、更具體的認識,遂碼此文以此紀念半年來的學習。

1.1.3 知識圖譜的重要性

認知科學家斯蒂芬·平克,對寫作的本質做過這樣一個描述「寫作之難,在於把網狀的思考,用樹狀的結構,體現在線性展開的語句裏。」後來被很多人引用,任何文章都是由中心、材料、結構三個要素組成,中心是文章的「靈魂」,要明確無誤;材料是「血肉」,要豐富,並能集中反應中心;結構則是文章的骨架,是謀篇佈局的手段,是運用材料反應中心的方法。知識圖譜與人類寫文章和思考模式非常相似,就是這樣一個網狀的存在,它把零亂複雜的人類社會知識通過點、線連接,以結構化的方式組織起來,幫助用戶從海量網路數據中獲取結構化完整的知識與信息。

人工智慧行業大家常說,知識圖譜是讓人工智慧從機器智能,到感知智能,再到認知智能進程中不可或缺的一個領域。因為知識圖譜最接近現實世界的數據組織結構,更符合人類的思維模式。

馬爸爸之前說,如今的互聯網從IT時代已經逐漸過渡到DT時代。人們要用全量數據,阿里也在收購各個類型的公司,幫助阿里獲得不同細分行業的數據,為DT時代的到來而佈局;就我瞭解到的信息,知識圖譜不光要收集數據、分析數據、更重要的是對數據裏的信息進行各種信息的抽取,發現數據之間的各種關係,並對這些關係進行推理,強化數據應用與價值。

1.1.4 重要聲明

本文參考和借鑒大量行業先驅的文章,結尾已註明出處並署名,如侵權請聯繫(Wechat:dandan-sbb)。

二、知識圖譜技術構建要點簡述

在我看來,不瞭解產品在技術層面的實現流程及應用邊界是做不出來好產品的(參考:《AI產品經理必備10點思維模型》),所以先來整體介紹知識圖譜的技術實現流程。

知識圖譜的生命週期大致可分為六大板塊,按順序依次為:知識建模、知識獲取、知識融合、知識存儲、知識計算、知識應用;而這六大板塊之又包含很多細節模塊,別著急,下面就來拆解介紹。

2.1 知識圖譜架構

開始構建知識圖譜之前,非常有必要說明一下架構,知識圖譜的架構主要分為兩種:邏輯架構、和技術架構

2.1.1 邏輯架構

邏輯架構 又分為數據層模式層

數據層:是邏輯架構的底層,用來存儲真實的節點數據與關係數據。

模式層:模式層在數據層之上,存儲提煉過的數據,通過本體庫 來管理數據關係。

實例說明

模式層:實體-關係-實體, 實體-屬性-值

數據層:姚明-妻子-葉莉, 姚明-年齡-38

(Tips 1:本體的核心意思是指一種模型,用於描述由一套對象類型(或者說類)、屬性及關係類型所構成的世界。知識圖譜中本體位於模式層,描述概念層次體系,是知識庫中知識的概念模板。)

(Tips 2:通俗來說,本體是人類對事物的形式化描述,本體庫可以說是同一類事物的本體的集合,按描述領域可以將本體庫分為通用本體庫和領域本體庫,這樣我們就可以很自然的將知識圖譜分為通用知識圖譜和領域知識圖譜)。

2.1.1 技術架構

這張圖足以說明:

圖2-1:知識圖譜技術架構

2.1.2 知識圖譜構建方式

知識圖譜有兩種構建方式:自頂向下與自底向上

自頂向下是由抽象到具體,先為知識定義好本體並通過專家手動編輯形成數據模式,再將實體加入到知識庫,以此方式構建知識圖譜需要以百度百科這樣的結構化知識庫作為基礎。

自底向上是由具體到抽象,採用從開放性的數據中提取實體,基於行業現有標準進行轉換,從現有高質量數據源中進行映射,並將可信度高的數據加入知識庫,再構建頂層的本體。

2.2 知識建模

知識建模就是建立知識圖譜的數據模式,知識圖譜的數據模式也是對整個知識圖譜的結構進行定義,需要保證圖譜可靠性。

2.2.1 如何使用數據進行抽象建模

第一 以實體為目標,實現對不同來源的數據進行映射合併。(實體抽取與合併)。

第二 利用屬性來表示不同數據源中對實體的描述,形成對實體的全方位描述。(屬性映射與歸併)。

第三 利用關係來描述各類抽象建模成實體的數據關係,從而支持分析關聯。(關係抽取)

第四 通過實體鏈接技術,實現圍繞實體的多種類數據的關聯存儲;(實體鏈接)

第五 使用事件機制描述客觀世界中動態的發展,體現事件與實體間的關聯;並利用時序描述時間的發展狀況。(動態時間描述)

2.2.2 建模的關鍵技術與難點

1、滿足多人在線協同編輯,且實時更新。

2、能夠導入集成使用現有結構化知識。3、可以支持大量數據4、能夠支撐事件、時序等複雜表達式。5、能夠與演算法進行整合,避免全人工操作

2.3 存儲方式

知識圖譜是基於圖的數據結構,存儲方式主要有:RDF存儲和圖資料庫(Graph Database),知識圖譜數據存儲需要支持的基本數據存儲有:三元組知識存儲、事件信息存儲、事態信息存儲、使用知識圖譜組織的數據存儲。

2.3.1 RDF(資源描述框架)介紹

RDF(資源描述框架 Resource Decription Framework)是W3C語義網標基礎技術規範的第一層;R代表頁面、圖片、視頻等任何具有URI標識符。D代表屬性、特徵與資源之間的關係;F代表模型、語言與描述的語法。RDF是一個三元組(triple)模型,即每一份知識可被分解為主(subject)、謂(predicate)、賓(object),剛好對應存儲實體、關係、實體,實體、屬性、值。

圖2-2:W3C推薦語義網基礎技術規範-圖片來源百度百科

OWL:RDF Schema 的擴展

複雜類:交、並、補 | 屬性約束:存在量化、全稱量化 | 基數約束:最大基數約束、最小基數約束 | 屬性特徵:反、對稱、非對稱、 不相交、自反 ;屬性鏈;

SPARQL簡介

RDF的查詢語言:基於RDF數據模型 ;可以對不同的數據集進行複雜的連接 ;所有主流圖資料庫均支持 ;

2.3.2 圖 DBMS 的 DB-Engines使用排名

圖2-2:數據來源:https://db-engines.com/en/ranking/graph+dbms

由上圖可見現在市面上大部分使用neo4j進行知識圖譜存儲,而neo4j的特點是採用原生圖存儲與處理,不支持AICD事物處理,不使用Schema;存在的不足是在企業數據管理場景下不使用Schema難以把握整體數據,且不支持時態信息的存儲,非企業版本受數量、查詢速度等方面的限制。

2.3.3 圖資料庫的選擇

關於知識圖譜的存儲,並沒有一種通用的能夠解決所有問題的方案,主要還是依據數據特點進行數據存儲結構的選擇與設計;在考慮選擇存儲時主要基於以下幾方面進行整體權衡與選擇:

1、基礎存儲支撐靈活,可按數據場景選擇使用關係型資料庫,或非關係型資料庫及內存資料庫;

2、基礎存儲可擴展、高可用;

3、按需要進行數據分割,可以依據數據類型進行劃分;

4、適時使用緩存和索引,使用分散式Redis作為緩存,按需進行數據緩存。

5、善於利用現有成熟存儲;

6、保持圖形部分數據的精簡;

7、不在圖中作統計分析計算,對於需要進行統計分析計算的數據,需要導出到合適的存儲中進行。

選擇指標可歸類為以下幾點:

1、數據存儲支持;

2、數據操作與管理方式;

3、支持的圖結構;

4、實體與關係表示;

5、查詢機制;

根據對圖數據的選擇指標來選擇適合業務的圖資料庫纔是最重要的,下面就來分析對比各個圖資料庫功能對於各個指標的支持情況:

圖2-3:各圖資料庫的功能支持
圖2-4:各圖資料庫操作與管理方式支持情況
圖2-5:各圖資料庫支持圖結構的情況
圖2-6:各圖資料庫的實體與關係表示情況
圖2-7:各圖資料庫支持查詢機制支持情況

2.3.4 知識存儲關鍵難點

知識存儲的難點主要存在於存儲與推理計算,具體可分為:

1、大規模三元組數據的存儲

2、知識圖譜組織的大數據存儲

3、事件與時態信息的存儲

4、快速推理與圖計算的支持

2.4 知識獲取

知識獲取的整個過程是指從不同來源、不同結構的數據中進行知識提取,形成知識存入到知識圖譜中。

2.4.1 如何從數據到知識

知識圖譜構建的每一步都包含著巨大的困難,無論從數據獲取、數據處理、數據估算、及數據應用各個階段都包含著各種困難:

1、來源廣:內部數據、互聯網數據、第三方數據;

2、類型多:結構化、半結構化、非結構化數據,大多數為半結構化與非結構化數據;

3、量級大:大數據時代,數據量級通常是TB、PB;

4、模式不可預知:模式在數據出現之後才能確定,且數據模式隨數據不斷增長而演變;

圖2-8:知識圖譜數據處理流轉圖

半結構化數據源解析

如今網站大部分是通過模板生成的,因此通常需要使用包裝器來解析,包裝器可以自動學習,但為保證準確度,通常使用人機結合方式;數據源解析,由於網站的高度可變性,因此還沒有統一的工具。實際應用中,通常針對不同結構的數據配置相應的包裝器,完成數據解析。

包裝器處理步驟:

輸入源設置、預處理配置、抽取目標配置、抽取過程配置(為抽取目標設置抽取規則)、結果後處理;

非結構化數據抽取主要為文本信息抽取:

包括實體識別、關係抽取、概念抽取、事件抽取。信息抽取可分為面向特定領域的信息抽取和麪向開放領域的信息抽取。

面向特定領域信息抽取可預先定義好抽取的關係類型,主要面向專業領域的信息抽取,信息規模小、對精度要求高,工具DeepDive使用機器學習演算法訓練系統來減少各種形式的噪音和不確定性,並為每一個決斷進行複雜的可能性計算;該工具基於聯合推理演算法讓用戶聚焦特徵本身,要求使用者更關心特徵本身而非演算法,並且允許用戶使用簡單的規則來影響學習過程以提升結果的質量,也考慮用戶反饋來提高測試的準確度。

Tips:

DeepDive主要針對關係抽取,在指定的關係抽取中效果比較理想,在實體確定後可很好的進行關係抽取。未提供專門的針對概念、實體事件抽取的支持;支持中文關係抽取,僅需要引入中文相關的基礎處理工具即可;需要大量的標註語料支持,通過人共設置標註規則。

文本抽取:

文本抽取目前還沒有統一的實現各類信息抽取的現成工具。通用解決方式是把現有的工具進行集成,依據抽取任務的不同使用不同的抽取工具,需要對信息進行有針對化的抽取方法,通常使用已有結構化知識進行監督學習。

NLP分詞、命名實體識別工具:NLPIR、LTP、FudanNLP、Stanford NLP…… ;

知識圖譜每一輪的迭代構建過程根據知識獲取的步驟主要包含三個階段:

1、信息抽取:從各類型(結構化、半結構化、非結構化)的數據源中抽取實體、屬性、關係與屬性值,在這些數據上構建本體庫。

2、知識融合:獲得新知識或數據後,對其進行整合、消歧;

3、知識加工:在知識融合之後,要對數據的質量進行評估,確保數據合格,以確保知識庫質量。

2.4.2 信息抽取

信息抽取又分為包括實體抽取、關係抽取和屬性抽取。

實體抽取

實體抽取也叫命名實體識別(Named Entity Recognition,簡稱NER),是從文本數據集中自動識別命名實體。

根據抽取的範圍可分為:

面向單一領域信息抽取構建的知識圖譜成為行業知識圖譜,主要識別文本或數據中的人名、地名、專業術語、時間等實體信息。

抽取方式有:
1、啟發式演算法 + 人工規則,實現自動抽取實體信息的原型系統;
2、統計機器學習方法輔助解決命名實體抽取問題。
3、有監督學習 + 先驗知識。

面向開放領域信息抽取構建的知識圖譜成為通用知識圖譜,不再面向特定知識領域,而是面向整個互聯網。

抽取方式有:
1、人工建立科學完整的命名實體分類體系;
2、基於歸納總結的實體類別,基於條件隨機場模型進行實體邊界識別,最後採用自適應感知機實現對實體的自動分類。 3、採用統計機器學習的方法,從目標數據集中抽取與之具有相似上下文特徵的實體,從而實現實體的分類與聚類。
4、迭代擴展實體語料庫。
5、通過搜索引擎的伺服器日誌,聚類獲取新出現的命名實體。

關係抽取

文本數據經過實體抽取得到一系列離散的命名實體,但要得到語義信息,還要從文本信息中提取實體之間的關係,通過關係連接實體,形成網狀的知識結構。

屬性抽取

屬性抽取是從文本源中抽取實體的屬性信息,比如人物的屬性包含姓名、年齡、學歷、國籍、教育背景等等。

抽取方式有:
1、將實體屬性作為實體與屬性值的詞性關係,將屬性抽取任務轉化為關係抽取任務。
2、基於規則和啟發性演算法,抽取結構化數據。
3、基於百科類網站的半結構化數據,通過自動抽取生成訓練語料,用於訓練實體屬性標註模型,然後將其應用於對非結構化數據的實體屬性抽取。
4、採用數據挖掘的方法,直接從文本中挖掘實體屬性和屬性值的關係模型,據此實現對屬性名和屬性值在文中的定位。

事件抽取

事件抽取可分為預定義事件抽取開放域事件抽取。

行業知識圖譜主要為預定義事件抽取。常採用模式匹配的方法,步驟如下:

1、準備事件觸發詞表;

2、候選事件抽取:尋找含有觸發詞的句子;

3、時間元素抽取:根據事件模板抽取相應的元素;

圖2-9:事件抽取實例

面向開放領域的信息抽取往往對數據之間關係無法預知,通常是基於語言學分析進行抽取,數據規模大、數據精度低。常用抽取工具有ReVerb、TextRunner,抽取準確率較低,通常先進性信息抽取探索、才結果中發現新關係、然後結果上進行信息抽取。

可利用數據源之間的冗餘信息,使用較易抽取的信息(結構化數據)輔助不易抽取的信息(半結構化數據、非結構化數據)

知識獲取技術難點

1、從結構化資料庫中獲取知識:D2R(複雜表數據的處理)

2、從鏈接數據中獲取知識:圖映射(數據對齊)

3、從半結構化(網站)數據中獲取知識:使用包裝器(方便的包裝器定義方法,包裝器自動生成、更新與維護)

4、從文本中獲取數據:信息抽取(結果的準確率與覆蓋率)

Tips:

利用D2R工具(D2RQ):從結構化資料庫中獲取數據需要將關係資料庫轉換為虛擬的RDF資料庫,主要包括:

D2R Server:HTTP Server,提供對RDF數據的查詢訪問介面,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統的HTML瀏覽器調用。

D2RQ Engine:利用一個可定製的D2RQ Mapping文件將關係型資料庫中的數據轉換成RDF格式;

D2RQ Mapping Language:定義關係型數據轉成RDF格式的Mapping規則。

存在的問題: 直接轉換成RDF,難以與知識建模結果對應,也難以同其它知識進行融合。 新數據的增量映射。 海量數據映射。

2.4.3 知識融合

知識融合介紹

通過信息抽取之後從數據源中得到實體、關係、屬性、屬性值等信息。接下來就需要將這些多源異構、信息多樣、動態演化的知識通過衝突檢測和一致性檢測,對知識進行正確性判斷、去粗取精。

知識融合是一件非常複雜的工作,包括數據模式層融合、概念的屬性融合與數據層融合。知識圖譜的數據模式通常採用自頂向下和自底向上結合的方式,因此基本都經過人工的校驗,保證了可靠性;所以知識融合的關鍵任務在於數據層融合。數據層融合包括實體合併、實體屬性融合、從圖檢測與解決。

數據模式層融合通常由專家人工構建或從可靠的結構化數據中映射得到,通常在映射時確保數據統一。數據模式層融合分為:概念合併、概念上下位關係合併、概念的屬性定義合併;

構建知識圖譜優先從結構化數據獲取,通常由對實體進行唯一標識的主鍵,所以可在知識抽取時設定實體合併的依據。非結構化數據抽取時同樣可以設置合併規則來完成實體合併.

知識融合技術難點

1、實現不同來源、不同形態數據的融合;

2、海量數據的高效融合;

3、新增知識的實時整合;

4、多語言的融合;

知識融合步驟

知識融合主要包括兩部分操作:實體鏈接與知識合併

實體鏈接(entity linking)是對將通過以上方法得到的實體通過相似度計算鏈接到知識庫中實體操作。

在實體鏈接中需要進行實體消歧與共指消解;主要是為了判斷知識庫中的同名實體存在不同的含義,與不同命名實體具有相同含義。

實體消歧用於同名實體存在不同的含義,實體消歧結合當前語境,準確建立實體鏈接。實體消歧可採用聚類與基於上下文的詞性消歧和詞義消歧。

共指消解(對象對齊、實體匹配、實體同義)用於不同命名實體具有相同含義,採用共指消解將共同指向的實體關聯或合併。

實體鏈接已經將實體鏈接到對應的實體,接下來就需要進行知識合併了。

知識合併可分為:外部資料庫合併與關係資料庫合併

外部資料庫合併需要處理兩個方面的問題:數據層融合與模式層融合

數據層融合:為避免實例與關係的衝突造成數據冗餘,對實體的指向、屬性、屬性值、關係與所屬類別進行融合。

模式層融合:將新的本體融入到已有的本體庫中。其步驟可分為(獲取知識、概念匹配、實體匹配、知識評估)。

關係資料庫合併:企業本身或者外部機構的關係型資料庫纔是高質量結構化數據的重要來源,結構化的數據融入到知識圖譜中可採用RDF作為數據模型,可將關係型資料庫的數據轉換成RDF的三元組數據(RDB2RDF)。轉換工具(D2RQ)

2.4.5 知識加工

事實並不等於知識,為了獲得結構化、網路化的知識體系,還需要進行知識加工。知識加工可分為:本體構建、知識推理和質量評估。

本體構建

本體是同一領域內不同主體之間進行交流的語義基礎。本體可以人工手動構建也可以以數據驅動的自動化方式構建本體。人工方式構建本體的工作量巨大並且很難找到相關領域的專業人士,對於構建全局的本體庫,主要還是採用自動構建技術逐步擴展而來。

自動構建過程主要包含三個階段:實體並列關係相似度計算、實體上下位關係抽取與本體的生成。

1、實體並列關係相似度計算主要用來計算任意兩個給定的實體在指標測度、相似度上屬於同一概念分類的程度。如馬雲和馬化騰在作為人名的實體,具有較高的並列關係相似度;而馬雲與花唄這兩個實體屬於同一語義類別的可能性較低,因此具有較低的並列關係相似度。常用來進行實體並列關係相似度的計算方法有模式匹配法和分佈相似度。

2、實體上下位關係抽取用來確定概念之間的從屬關係或者說是上下位關係。如片語(馬雲,人類)構成上下位關係,馬雲為下為詞,人類為上位詞。現關於實體上下位關係抽取的主要方式有:a、基於語法模式抽取上下位關係實體對;b、基於概率模型判定或區分上下位關係,經常藉助百科類網站提供的概念分類知識來幫助訓練模型,來提高演算法精度;c、用跨語言的知識鏈接方法構建本體庫。

3、本體的生成是對各層次得到的概念進行聚類,並對其進行語義類的標定,為該類中的實體指定一個或多個公共上位詞。主要生成方法有:實體聚類方法。

知識推理

知識圖譜計算可分為三個步驟:圖挖掘計算、基於本體的推理、基於規則的推理

圖挖掘計算:基於圖論的相關演算法,集成實現基本圖演算法,對圖進行深度優先與廣度優先的遍歷,尋找最短路徑,以及基於節點屬性和關係的相似度演算法,對圖譜進行的挖掘與探索。(難點:大規模圖演算法的效率)

本體推理:使用本體推理進行新知識發現或衝突檢測。本體推理的基本方法為:基於表運算及改進方法,基於一階查詢重寫方法,基於產生式規則等等

基於規則的推理 在基礎知識上依據行業應用業務特徵進行規則定義,並使用規則引擎,編寫相應的規則業務,通過推理輔助業務決策。

(本體推理與規則推理:大數據量下的快速推理;對於增量知識和規則的快速載入)

知識推理是指從已有的實體關係數據出發,進行計算推理,建立實體新關聯,從而擴展和豐富知識網路,知識推理是構建知識圖譜的重要手段和關鍵環節,通過知識推理能夠從現有知識中發現新知識。

知識推理並侷限於實體間的關係,也可是實體的屬性值,本體的概念層次關係等。如:屬性值推理:根據人的年齡可推斷出其生肖;概念推理:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)。

質量評估

質量評估也是知識庫構建的重要組成部分,評估的意義在於對知識體系可信度進行量化,捨棄可信度的低的知識來保證知識庫的質量。

時態信息:

知識圖譜中的時態信息主要是事實的生成時間、事實的有效時間段;

時態信息主為是歷史數據,以記錄事實的有效時間,用有限的數據冗餘實現數據時態信息的應用。

時態信息的實現原則:

在基礎知識圖譜的基礎上,構建針對時態數據處理的中間件;

對於特定類型的時序型數據,採用其他的存儲機制進行存儲。

2.4.6 知識更新

知識更新也要從整體架構來看,那麼知識庫的更新就可以分為:概念層更新數據層更新

概念層更新是指新增數據後獲得了新概念,並自動將新概念加入到知識庫概念層中。

數據層更新是指包括實體、關係、屬性、屬性值的新增或更新,數據層的更新需要考慮數據源的可靠性以及數據的一致性等問題,並選擇在個數據源中出現頻率高的事實和屬性加入知識庫。

知識圖譜數據層更新可分為全量更新和增量更新

全量更新是將更新後的全部數據作為輸入,重新構建知識圖譜,方法簡單,資源、人力消耗大。

增量更新是以當前新增數據為輸入,向已有知識圖譜添加新知識,資源消耗小,但仍需人工定義規則,實施起來較困難,出現問題也比較多。

2.4.7 知識圖譜構建方式

生命週期:知識建模 -> 知識獲取 -> 知識融合 -> 知識存儲 -> 知識計算 -> 知識應用

根據知識圖譜的生命週期,在構建知識圖譜大致有如下幾種方式:

1、使用現有套裝工具(如:LOD2、Stardog);

2、在現有套裝工具的基礎上盡心擴充;

3、使用各生命週期過程中的相應工具並進行組合使用;

4、針對性開發或擴展生命週期中特定工具;

5、完全從零開始構建;

2.4.8 知識圖譜的挑戰

多源異構數據難以融合

公司內部數據、新聞網站、論壇帖子、微博、微信等等,多源異構數據難以進行信息聚合、數據融合。

(使用知識圖譜(本體)對各種類型的數據進行抽象建模,基於可動態變化的「概念-實體-屬性-關係」數據模型,實現各類數據的統一建模)

數據模式動態變遷困難

數據結構多種多樣無法應對業務邏輯、系統擴展性差、對客戶響應慢、系統維護成本高。需要可自由擴展的數據模式。

(使用可支持數據模式動態變化的知識圖譜的數據存儲,實現對大數據及數據模式動態變化的支持)

非結構化數據計算機難以理解

計算機無法理解非結構化數據的語義,需要將非結構化數據轉為結構化。

(利用信息抽取技術,對非結構化數據及半結構化數據進行抽取轉換,形成知識圖譜形式的知識。)

數據使用專業程度過高

行業智能問答大幅降低數據使用門檻

分散的數據難以統一消費利用

基於知識圖譜數據存儲、融合、分析統一平臺,為用戶提供統一的消費入口、以不同的形態(檢索、可視化、分析等)展示給用戶。

(在知識融合的基礎上,基於語義檢索、智能問答、圖計算、推理、可視化等技術,提供統一的數據檢索、分析和利用平臺)

圖2-10:知識圖譜的技術挑戰示意圖

2.4.9 圖譜的設計原則

知識圖譜的設計是一門工程藝術,既要對具體業務有深刻的理解,同時也要預估未來業務的變化及發展方向,從而設計出基於現狀且靈活性極強的高效能系統。

在設計圖譜之前需要從業務原則與效率原則出發問自己幾個問題:

1、需要哪些實體、關係、屬性?

2、哪些屬性可以作為實體,哪些實體可以作為屬性?

3、哪些信息要放在圖譜中?哪些信息不要放在圖譜中?

4、圖譜背後的業務邏輯是怎樣的?

三.知識圖譜應用場景

3.1 知識應用簡介

知識圖譜的應用主要分為:語義搜索、智能問答、可視化輔助決策,而知識圖譜的初衷是為瞭解決搜索引擎根據語義搜索問題。

知識圖譜上層應用需要支持:知識推理、知識快速查詢、圖實時計算

知識圖譜在應用階段更加需要把握規範的數據表示,更強的數據關聯以及更深邃的數據價值。

圖譜在應用層面,現在市場上的應用主要可分為以下以下三個方向:

3.1.1 語義搜索

基於知識圖譜中的知識,解決傳統搜索中遇到的關鍵詞語義多樣性及語義消歧的難題,通過實體鏈接實現知識與文檔的混合檢索。(難點:自然語言的表達多樣性問題;自然語言的歧義問題)

根據搜索引擎的發展階段,可分為傳統搜索是基於關鍵詞匹配的搜索;語義搜索是基於知識圖譜對用戶輸入進行理解,識別實體、概念和屬性,並返回實體、關係、鏈接的數據等豐富的結果。到現如今可以說已經發展到基於自然語言理解的智能問答階段了。

語義搜索麵臨兩個難題:1、自然語言表達的多樣性;2、自然語言的歧義;

解決方案:1、實體鏈接(工具:Wikipedia Miner、DBpedia Spotlight) 2、基於知識圖譜的語義搜索;

圖3-2:實體鏈接的基本方法過程

3.1.2 智能問答

針對用戶輸入的自然語言進行解析,對用戶查詢意圖進行分析與理解,從知識圖譜中或目標數據中進行查詢檢索,生成候選答案並根據結果權重進行排序,給出用戶問題的答案。(難點:準確的語義解析;正確理解用戶的真實意圖;答案確定與排序)

智能問答系統的實現一般基於以下幾種方法:信息檢索、語義理解、規則專家系統、深度學習。

信息檢索 要利用中文分詞、命名實體識別等自然語言處理工具找到問句中所涉及的實體和關鍵詞,然後在知識庫中查找檢索。實現起來較簡單,應用廣泛,但此方法更偏向關鍵詞搜索,結果不如語義解析精準。

語義解析 是將口語化語言根據特定語法規則解析,得到語義表達式,再映射為資料庫語言。此方法可以得到更加準確的結果,但需要依賴知識圖譜的詞法解析與映射等功能,並根據圖結構進行語法規則匹配,實現技術困難較大。(常用方式:人工配置語義解析模板,如:小愛同學;知識圖譜通用子圖匹配模板)

圖3-1:基於語義解析的自動問答系統

規則專家系統 需要大量專業知識與經驗,需專家提供知識和經驗並推理判斷,模擬決策過程,適合專業領域,欠缺通用性,適用場景小。

深度學習方法 把問題與答案均採用特徵向量表示,然後使用深度學習計算問題與答案的相似度。該方法需要大量訓練,並且暫不支持複雜查詢,而且知識更新後又需要訓練。

現階段對於智能問答採用信息檢索+語義解析相結合的方式合適,滿足強解釋性與廣泛應用。

3.1.3 可視化決策支持

通過提供統一的圖形介面,結合可視化、推理、檢索等為用戶提供信息獲取的入口。(通過可視化方式輔助用戶模式快速發現;高效的縮放和導航;大圖環境下底層演算法(圖挖掘演算法)的效率)

如今知識圖譜可視化困境在於缺少面向是知識圖譜的可視化工具,可通過集成現有工具實現知識圖譜可視化,但難點在於該工具需要依託什麼樣的設備環境,展現數據的什麼特點,數據量過大過小時該如何做。

知識圖譜可視化基本組件:圖譜展示、統計分析、最短路徑發現、多節點關聯探尋。面向知識圖譜的應用,構建基於知識圖譜的一體化決策平臺。

圖3-3:知識圖譜可視化決策平臺架構

四、知識圖譜應用分析

知識圖譜在行業應用可大致分為通用知識圖譜行業知識圖譜

4.1 通用知識圖譜

通用知識圖譜是面向通用全領域的知識圖譜。基於百科數據,以常識性知識為主,更強調知識廣度,需要擁有更多的實體,橫向鋪開,跨度大很難生成完整全局的本體層進行統一管理。

主要面向普通大眾用戶,通用知識圖譜的應用主要面向於搜索、推薦、問答等業務場景,目前典型的具體應用有Google搜索、百度知心、搜狗立知(之前叫知立方),以及自動問答和聊天機器人有IBM的Watson、蘋果的Siri、Google Allo、Amazon Echo、小米小愛同學、百度度祕以及各種情感聊天、兒童陪伴、客服、教育機器人等。

4.2 行業知識圖譜

行業知識圖譜主要面向某一特定領域的知識圖譜。基於行業數據構建,對知識的準確性要求非常高,常用於輔助各種複雜問題分析或輔助決策;要有嚴格豐富的數據模式,並且實體通常需要較多且具有行業意義;目標用戶通常需要考慮各行各業中各種級別的人員,人員不同對應的操作和業務場景不同,因此構建是需要具備一定的深度與完備性。

通用知識圖譜中的知識可作為行業知識圖譜構建的基礎,行業知識圖譜也可融合到通用知識圖譜。兩者相輔相成。

4.2.1 行業知識圖譜應用場景分析

行業知識圖譜現在主要應用場景可歸納為以下幾個方面:生物醫療、圖書情報、電商、農業、政府、電信、出版。

企業知識圖譜

企業知識圖譜在企業基礎數據、投資關係、任職關係、專利、投資招標、招聘、訴訟數據、失信、企業新聞等數據層面已經有了成熟的商業級產品。眾所周知的公司包括:天眼查企查查以及聯想大數據HyperGraph中譯語通joveMind

而企業知識圖譜的應用主要有以下幾個方面:

企業風險評估

對於銀行、擔保機構、投資、政府等用戶可以基於企業基礎數據、投資關係、訴訟、失信等多維度關聯數據,清晰展現企業數據,建立完整客戶資源分類、信貸前期風險審核、採購企業風險審核、投招標企業資質評級等等,從而科學的構建評估體系,規避潛在的經營風險和資金風險。

企業社交查詢

基於投資、任職、專利、投招標、涉及關係以目標企業為核心向外層層擴散,形成一個網路關係圖,直觀立體的展現企業之間的關聯。

企業最終控制人查詢

基於股權投資關係尋找持股比例最大的股東,最終追溯至自然人或國有資產管理部門。

企業之間的路徑發現

在基於股權、任職、專利、招投標、涉訴等關係形成的網路關係中 ,查詢企業之間的最短關係路徑,衡量企業之間的聯繫密切度。

企業融資發展歷程

基於企業知識圖譜中的投融 資事件發生的時間順序,記 錄企業的融資發展歷程。

上市企業知識問答

用戶通過語音或文字輸入,系統通過語音輸出給用戶想要的答案。

金融交易知識圖譜

企業知識圖譜、客戶交易數據、客戶之間的關係、交易行為數據。金融知識圖譜的應用:

輔助信貸審核

數據統一查詢,全面掌握客戶信息;避免由於系統、數據等孤立造 成的信息不一致造成信用重複使用、信息不完整等問題。

反欺詐

有效識別身份造假、團體欺騙、代辦包裝等欺詐案件,分析案件中涉及的複雜關係網路。引入知識圖譜,能有效進行去中心化的知識融合,快速分析可能性最大的元兇,相關部門就可高效的對其進行有針對性的深入調查。

其他應用場景

異常分析 、 失聯客戶管理 、 精準營銷 、 智能投研 、 智能公告

典型應用項目國外的有Datafox、Spiderbook,國內的有文因互聯的文因雲、文因助手、文因搜索,智言科技明略數據達觀數據海知智能的水晶球、知因智慧的3K平臺等等,對金融方面均有涉及。

醫療知識圖譜

包括醫療專業知識、醫療文獻、醫療常識、電子病歷大數據、醫案、現有醫療資源、疾病庫、指南與規範。醫療知識圖譜的應用:

中醫藥知識平臺

針對中醫藥知識體繫系統梳理 、建模和展示 ;以圖形可視化方式展示核心概念之間的關係;輔助中醫專家釐清學術發展脈絡,瀏覽中醫知識,發現知識點之間的聯繫; 與閱讀文獻等手段相比,可大幅度節約知識檢索獲取時間。

輔助診斷與治療

新藥物發現

面向藥物研發的開放數據訪問平臺開發,其核心技術就是採用語義技術為有關 研究人員提供高效的數據訪問技術環境的支持。研發新葯要花費較高的成本以及週期,醫療公司需要降低研發成本。

典型項目應有歐盟第七框架下的開放藥品平臺Open Phacts利用實驗室數據、期刊文獻研究成果數據、以及Clinical Trials.org,IBM登月計劃(moon shot),國內熵流科技的醫療開放平臺中醫藥知識服務系統,其他大多都在佈局中,唯有落地應用。

相關資料:醫學知識圖譜構建與思考及我們的實踐(附48頁完整PDF)

醫學知識圖譜構建與研究進展(內涵PDF論文下載)

醫療知識圖譜的構建與應用(PPT全文)

圖書情報資源知識圖譜

社會發展到今天企業與機構積累了大規模的數據,但並未實現價值,甚至消耗了大量的運維成本,成為公司的負資產,對這數據進行賦能,達到輿情分析、商業洞察、軍事情報分析和商業情報分析。

包括圖書館分類學體系、特定方向的知識體系、圖書、期刊、論文、專利、報刊、百科數據、行業網站數據。

知識導航與資源展示

使用知識圖譜中的知識體系進 行知識導航,引導用戶學習知識體系,以及通過實體鏈接所 關聯的資源。

知識點推薦與搜索

精準理解搜索意圖,實現多元複雜對象的搜索,達到多元化搜索粒度,如段落級、語句級、辭彙級的搜索。針對不同人羣進行個性化知識、商品推薦。

圖書情報KG方面中國最有名的就是中國知網以及明略數據,SCI官網軟體EndNote、zotero、noteexpress等等。

農業知識指導

將不同格式分散存儲的大量農業資料收集分析,如作物、土壤、肥料、蟲害、天氣等知識,統一用圖譜表示,形成完整資料庫,針對不同時節、不同情況,形成有針對性的處理方案,指定科學的管理策略。

還包括政府行業數據管理、智能客服系統等等,更多領域還需要從業人員去挖掘。

其他類型場景的應用實例:客戶個性化前瞻性關懷方面有美國最大的第三方賬單審計和客服中心的Amdocs,還有Palantir為美國搭建了政府領域知識圖譜,成功幫助美國政府定位到本拉登的位置。

總之,知識圖譜將賦能認知智能,而認知智能是一種能夠實實在在落地的,有著廣泛且多種多樣需求的,能夠產生巨大社會價值與經濟價值的人工智慧技術。

五、知識圖譜市場分析

以下主要分析了國內知識圖譜公司的產品與主要服務,以及相關高校科研知識圖譜產品進行簡單的分析。

5.1 企業知識圖譜產品對比

公司

企業簡介

平臺名稱

平臺簡介

主要服務

海乂知(Plantdata)

提供企業級知識圖譜存儲管理平臺KGMS,面向分析人員的KGPro,運營人員的KGSensor,終端用戶KGRobot等KGaaS消費套件。

KGaas智能平臺

使用手冊

KGMS:企業級知識圖譜管理平臺;

KGBuilder:配置式自動化圖譜構建工具;

KGAssist:插件式知識服務助手;

KGRobot:會話式圖譜機器人開放平臺;

KGPro:統一知識圖譜分析引擎;

關聯分析、路徑分析、圖數據探索、圖譜可視化、推理、自然語言檢索、智能BI、語義標註

明略數據

以知識圖譜為支撐的行業人工智慧解決方案提供商。深耕公共安全、金融、工業與物聯網等行業領域,構建行業的知識圖譜,實現從個體賦能到羣體智能的產業轉型升級。

明智系統(產品介紹手冊下載地址

明智系統:行業人工智慧大腦;

NEST:知識圖譜資料庫;

小明:簡單好用的企業級AI入口「小明」

以對話形式提供業務支持;

百度

以數據、圖片、信息接入搜索服務

百度知識圖譜

行業知識圖譜解決方案;

圖資料庫BGraph;

實體標註;

漢語檢索;

知識圖譜schema

智能搜索:圖譜問答、百度漢語、通用實體卡卡片;

自動內容生成;

海致星圖

致力於利用知識圖譜 幫助機構整合數據 分析關聯產生真正智能的結果 從而提供給社會更好的服務

金融知識圖譜

金融知識圖譜

金融智能CRM;

金融智能DBP

智能CRM;

智能風控;

智能信貸解析;

智器雲科技

致力於為公檢法、海關、煙草、稅務、審計、銀行、保險等機構和組織,提供功能強大、簡單易用、自主可控的數據處理及情報分析工具及平臺,並提供高效專業的情報分析服務及培訓

火眼金睛;

月光寶盒;

天羅地網;

火眼金睛:桌面端數據可視化認知分析軟體;

月光寶盒:適合團隊協作的智能資料庫系統;

天羅地網:分散式大數據認知分析服務產品;

軟體下載地址

軟體與培訓

騰訊

一站式全域行業數據融合,提供金融 AI 風控等泛安全領域知識圖譜解決方案

星圖(Star Knowledge Graph,SKG)

一站式全域行業數據融合,提供金融 AI 風控、物聯網等泛安全領域知識圖譜解決方案;星圖增強企業業務,催新商業模式。

提供關聯查詢、可視化圖分析、圖挖掘、機器學習和規則引擎;支持關聯關係數據的快速檢索、查找和瀏覽;挖掘隱藏關係並模型化業務經驗。

網感至察

專註於輸出知識圖譜與認知計算能力,致力於TML認知計算平臺研發。

網感認知雲

網感數據工廠

網感認知雲:幫助建立行業智能,融合知識引擎與神經網路,建立知識圖譜,基於案例數據,針對業務應用場景打造知識與邏輯推理能力。

網感數據工廠:幫助提煉數據價值,開展數據決策,從數據採集、治理、分析、挖掘到業務決策的數據處理流水線,實現業務與數據的閉環。

銷售流向數據治理與分析;

選品定價;

消費者口碑洞察;

門店運營優化;

知識引擎預診預判;

商情洞察;

會員畫像;

客服洞察;

慧科技術

透過先進的科技、創新的解決方案及專業的服務,將全面的新聞信息轉化為與客戶息息相關的情報。

單片文本處理技術

多篇文本處理技術

圖像識別技術

單片文本處理技術

多篇文本處理技術

圖像識別技術

命名實體識別;

情感分析;

話題分類;

文章過濾;

自動摘要;

關係抽取;

評論歸納;

相似文章聚類;熱點話題發現;事件檢測與追蹤;品牌識別;人臉識別;

海知智能

專註於語義理解,通過自然語言理解(NLU)和知識圖譜(KG)技術結合,在「AI+產業」應用領域,打造海知第三方知識大腦開放技術平臺,幫助構建企業聯邦式知識圖譜體系,實現智能化升級。

技能插件工具;

智能分析員;

知識圖譜生產線;

技能插件工具:面向模板進行機器學習的知識庫問答系統;開放對接第三方bot平臺;

智能分析員:面向績效預測、線索發現以及風險預警、預測;

事件觸發的產業鏈傳導機制分析;針對醫藥、金融等行業領域。

知識圖譜生產線:人工&半自動化 構建領域知識圖譜;覆蓋相對全面 質量相對可靠 更新比較及時;基礎、專業和行業等系聯邦式知識圖譜體系

bot平臺,事件分析、醫藥金融領域分析預測;構建行業知識圖譜;

5.1.1 KG公司產品落地分析

在仔細查看各個公司的產品之後,發現大多公司都是針對to B,且少有應用級可視化產品展示,基本上均是提供的產品介紹及技術優勢,在官網並未出現可供訪客查看測試的量化產品,針對產品介紹大多以介面或組件形式提供給行業公司,行業公司又以bot等形式對用戶提供服務。

個人對行業公司提供的服務進行了簡單概括分析:

百度、搜狗、360、必應等老牌搜索公司主要提供以信息檢索加語義解析的語義搜索服務,用來優化各自產品線,在人物、知識、影視、動漫進行了信息整合與關聯,提升用戶搜索體驗。百度王海峯介紹百度知識圖譜服務規模3年間增長了大約160倍。搜狗號稱是國內首家構建知識圖譜的搜索引擎,知識圖譜作為搜狗的基礎能力,服務於搜索引擎和其他多個產品線。2012年11月搜狗知立方上線(中文領域首個知識庫搜索引擎),刷新業內對「下一代搜索引擎」探索的認知。2016年以來搜索流量急劇攀升,背後原因很大程度歸結到其將知識圖譜的AI技術和差異化內容武裝到產品。騰訊、今日頭條、阿里等也將其應用於自家各條產品線,構建了社交圖譜、信息圖譜與商品圖譜在語音搜索、智能問答、個性化推薦等方面形成產品差異化取得了非常不錯的效果,為公司營收立下汗馬功勞。

而以海乂知、明略數據、海致星圖為首的創業的知識圖譜創業公司為避免與巨頭髮生正面衝突,主要從垂直領域切入市場,提供針對金融、醫藥、安防、工業、軍事、法律、客服家居等多領域的行業解決方案,主要以AI技術為行業賦能,每個公司都有自己主攻的幾個方向,也有公司針對單一領域(文因互聯、智言科技主打金融)。網感至察、慧科、海知主要提供技術服務與數據分析幫助用戶進行數據分析,進行決策,獲取技術服務分成。

如今識圖譜主要針對行業為企業服務研發,幫助AI創業公司快速商業化,獲得盈利,進行資金回籠,同時也是為在資本寒冬拿到融資。to C市場也有非常大的潛力,比如教育行業,為歷史人物搭建關係圖譜,人物經歷時序圖譜,幫助學生進行古詩、文章中人物、事件、時代等背景的理解歸納,針對不同人羣知識點進行匯總結構化,同樣也是面向普通大眾,未來的市場空間也非常大。

5.1.2 KG在搜索引擎中的應用分析

說到搜索引擎就不得不提張俊林所著《這就是搜索引擎》,作者在書中將搜索引擎的發展劃分為4個時代:

1、史前時代:分類目錄

以美國Yahoo和國內hao123為代表的人工收集整理分類目錄的時代,被收錄的網站質量一般較高,可擴展性不強,大部分網站不能被收錄。

2、第一代:文本檢索

採用信息檢索模型查詢關鍵詞和網頁之間的相關程度,能按照網頁內容和用戶查詢信息匹配度進行排序,總體來說,搜索結果不是很好。代表產品:AltaVista、Excite

3、第二代:鏈接分析

利用網頁之間的鏈接關係,挖掘利用網頁鏈接的含義,搜索引擎結合網頁流行性和內容相似性改善搜索結果,Google率先使用,獲得成功。但此技術未考慮個性化需求,後來湧出大量作弊網站。

4、第三代:用戶中心

這一代以理解用戶需求為核心,從用戶出發的簡短片語背後的包含的真正需求,比如利用用戶發送查詢詞的時間、地點,以及過去的查詢詞和點擊記錄來理解用戶此時此地真正的需求。

傳統搜索引擎核心技術;圖片來源

以上都是搜索引擎的發展歷程,我們暫且稱其為傳統搜索引擎,那麼最新一代搜索引擎就是基於知識圖譜的搜索引擎,下面就來針對各家知識圖譜搜索引擎做一個對比分析:

百度知識圖譜2014年上線開始,

以「姚明的妻子」為搜索實例對比搜狗、百度、谷歌3大搜索引擎結果(對比時間:2019-01-22)

搜狗:

搜狗搜索「姚明的妻子」示例1
搜狗搜索「姚明的妻子」示例2
搜狗搜索-姚明的動態關係圖譜-1
搜狗搜索-姚明的動態關係圖譜-2-關聯關係圖譜

百度:

百度搜索「姚明的妻子」示例1
百度搜索「姚明的妻子」示例2

谷歌:

谷歌搜索「姚明的妻子」示例1
谷歌搜索「姚明的妻子」示例2

搜狗搜索首先以清晰明瞭的結果卡片C位展示,然後底下結果均已姚明妻子強相關資訊緊隨與圖片集,右側邊欄以姚明關係圖譜、書籍圖譜為主線展開人物卡片,並配有姚明的動態關係圖譜,包含清晰地親情、友情、愛情關係區分。

百度搜索結果同樣以清晰明瞭的結果卡片C位展示,其次是圖片集、最近一條強相關資訊,接下來就是葉莉的百度百科與強相關資訊,右側邊欄以葉莉職業相關人員的關係圖譜,包括籃球名將、職業運動員和知名藝人。

谷歌的搜索結果並未包含知識圖譜,我注意到首頁結果的右下角有《關於這條結果的詳細信息》,截圖如下:

可見谷歌的本條搜索結果只是搜索結果中的精選摘要,並不屬於知識圖譜,屬於正常的搜索結果,只不過採用了特殊版式來突出

關於以上分析並不是為了說各家搜索引擎好與不好,只為強調知識圖譜對於搜索引擎的重要性,結構化信息展示對於我們快速獲取信息有多大幫助,各家的搜索引擎尚有很大的優化空間。

搜索引擎是我們日常獲取所需信息最終要的來源之一,也是互聯網服務的基礎能力,希望知識圖譜在未來搜索引擎的應用中取得更大的突破。

5.1.3 商業模式與戰術

市場上KG相關公司在商業模式與戰略戰術上略有不同,但主要集中在三類:

第一 以現有產品加定製化服務的解決方案進行垂直行業服務,能與客戶進行深度融合積累垂直行業經驗與知識,耗時耗力,但可深度熟悉行業並建立壁壘。

第二 採用通用性較高的模塊化產品由集成商組合後銷售,節省人力,但客單價較低。

第三 成為技術提供商,專註特定技術,與不同客戶合作獲得產品分成或項目營收,面向領域廣泛且靈活,對技術要求較高,不獨立服務客戶,只針對技術某環節提供服務。

知識圖譜應用崛起不容小覷,雖然各家的打法各不相同,但都採用多種商業模式相融合的戰術,行業相對處於初期,往往以客戶要求為基準,並且處理行業「髒亂差」的數據,服務週期一般在數月,甚至上年。但為公司戰略佈局,各家公司還是在深挖各個不同垂直行業,希望「聚井成湖,湖化為海」。

上面的商業模式與戰術,無論哪一種都存在一定的弊端與不足,且看不到市場的增長空間與增長方向,商業化道路更是岌岌可危,知識圖譜創業公司必須捅破商業價值與數據閉環的雙重挑戰。

5.1.4 KG公司的挑戰

目前絕大多數公司都是面向To B市場,B端客戶又可分為大B與小B,大B一般有預算、有耐心,需求來源一般為上層文件和領導指示,客戶對KG不瞭解,雙方需要經過漫長的磨合與試錯,溝通需要消耗大量時間,造成資源浪費,且最終真正轉化為價值的比例非常小。尤其是大B企業公司內部流程漫長冗餘,所以項目的持續週期非常長,造成人員的佔用浪費,不利於KG產品高效落地。小B客戶預算小,需求不明確,數據量小,服務小B用戶很難獲得經驗與技術提升。

KG本身是一種從無到有搭建知識庫的過程,只是為行業和企業賦能,而這種能力並不能直接轉化為生產力並創造商業價值。就像你給客戶在懸崖的另一邊建好了一棟豪華別墅,告訴他你只要走過去你就可以擁有怎樣怎樣的幸福生活,但是重點在於客戶不知道如何跨過這道懸崖。

能否用好知識圖譜並發揮商業價值是未來的重大挑戰。「目前尚沒有一家公司能夠真正通過KG技術提高客戶投資回報率,提高客戶的投研效率。」,所以不但要構建強大功能和完備的圖譜知識體系,更重要的是如何幫助客戶如何使用並通過知識圖譜中的數據應用產生商業價值。因此,「最後一公里該如走」纔是知識圖譜產品落地的關鍵。

大多KG公司在數據上不能形成應用於商業閉環。不能和互聯網巨頭相比的原因也在於無法將技術快速應用於產品,通過數據分析得出KG產品優勢。即使服務於企業客戶,在溝通、數據走勢上不能即時反饋,對於產品的使用改良和演算法改良發展也會慢於巨頭企業。而且對於KG數據的自增長、自吸收歸納更新圖譜也存在巨大難題,也就是整體閉環,如果停滯於服務企業客戶,註定分不到更大的市場蛋糕。

只提供技術服務且被替代性非常強,當技術逐漸發展,人才也會非常多,主動權不掌握在自己手中,一直提供底層的技術處理並處於商業底端,無法最大化KG價值。

所以形成商業閉環、快速迭代、技術演算法升級、知識更新能力時KG公司的核心競爭力。然而這些確是真正的難題,目前還沒有更好的對策。

無論如何,知識圖譜還是為人工智慧時代帶來了全新的機遇與視角,知識推理能力與結構化知識展示是人們迫切需要的新技術與新能力。

5.2 學校及其他組織項目:

復旦知識工場實驗室

kw.fudan.edu.cn/

思知(OwnThink)

ownthink.com/

上海交大 Acemap

acemap.info/

清華大學OpenKE

139.129.163.161//

中國知網

keenage.com/zhiwang/c_z

語知平臺:yuzhinlp.com/chnParse.h

中草藥知識服務系統

zcy.ckcest.cn/tcm/

NLPIR

ictclas.nlpir.org/nlpir

哈工大(大詞林)

bigcilin.com/

北航(中文知識圖譜)

actkg.com/linking/

六、結束語

前兩天看了一篇《人工智障2:你看到的AI智能與智能無關》短短3天就10萬+閱讀量,全文長達3萬餘字,深刻闡述了現在智能語音對話產品的實現原理,也表明了什麼智能音響、智能助理其實並不智能;本文 <3.1.2智能問答> 章節也提到就是利用人工配置語義解析模板實現,之前也在公眾號發過一篇文章《語音對話系統的設計要點與多輪對話的重要性》,知道實現原理與設計模式之後,希望大家對如今的人工智慧有一個清楚地認識,不要將其神化誇大其詞,也不要失去信心,理性看待科技的發展。

科技對社會的顛覆,往往來自從業人員一點一滴的努力。研究之初誰又能預知電磁波、機器、計算機、互聯網的會成為日後人們日常生活中的必需品呢?AI還是個孩子,行業人員都是他的父母及親朋好友,我們又如何要求一個牙牙學語、蹣跚學步的孩子馬上成為演講冠軍與馬拉松第一呢?雖然現在用笨方法實現了表面的智能,未來如何我不知道,但可以確定的是一定會越來越好。

最後,一碗雞湯奉上:機遇與挑戰並存,動力與壓力同在。

7.1 公眾號

八、主要參考資料

1、知識圖譜系列基礎知識簡介;薇拉vera@勾陳安全實驗室

2、面向網路大數據的知識融合方法綜述 ;林海倫、王元卓

3、行業知識圖譜構建與應用101;王昊奮,胡芳槐

4、知識圖譜+Recorder︱中文知識圖譜API與工具、科研機構與演算法框架;悟乙己

5、本體庫(理論篇);月光海苔

6、CMIC:深入闡述知識圖譜的行業應用於未來發展;萬皇之皇

7、寫作之難,在於把網狀的思考,用樹狀的結構,體現在線性展開的語句裏;1274417320

8、知識圖譜的技術與應用;白喬

9、為什麼知識圖譜終於火了?| 甲子光年


推薦閱讀:
相關文章