本篇文章從知識圖譜歷史發展的角度向大家介紹一下知識圖譜。

什麼是知識圖譜

知識圖譜屬於人工智能的重要分支——知識工程的研究範疇,是利用知識工程理論建立大規模知識資源的一個殺手級應用。知識圖譜給互聯網語義搜索帶來新的活力,在智能問答中也大顯神威,已經成爲知識驅動的智能應用的基礎設施。知識圖譜與大數據和深度學習一起,已經成爲推動互聯網和人工智能發展的核心驅動力之一。

1. 定義

知識圖譜在學術界還沒有統一的定義,根據維基百科,知識圖譜2012年首先由谷歌公司提出,是一個提供智能搜索服務的大型知識庫。因此,這裏我們可以將知識圖譜理解爲,對語義知識的一種形式化描述框架

知識圖譜概論(一)

圖一 谷歌知識圖譜

2. 意義

知識圖譜從語義角度出發,通過描述客觀世界中概念、實體及其關係,從而讓計算機具備更好地組織、管理和理解互聯網上海量信息的能力。更具體的說,在人類與互聯網世界交互的過程中,產生了繁雜龐大的信息,這些信息一般被圖片聲音文字視頻這些數據載體保存。我們希望計算機可以分析閱讀理解這些數據,精準挖掘找到數據背後隱藏的有價值的知識,在用戶需要的時候提供知識服務。

3. 研究問題

知識圖譜研究的主要問題有 如何在計算機中表示知識,將知識保存到合適的數據載體中(知識數據化),以及如何將大規模的互聯網數據轉化爲我們定義好的知識數據的形式(數據知識化)等等。

知識圖譜技術具體指知識圖譜構建和應用的技術,涵蓋內容包羅萬象,是融合了知識表示與推理、信息檢索與抽取、自然語言處理、語義網、認知計算、數據挖掘與機器學習等方向的交叉研究。

知識圖譜的發展歷史

今天我們先從知識圖譜歷史發展的角度來初步瞭解知識圖譜,揭開知識圖譜的神祕面紗。知識圖譜是人工智能重要分支知識工程在大數據環境中的成功應用。

1. 前知識工程時期(1956-1970)

知識圖譜的發展伴隨着人工智能技術的發展而發展。

1956年,馬文・明斯基、約翰·麥卡錫、克勞德·香農、艾倫·紐厄爾等科學家在美國的一個小鎮漢諾斯舉辦了一個會議,探討着一個不食人間煙火的話題:如何用機器模擬智能,併爲會議討論的內容起了一個名字:人工智能。這是"人工智能"這一術語的首次提出,標誌"人工智能"這門學科正式誕生,1956年也就成爲了人工智能元年

之後幾年,人工智能得到蓬勃發展。簡單介紹一下人工智能的兩大學派:連接主義和符號主義

知識圖譜概論(一)

圖二 "智能"包含意識、思維、認知、本能等許多方面

連接主義學派受到神經科學的啓發,認爲"智能"是無數"非智能"的神經細胞互相作用的結果,人與機器之間其實沒有本質的差別。如果我們能模擬神經細胞的行爲,進而構造組織一張人工的"神經網絡",那麼理論上就能模擬出人的大腦,創造所謂的"智能"。

符號主義認爲認爲人的智能可以用數理邏輯表達。數理邏輯在20世紀30年代開始被用於描述智能行爲,模擬人類智能活動。計算機出現後,該理論又被應用到計算機上,實現了邏輯演繹系統,從而又發展出後來的專家系統和知識工程理論等。

這一階段具有代表性的工作是通用問題求解程序GPS(The General Problem Solver)。GPS旨在實現一個宏大的目標:給定問題的描述,可以解決任何問題的計算機程序。他是第一個將問題的解決策略從特定問題的知識中分離出來的程序,並且激勵了很多在問題解決領域的研究。

這一時期的知識表示方法主要有邏輯知識表示、產生式規則、語義網絡等。這個時期學者研究的重點在於,如何設計出一個推理模型來求解通用問題,但是卻忽視了知識在問題解決中扮演的重要角色。

2. 專家系統時期、(1970-1990)

早期學者注重通用問題的求解,試圖模仿人的求解問題的邏輯思維能力構造智能系統,而忽略了知識(人的認知)對智能的支持

什麼是認知?什麼是知識?維基百科有云,認知或認識(cognition)在心理學中是指通過形成概念、知覺、判斷或想象等心理活動來獲取知識的過程,或者說信息加工的心理過程。知識即是經過加工的信息

1970年開始,科學家們提出各種知識表示技術,將領域專門知識表示成計算機可以識別的數據形式。人工智能開始轉向建立基於知識的系統,通過 知識庫+推理機 實現智能的專家系統。當時比較知名的專家系統有MYCIN 醫療診斷專家系統、識別分子結構的DENRAL 專家系統以及計算機故障診斷 XCON 專家系統等。

1977年,在第五屆國際人工智能會議上,美國斯坦福大學計算機科學家費根鮑姆教授(E.A.Feigenbaum) 系統地闡述了"專家系統"的思想,並提出了"知識工程"的概念,正式確立知識在人工智能中的重要地位。

這一時期的知識表示方法主要有框架表示法、腳本表示語言等。同時期出現了許多用這些知識表示方法構建的知識庫,如Cyc 常識知識庫,它們都是通過人工添加知識構建而成

知識圖譜概論(一)

圖三 知識工程發展歷史

3. 萬維網時期 (1990-現在)

如何高效的讓計算機獲得知識?萬維網之父,Tim Berners-Lee 最初設計互聯網的初衷就是希望通過網絡把全世界的知識互聯在一起,使得知識從封閉知識走向開放知識,從集中知識成爲分佈知識。他認爲首先應該構造一個文檔互聯的網絡,然後在這個基礎上再構建一個具備可以被計算機識別的知識結構的知識互聯的網絡。第1個目標已經實現了,就是現在我們每天都接觸的有互聯網,那知識互聯的網絡是什麼意思?

在web2.0中,互聯網上的數據絕大部分以html的形式存在,這樣的形式確實適合人機界面之間的信息傳遞,方便人類的閱讀和理解,但是網頁內容沒有采用形式化的表示方式,缺乏明確的語義信息,Web內容對於計算機而言只是普通的二進制數據,對其符號背後隱藏的知識無法被計算機識別。所以,面對當今信息時代的海量信息,當人們希望藉助計算機來獲取自己需要的信息時,這種html網頁表示形式的瓶頸就凸顯出來了,這也正是基於關鍵字匹配的傳統搜索引擎的壁壘所在。

於是,針對第二個目標,1998 年Tim Berners-Lee 首次提出語義網概念,也就是後來人們常常說到的web3.0。這是一個極具野心的宏大概念,目標是對現有web內容增加語義支持,使得計算機可以自動識別和理解互聯網上的信息,完成智能化應用任務。針對語義網概念,一整套標準化的相關技術不斷被提出以及完善,形成了語義網技術堆棧,主要包含了RDF(資源描述框架) 和 OWL(萬維網本體描述語言)等內容,這裏麪包含了過去幾十年邏輯推理和知識表示等知識工程理論方面的研究成果。

要實現這個目標是一個相當艱鉅的任務————必須把互聯網上海量龐大的內容信息轉化爲機器可以理解和計算的知識形式。早期專家系統中手工編輯知識庫的方式面對這個任務顯然捉襟見肘,沒有用武之地。幸好,大規模維基百科類富結構知識資源的出現,加上許多從萬維網上自動提取大規模知識的方法的提出,使得知識獲取工作取得重大成果,相關代表性工作有比如 DBpedia, Freebase YAGO, DeepDive, NELL, Probase 等等。

知識圖譜概論(一)

圖四 開放鏈接數據項目

正是在這樣的大背景下,谷歌在收購Freebase後,於2012 年推出了基於語義網技術的一款威力強大的應用————知識圖譜。

相关文章