前幾天,谷歌發布了一個全新的書籍搜索產品:「Talk to Books」,用戶可以通過對話的方式得到一本書籍的推薦,比如輸入:「What is thebest programming language?」(什麼是最好的編程語言?),就會被推薦《C Programming for Arduino 》。這個產品是典型的知識圖譜技術的應用,它讓搜索引擎可以理解用戶的問題和每一本書的內容,進而進行精準匹配——就像有人在豆瓣給你薦書一樣。事實上,知識圖譜仍舊在驅動著已有20多年歷史的搜索引擎進化。

智能搜索時代來臨

以前的搜索引擎長什麼樣?聯想一下我們用得最多的百度,不難描述:簡潔的白色頁面有一個搜索框,鍵入關鍵詞後,就會得到一個網頁列表,而決定用戶體驗的只有一個因素:結果是否足夠多,排序是否足夠準。

然而今天的百度,已經變得截然不同。除了首頁有了信息流外,搜索結果頁變得更加豐富,左側結果列表頁內容更加多樣化,聚合了百科、新聞、圖片等等內容,右側變得前所未有的豐富。比如你搜索馬雲,出現在右側的關聯內容列表就有三個:阿里創始成員、知名企業家、馬雲風雲史。

信息的聚合似乎還不能讓用戶感知到搜索引擎的「智能」,頂多是「豐富」。如果你搜索「太陽的質量」、「2的五次方等於多少」、「形容大海的成語」、「成龍的老婆是誰」,就會發現百度可以精準地理解你的問題,再給你個性化的結果,它不只是可以理解一段文字,也可以理解圖片和聲音,比如你可以用百度App上傳一張植物的圖片,百度會告訴你這是什麼。

在百度App搜索在精準化上表現更明顯,搜索不同內容,每次的結果頁面前面的卡片都截然不同。理論上來說,移動搜索更需要這樣的智能聚合。手機屏幕很小,如果按照傳統的列表來展示搜索結果頁對用戶並不友好,精準、智能和個性化地呈現結果十分重要,直接決定用戶體驗。PC搜索的體驗是由排序演算法決定的,而移動搜索的體驗是由精準程度決定的,最終搜索引擎應該只給用戶一個答案——他最需要的答案。

谷歌「Talk to Books」只會給你推薦一本你最需要的書,而不是一個書籍的列表,Siri、度祕這樣的語音助理,給你的答案同樣只有一個,PC搜索要豐富,移動搜索求精準,少即是多。

說到底,相對於五年前而言,搜索引擎更能理解你的意圖——不論是自然語言、關鍵詞、語音還是圖片,都可以揣摩到你想要找什麼內容的意圖,同時更加智能地整合更適合的結果到一個頁面。搜索的case不能窮舉,搜索結果頁面的不同也無法一一列舉,因為這是完全個性化的,針對不同搜索需求採取不同形式,對結果進行展現,一擊即中。

互聯網從來不缺新技術和新產品,信息流、短視頻、AI、區塊鏈、IoT、邊緣計算,新生事物層出不窮。搜索引擎作為互聯網最基礎也是最廣泛的應用之一,每天被我們使用,其潛移默化的進化被許多人忽視。如果拿一張五年前的搜索截圖和今天的進行對比,你一定會發現它們截然不同,智能化是核心變化——智能地理解搜索需求,智能地呈現個性而精準的結果。

知識圖譜成搜索新基石

搜索引擎的技術基石是什麼?自然語言處理技術,不論是爬取、處理和索引網頁,還是理解用戶的搜索訴求,關鍵技術就是自然語言處理技術。五年前這個答案是正確的,今天再來看這個問題,答案已經變成了知識圖譜。

知識圖譜是在技術層面,將現實世界的知識點進行關聯,形成一個知識網路,對機器來說就是圖譜。比如提到李彥宏,我們就會想到百度,互聯網大佬,企業家,山西等等標籤,每一個標籤會有對應的內容,如互聯網大佬就是馬雲、馬化騰等等,如此不斷聯想不斷關聯就可以形成一個龐大的知識點網路。

搜索引擎的知識圖譜比上面所聯想的要龐大很多,因為形成知識圖譜的過程本質是在建立認知,理解世界。每個人都有自己的知識面,或者說知識結構,本質就是不同的知識圖譜,一個人窮盡一生能夠構建的知識圖譜在搜索引擎面前都是滄海一束,因為後者是映射的整個真實世界。

當構建了知識圖譜,就可以利用它來讓搜索變得更加智能。一方面,有知識圖譜等於對世界有了認知,再加上自然語言處理技術,可以理解用戶的自然語言、聽懂用戶的語音命令,理解各種內容進而更好地匹配答案。另一方面,基於知識圖譜和自然語言處理技術孵化出了許多創新的智能搜索產品,如智能問答、對話式搜索、信息流等等,比如被視作「被動搜索引擎」的信息流,每個用戶看到的結果都不一樣,看了一篇文章的行為會決定接下來會被推薦什麼,一切都是動態的,而其基礎除了用戶理解和內容理解技術以外,同樣包括知識圖譜:內容被建立了圖譜,用戶被貼上了標籤(畫像),進而智能推薦。

總之,今天的智能搜索邏輯,跟當年基於關鍵詞匹配的搜索邏輯已經截然不同了。五年前搜索引擎是在理解你的搜索需求後,通過關鍵詞去索引庫匹配答案,如今的搜索引擎可以理解你的需求,結合知識圖譜去關聯對應的內容,知識圖譜成為基石。

谷歌是知識圖譜的始作俑者,而在知識圖譜的探索上,百度在中國走在了前面,2014年上半年就已開始提供線上服務,四年的時間線上服務量整體上增長了300多倍,正是因為構建了知識圖譜,所以百度能夠提供跟五年前截然不同的智能搜索體驗。日前,在蘇州第十三屆中國電子信息技術年會上,百度知識圖譜獲電子學會科技進步一等獎,證明瞭其學術價值。事實上,緊隨百度步伐,搜狗搜索、神馬搜索都已構建起自己的知識圖譜,以求實現智能搜索服務。

百度副總裁,AI技術平臺體系(AIG)總負責人王海峯透露,百度知識圖譜已有幾個億的節點(知識點),它們基於百度對幾千億的鏈接(每個鏈接是一個內容,也是一個實體)進行智能挖掘而形成,隨著百度連接的內容越來越多(包括網頁和平臺內容),這個知識圖譜正在以幾何級數量爆髮式增長。同時百度在歷史、商業、通信、零售、科技等等垂直行業上進行知識圖譜的完善細化,讓搜索引擎更懂領域知識。

王海峯認為,「互聯網很大程度是真實世界的一個鏡像,而搜索引擎又是互聯網的一個鏡像,所以,搜索引擎很大程度上成了真實世界的鏡像。」知識圖譜是搜索引擎描述和映射真實世界的關鍵。王海峯是自然語言處理領域的頂尖專家,是百度AI技術的奠基人,也是百度知識圖譜的推動者。智能搜索時代來臨,王海峯提前對AI和知識圖譜技術的佈局,給百度奠定了堅實的技術基礎。

知識圖譜不只是改變搜索

智能搜索是知識圖譜最典型的應用,不過,既然知識圖譜的本質是數字世界對真實世界的認知的構建,它的應用場景就不只是智能搜索。

很早以前,就有一種說話,互聯網的本質是將原子世界變為比特。過去幾十年,互聯網最大的價值是讓實體世界數字化,比如大量的數據可以被感測器、攝像頭、人工採集錄入存儲。未來幾十年,人工智慧會讓數字世界構建對實體世界的認知,不只是對現實世界從空間和時間維度進行「快照存儲」,而是要理解真實世界正在發生的一切,理解這個世界,而要認知世界就要構建知識圖譜。

王海峯此前曾表達過一個觀點:知識是人工智慧的基礎,因為機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如狗的嗅覺,認知語言是人區別於其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎,知識對於人工智慧的價值就在於讓機器具備認知能力。

AlphaGo或許不需要知識圖譜,不過倘若將AI應用到金融、零售、醫療、媒體、娛樂、出行諸多行業,就無法離開知識圖譜。去年,我國政府制定了《新一代人工智慧發展規劃》,將人工智慧上升到國家戰略層面,並提出:人工智慧產業要成為新的重要經濟增長點,而且要在2030年成為世界主要人工智慧創新中心,為躋身創新型國家前列和經濟強國奠定重要基礎。伴隨著互聯網+的浪潮,人工智慧滲透到各行各業成為一個大趨勢,它要在不同行業發揮作用的關鍵,就是構建知識圖譜。

比如智能金融中,機器要能夠反欺詐,或者智能授信,就必須建立金融行業的知識圖譜——當然,技術層面這個過程可能叫做建模。百度2015年就有過嘗試,將知識圖譜應用在股票領域,旗下產品股市通通過數據(招股書、年報、公告、研報、新聞、行情)、信息(股東、子公司、供應商、客戶、合作夥伴、競爭對手)與股票的關係,以及股票與股票之間的關係,在股票領域首創知識圖譜,實現智能選股。再比如智能醫療中,機器要能給病人看病開藥,沒有準確和完善的醫療知識圖譜根本做不到。

除了AI外,目前最熱門的新技術,IoT(物聯網)、區塊鏈,其本質都是為了更好地映射真實世界——IoT更好地感知世界,區塊鏈解決現實世界的信任問題。通過映射真實世界得到數據後,再由AI進行智能化的處理,進而給出反饋,只要涉及到映射真實世界,知識圖譜都是不可或缺的技術,可見其應用將遠遠不止智能搜索,百度在知識圖譜上的積累將會進一步釋放出價值。百度使命是讓複雜的世界更簡單,理解這個複雜的世界,將其映射為機器可以理解的知識圖譜,也是必經之路。


推薦閱讀:
相關文章