前員工揭內幕：10年了，為何谷歌還搞不定知識圖譜？

本文由「AI前線」原創（ID：ai-front），原文鏈接：前員工揭內幕：10年了，為何谷歌還搞不定知識圖譜？

作者｜Manish Rai Jain
譯者｜阿拉丁編輯｜Debra

AI 前線導讀：近日，前谷歌開發者、現 Dgraph 創始人 Manish Rai Jain 撰文揭秘了谷歌內部在知識圖譜領域的探索和發展。他以一個開發和技術前驅者的視角論述了「為什麼谷歌需要一個知識圖譜系統」，並詳細披露了知識圖譜在谷歌的探索嘗試的歷程。雖然由於種種原因，他當時的知識圖譜項目最終被放棄，但整個發展探索歷程不失為一個非常棒的知識圖譜技術學習材料和項目管理經典案例。AI 前線對這篇文章進行了編譯，希望能對大家有所幫助。

更多乾貨內容請關注微信公眾號「AI 前線」（ID：ai-front）

當我向別人解釋我們在 Dgraph 實驗室所做的東西時，經常會有人問我是不是曾經在 Facebook 工作過，或者我們正在做的東西是否受到 Facebook 的啟發。很多人都知道 Facebook 在社交圖服務方面做了大量工作，因為他們發表了多篇關於如何構建圖基礎設施的文章。

在說到谷歌時，一般僅限於知識圖譜服務，但卻沒有人提到過其內部基礎設施是怎麼回事。其實谷歌有專門用於提供知識圖譜的系統。事實上，我們（在谷歌的時候）在圖服務系統方面也做了大量的工作。早在 2010 年，我就冒險進行了兩次嘗試，看看可以做出些什麼東西。

谷歌需要構建一個圖服務系統，不僅可以處理知識圖數據中的複雜關係，還可以處理所有可以訪問結構化數據的 OneBox。服務系統需要遍歷事實數據，並具備足夠高的吞吐量和足夠低的延遲，以應對大量的 Web 搜索。但沒有現成可用的系統或資料庫能夠同時滿足這三個要求。

我已經回答了為什麼谷歌需要構建一個圖服務系統，在本文的其餘部分，我將帶你回顧我們構建圖服務系統的整個旅程。

我是怎麼知道這些的？

我先自我介紹一下，2006 年到 2013 年期間，我在谷歌工作。先是實習生，然後是 Web 搜索基礎設施的軟體工程師。2010 年，谷歌收購了 Metaweb，那時我的團隊剛剛推出了 Caffeine。我想做一些與眾不同的東西，於是開始與 Metaweb 的人（在舊金山）合作。我的目標是弄清楚如何使用知識圖譜來改進 Web 搜索。

Metaweb 的故事

之前已經說過，谷歌在 2010 年收購了 Metaweb。Metaweb 已經使用多種技術構建了一個高質量的知識圖譜，包括爬取和解析維基百科。所有這些都是由他們內部構建的一個圖資料庫驅動的，這個資料庫叫作 Graphd——一個圖守護程序（現在已經發布在 GitHub 上：https://github.com/google/graphd）。

Graphd 有一些非常典型的屬性。和守護程序一樣，它運行在單台伺服器上，所有數據都保存在內存中。Freebase 網站讓 Graphd 不堪重負，在被收購之後，谷歌面臨的一個挑戰是如何繼續運營 Freebase。

谷歌在商用硬體和分散式軟體領域建立了一個帝國。單台伺服器資料庫永遠無法支撐與搜索相關的爬取、索引和服務工作負載。谷歌先是推出了 SSTable，然後是 Bigtable，可以橫向擴展到數百甚至數千台機器，為數 PB 數據提供處理能力。他們使用 Borg（K8s 的前身）來配置機器，使用 Stubby（gRPC 的前身）進行通信，通過 Borg 名稱服務解析 IP 地址（BNS，已集成到 K8s 中），並將數據存儲在谷歌文件系統（GFS）上。進程可能會死亡，機器可能會崩潰，但系統會一直運轉。

Graphd 當時就處在這樣的環境中。使用單個資料庫為運行在單台伺服器上的網站提供服務，這種想法與谷歌（包括我自己）的風格格格不入。特別是，Graphd 需要 64GB 或更多的內存才能運行。如果你認為這樣的內存要求很搞笑，那麼請注意，那是在 2010 年。當時大多數谷歌伺服器的最大內存為 32GB，所以谷歌必須購買配備足夠多內存的特殊機器來支持 Graphd。

替換 Graphd

有關替換或重寫 Graphd 並讓它支持分散式的想法開始冒了出來，但這對於圖資料庫來說是一件非常困難的事情。它們不像鍵值資料庫那樣，可以將一大塊數據移動到另一台伺服器上，在查詢時提供鍵就可以了。圖資料庫承諾的是高效的連接和遍歷，需要以特定的方式來實現。

其中的一個想法是使用一個叫作 MindMeld（IIRC）的項目。這個項目承若通過網路硬體可以更快地訪問另一台伺服器內存。這應該比正常的 RPC 要快，快到足以偽複製內存資料庫所需的直接內存訪問。但這個想法並沒有走得太遠。

另一個想法（實際上是一個項目）是構建一個真正的分散式圖服務系統，不僅可以取代 Graphd，還可以為將來的所有知識提供服務。它就是 Dgraph——一種分散式圖守護程序。

Dgraph 實驗室和開源項目 Dgraph 的命名就是從谷歌的這個項目開始的。

當我在本文中提到 Dgraph 時，指的是谷歌的內部項目，而不是我們後來構建的開源項目。

Cerebro 的故事：一個知識引擎

雖然我知道 Dgraph 的目標是要取代 Graphd，但我的目標卻是做出一些東西來改進 Web 搜索。我在 Metaweb 找到了一位研究工程師 DH，Cubed（https://blog.dgraph.io/refs/freebase-cubed.pdf）就是他開發的。

谷歌紐約辦公室的一些工程師開發了 Squared（https://en.wikipedia.org/wiki/Google_Squared）。DH 則更進一步，開發了 Cubed。雖然 Squared 沒有什麼用，但 Cubed 卻令人印象深刻。我開始想如何也在谷歌開發一個這樣的東西，畢竟谷歌已經有一些現成的東西可以利用。

首先是一個搜索項目，它提供了一種方法，可用於高度準確地分辨哪些單詞應該合在一起。例如，對於 [tom hanks movies] 這樣的短語，它會告訴你 [tom] 和 [hanks] 應該合在一起。同樣，在 [san francisco weather] 這個短語中，[san] 和 [francisco] 應該合在一起。對於人類而言，這些都是顯而易見的事情，但對機器來說可不是這麼回事。

第二個是理解語法。在查詢 [books by french authors] 時，機器可以將其解釋成由 [french authors] 所寫的 [books]（即法國作家所著的書籍）。但它也可以被解釋成 [authors] 所寫的 [french books]（即作家所著的法語書籍）。我使用了斯坦福的詞性（POS）標記器來更好地理解語法，並構建了語法樹。

第三個是理解實體。[french] 可以指很多東西，它可以是指國家（地區）、國籍（法國人）、菜肴（指食物）或語言。我使用了另一個項目來獲取單詞或短語所對應的實體列表。

第四個是理解實體之間的關係。現在我已經知道如何將單詞關聯成短語、短語的執行順序，即語法，以及它們對應的實體，我還需要一種方法來找到這些實體之間的關係，以便創建機器解釋。例如，對於查詢 [books by french authors]，POS 會告訴我們，它指的是 [french authors] 所著的 [books]。我們有一些 [french] 的實體和 [authors] 的實體，演算法需要確定如何連接它們。它們可以通過出生地連接在一起，即出生在法國的作家（但可能使用英文寫作），或者是法國藉的作家，或者說法語或使用法語寫作（但可能與法國無關）的作家，或者只是喜歡法國美食的作家。