知識圖譜與自然語言處理的故事

「你指尖躍動的代碼，是我此生不變的信仰，唯我NLP永世長存」

1. 從NLP和知識圖譜說起

本人的主要領域是知識圖譜的方向，但是自然語言處理是知識圖譜是繞不開的話題，一種普遍看法是知識圖譜是自然語言處理的基石，而知識圖譜靠自然語言處理的應用落地。

為什麼是這樣呢？我們可以從兩者的定義出發。

什麼是知識圖譜？

借鑒其中一個理解：起源於語義網路，主要的目標是用來描述真實世界中間存在的各種實體和概念，以及它們之間的關聯關係。

什麼是NLP？

也借鑒一個理解，機器接受用戶自然語言形式的輸入，並在內部通過人類所定義的演算法進行加工、計算等系列操作，以模擬人類對自然語言的理解，並返回用戶所期望的結果。

從上述描述中可以看到相近的幾個辭彙：「語義網路」、「自然語言」、「自然客觀世界」。所以NLP和知識圖譜是為了解決同一個目的：讓機器和人類有相同的思考理解能力，並且機器可以和人類進行擬人化的交互。

在實際應用中，知識圖譜和NLP的目的也是相同的，比如：智能問答、翻譯、推薦系統等。知識圖譜的構建離不開NLP技術對於自然語言的抽取、NLP的應用離不開知識圖譜的關聯方分析和推理能力。

所以在研究知識圖譜的過程中，自然語言處理是無法迴避的領域。

如果用搜索引擎搜索「蘋果和鎚子」，你猜會不會出現一個河神問你想搜索的是金蘋果還是金鎚子。如果你回答你想搜索的是鐵蘋果，你就能獲贈一個金鎚子手機。

你可以用任何一個搜索引擎去試驗，僅僅是搜索「蘋果和鎚子」這兩個完全沒有前後語境的詞語，搜索返回的結果會全部都是關於「蘋果手機」和「鎚子手機」。但是如果單獨搜索「蘋果」或者「鎚子」，如果不是網站記錄了搜索偏好，返回的結果里多少都會包含非手機的「蘋果」和「鎚子」。

出現這樣情況的原因，是搜索網站的知識圖譜里一定存在「手機」「蘋果」「鎚子」之間的關聯關係。所以機器能夠把三者之間建立聯繫並且返回結果。如果搜索的是一句話呢：「蘋果和鎚子哪個更好」。那麼機器可能首先要從這個句子中正確的提取出「蘋果」和「鎚子」兩次詞語了。而不是提取出「萍、果和、錘、子」。