從自然語言處理到位置分析--給位置貼上商業標籤

如何找出任何一個區域合適的商業屬性是一個看起來挺簡單，實際上挺有挑戰的一個事。

所謂的「合適的商業屬性」，是想用一個或者幾個簡單的詞，來最貼切的描述一塊區域的特點，比如北京王府井大致等於購物+外地旅遊+步行街，又有常常被認為是中國矽谷的中關村，也可以用科技企業+高等教育來簡單概括。這些地塊區域，既可能是一個城市商圈，也可能是一個購物商場，一條普通街道，很可能沒有一個邊界來劃定它們，那就更沒有既定的指標來評價，或者描述它們。

想要找到一塊地的貼切描述，靠人的經驗來推斷肯定是不客觀也難以完成的。好在尚有一些規律可循，無論是王府井的購物，旅遊，還是中關村的科技企業，高教，這些地域標籤都可以從歸納這片區域的poi的類型和數量得到。那麼需要我們做的就是找辦法從全部的poi信息中提取出最合適標籤。但是單純的統計各類poi的數量過於簡單粗暴，能包含的內容很少。

自然語言處理技術能不能幫我們回答這個問題呢？作為人工智慧兩大研究熱點之一，自然語言處理技術和圖像處理一樣，得益於機器學習的迅猛發展，已經可以解決相當多的和語言相關的問題。從自然語言處理技術中尋找方法解決我們的問題，看起來是個不錯的思路。

經常閱讀資訊類app或者網站的人可能會注意到，文章常常伴隨著幾個精簡的詞作為標籤貼在文章後面，方便大家閱讀相似類型的文章。可想而知的是，文章肯定不是被簡單歸類到某一類的類型之中，而是存在著一對多（一篇文章多的標籤）的關係。這樣的情形就和我們遇到的問題十分相似了。如果文章可以從詞語中提取出標籤，那麼區域也就能從poi裏找到答案，這項用於文章標籤/文章主題的文本分析技術就是主題模型（topic model）。

主題模型關注的問題是，從相當多的文章中學習訓練，提煉出合適的主題表示/標籤（辭彙分佈），用提煉到的標籤標記新見到的文章。我們將一塊區域當做是人們一起寫成的一篇關於地理特徵的「文章」，這片文章的辭彙就是各種有品牌名稱的poi，把各個區域組合一遍，就得到很多篇可以用來當做主題模型訓練數據的素材，應用主題模型自然而然也就提煉出我們需要的地理屬性標籤了。

分析過程一點也不複雜，這樣的好處是讓我們獲取的標籤更具有可解釋性，不像其他一些機器學習模型難以應對客戶追根究底的詰問。但是，面對這樣的問題並不是人人都有能力去解決，因為問題的難點落在了數據的準確性，只有讓眾多的品牌對應到正確的品牌名稱下，分析的種種條件才能得到滿足，要得到這些規整好品牌的數據，談何容易，極海在數據準確性上下了很大功夫才滿足這樣的分析要求（生產了包含數萬個品牌的poi資料庫）。關於給區域貼上合適的屬性標籤，自然語言處理技術中還有其他方法可以利用，比如詞向量，好好地利用機器學習的研究工作能帶給我們更多好成果。

文/Qing

對我們感興趣?GeoHey最近在招募對大數據感興趣的專業人才，實習和正職都想兼得，詳情請戳GeoHey-招賢納士~