如何找出任何一個區域合適的商業屬性是一個看起來挺簡單,實際上挺有挑戰的一個事。

所謂的「合適的商業屬性」,是想用一個或者幾個簡單的詞,來最貼切的描述一塊區域的特點,比如北京王府井大致等於購物+外地旅遊+步行街,又有常常被認為是中國矽谷的中關村,也可以用科技企業+高等教育來簡單概括。這些地塊區域,既可能是一個城市商圈,也可能是一個購物商場,一條普通街道,很可能沒有一個邊界來劃定它們,那就更沒有既定的指標來評價,或者描述它們。

想要找到一塊地的貼切描述,靠人的經驗來推斷肯定是不客觀也難以完成的。好在尚有一些規律可循,無論是王府井的購物,旅遊,還是中關村的科技企業,高教,這些地域標籤都可以從歸納這片區域的poi的類型和數量得到。那麼需要我們做的就是找辦法從全部的poi信息中提取出最合適標籤。但是單純的統計各類poi的數量過於簡單粗暴,能包含的內容很少。

自然語言處理技術能不能幫我們回答這個問題呢?作為人工智慧兩大研究熱點之一,自然語言處理技術和圖像處理一樣,得益於機器學習的迅猛發展,已經可以解決相當多的和語言相關的問題。從自然語言處理技術中尋找方法解決我們的問題,看起來是個不錯的思路。

經常閱讀資訊類app或者網站的人可能會注意到,文章常常伴隨著幾個精簡的詞作為標籤貼在文章後面,方便大家閱讀相似類型的文章。可想而知的是,文章肯定不是被簡單歸類到某一類的類型之中,而是存在著一對多(一篇文章多的標籤)的關係。這樣的情形就和我們遇到的問題十分相似了。如果文章可以從詞語中提取出標籤,那麼區域也就能從poi裏找到答案,這項用於文章標籤/文章主題的文本分析技術就是主題模型(topic model)。

主題模型關注的問題是,從相當多的文章中學習訓練,提煉出合適的主題表示/標籤(辭彙分佈),用提煉到的標籤標記新見到的文章。我們將一塊區域當做是人們一起寫成的一篇關於地理特徵的「文章」,這片文章的辭彙就是各種有品牌名稱的poi,把各個區域組合一遍,就得到很多篇可以用來當做主題模型訓練數據的素材,應用主題模型自然而然也就提煉出我們需要的地理屬性標籤了。

分析過程一點也不複雜,這樣的好處是讓我們獲取的標籤更具有可解釋性,不像其他一些機器學習模型難以應對客戶追根究底的詰問。但是,面對這樣的問題並不是人人都有能力去解決,因為問題的難點落在了數據的準確性,只有讓眾多的品牌對應到正確的品牌名稱下,分析的種種條件才能得到滿足,要得到這些規整好品牌的數據,談何容易,極海在數據準確性上下了很大功夫才滿足這樣的分析要求(生產了包含數萬個品牌的poi資料庫)。關於給區域貼上合適的屬性標籤,自然語言處理技術中還有其他方法可以利用,比如詞向量,好好地利用機器學習的研究工作能帶給我們更多好成果。

文/Qing

對我們感興趣?GeoHey最近在招募對大數據感興趣的專業人才,實習和正職都想兼得,詳情請戳GeoHey-招賢納士~
  • 訪問Blog,查看極海最新分享:http://blog.geohey.com/
  • 關注微博:極海GeoHey
  • 關注知乎:極海GeoHey
  • 關注微信:極海縱橫
  • 聯繫&合作郵箱:[email protected]

推薦閱讀:

相關文章