進行自然語言處理時，使用字向量好，還是詞向量好？

最近在做lstm搭配詞向量的實驗，發現詞向量比字向量效果好很多。我的想法如下：詞的話，不同字可以組成很多詞，訓練出來的詞向量含有的語義信息應該較多，而字向量因為字的個數遠遠不如詞多，訓練出的字向量語義不如詞向量多。不知道是不是這樣

詞的表達能力比字要強，在樣本足夠多的情況下，用詞向量的效果一般要好，如果樣本量較小，用字向量反而效果會更好。

複雜語義場景下，推薦考慮word2concept概念向量

詞，是用來指稱實物的，它和意義密不可分，每個詞都賦有特定的意義。所謂意義，實質上乃是帶有特定感情色彩或風格特徵以至觀念傾向的概念。^[1]而隨著時代發展與文化交融等，越來越多的詞被賦予了新的意義，越來越多的詞擁有了不止一個概念。在認知智能時代，利用人工智慧技術為行業賦能開展應用時，對於語義理解的精準度有非常高的要求。

Ontology是共享概念模型的明確的形式化規範說明(1998, Studer)，其定義了概念及概念和概念之間的關係，使得人與人之間、人與計算機之間能基於共享的概念進行語言交流。自2007年以來，極天信息便堅持潛心研究語義網（Ontology）與知識圖譜（Knowledge）的構建和應用，成功推出通用知識圖譜SemNet，並形成了「軟體+方法+模型」的三位一體知識圖譜服務體系。

而知識圖譜構建的基礎工具之一就是W2C。利用W2C概念發現工具，可以快速發現新概念，以及相似概念之間的相關度，從而發現概念與概念之間的關係，最終輔助構建領域知識圖譜。比如「賓士」一詞，通過W2C進行概念識別，可以發現作為公司品牌出現的概率達80%，作為動詞出現的概率則僅為20%；在公司品牌這一概念中，其與「寶馬」的相關度又是最高的，有助於梳理出各個概念之間的關係。這對於新領域的自然語言處理任務來說，將會帶來十分可觀的效果。