進行自然語言處理時,使用字向量好,還是詞向量好?
最近在做lstm搭配詞向量的實驗,發現詞向量比字向量效果好很多。我的想法如下:詞的話,不同字可以組成很多詞,訓練出來的詞向量含有的語義信息應該較多,而字向量因為字的個數遠遠不如詞多,訓練出的字向量語義不如詞向量多。不知道是不是這樣
詞的表達能力比字要強,在樣本足夠多的情況下,用詞向量的效果一般要好,如果樣本量較小,用字向量反而效果會更好。
複雜語義場景下,推薦考慮word2concept概念向量
詞,是用來指稱實物的,它和意義密不可分,每個詞都賦有特定的意義。所謂意義,實質上乃是帶有特定感情色彩或風格特徵以至觀念傾向的概念。[1]而隨著時代發展與文化交融等,越來越多的詞被賦予了新的意義,越來越多的詞擁有了不止一個概念。在認知智能時代,利用人工智慧技術為行業賦能開展應用時,對於語義理解的精準度有非常高的要求。
Ontology是共享概念模型的明確的形式化規範說明(1998, Studer),其定義了概念及概念和概念之間的關係,使得人與人之間、人與計算機之間能基於共享的概念進行語言交流。自2007年以來,極天信息便堅持潛心研究語義網(Ontology)與知識圖譜(Knowledge)的構建和應用,成功推出通用知識圖譜SemNet,並形成了「軟體+方法+模型」的三位一體知識圖譜服務體系。
而知識圖譜構建的基礎工具之一就是W2C。利用W2C概念發現工具,可以快速發現新概念,以及相似概念之間的相關度,從而發現概念與概念之間的關係,最終輔助構建領域知識圖譜。比如「賓士」一詞,通過W2C進行概念識別,可以發現作為公司品牌出現的概率達80%,作為動詞出現的概率則僅為20%;在公司品牌這一概念中,其與「寶馬」的相關度又是最高的,有助於梳理出各個概念之間的關係。這對於新領域的自然語言處理任務來說,將會帶來十分可觀的效果。