最近在做lstm搭配詞向量的實驗,發現詞向量比字向量效果好很多。我的想法如下:詞的話,不同字可以組成很多詞,訓練出來的詞向量含有的語義信息應該較多,而字向量因為字的個數遠遠不如詞多,訓練出的字向量語義不如詞向量多。不知道是不是這樣


詞的表達能力比字要強,在樣本足夠多的情況下,用詞向量的效果一般要好,如果樣本量較小,用字向量反而效果會更好。

複雜語義場景下,推薦考慮word2concept概念向量

詞,是用來指稱實物的,它和意義密不可分,每個詞都賦有特定的意義。所謂意義,實質上乃是帶有特定感情色彩或風格特徵以至觀念傾向的概念。[1]而隨著時代發展與文化交融等,越來越多的詞被賦予了新的意義,越來越多的詞擁有了不止一個概念。在認知智能時代,利用人工智慧技術為行業賦能開展應用時,對於語義理解的精準度有非常高的要求。

Ontology是共享概念模型的明確的形式化規範說明(1998, Studer),其定義了概念及概念和概念之間的關係,使得人與人之間、人與計算機之間能基於共享的概念進行語言交流。自2007年以來,極天信息便堅持潛心研究語義網(Ontology)與知識圖譜(Knowledge)的構建和應用,成功推出通用知識圖譜SemNet,並形成了「軟體+方法+模型」的三位一體知識圖譜服務體系。

而知識圖譜構建的基礎工具之一就是W2C。利用W2C概念發現工具,可以快速發現新概念,以及相似概念之間的相關度,從而發現概念與概念之間的關係,最終輔助構建領域知識圖譜。比如「賓士」一詞,通過W2C進行概念識別,可以發現作為公司品牌出現的概率達80%,作為動詞出現的概率則僅為20%;在公司品牌這一概念中,其與「寶馬」的相關度又是最高的,有助於梳理出各個概念之間的關係。這對於新領域的自然語言處理任務來說,將會帶來十分可觀的效果。

極天信息W2C概念發現

W2C概念發現工具尤其適合處理複雜語義環境下的自然語言處理任務,使用也更加方便與高效。極天信息將開放W2C工具給業界使用,歡迎持續關注。

參考

  1. ^揭春雨.「信息處理用現代漢語分詞規範」的若干問題探討[J].中文信息學報,1989(04):33-41.


看看這個論文:

Is Word Segmentation Necessary for Deep Learning of Chinese Representations?


嗯 詞的空間大 刻畫比字細緻

請問您這個得到字向量之後,句子輸入lstm前需要去停用詞嗎?比如說是用「我 愛 我 的 祖 國」輸入lstm層,還是「我 愛 我 祖 國」,把「的」字當做停用詞去掉


在其他數據集上驗證了嗎?我之前跑過一個實驗,感覺字級別的反而相對更優。

請問如何獲取中文字向量的


推薦閱讀:
相关文章