台湾 || 语言: 大陆简体港澳繁體台灣正體

基於卡方檢驗和信息增益的技能詞抽取

雪花台灣 2019-04-18 03:14

前言

當前nlp任務中關於信息抽取，主要集中在關鍵詞的抽取，一般基於TF-IDF的關鍵詞抽取、基於TextRank的關鍵詞抽取、基於Word2Vec詞聚類的關鍵詞抽取，以及多種演算法相融合的關鍵詞抽取等。這裡我們探討一個另一類nlp任務，技能詞抽取或者說領域詞抽取，很少有文章涉及相關並給出代碼。這裡我將結合這類nlp任務進行代碼實踐。這裡的實例將通過爬去的職位jd來抽取其中的技能詞。

方法

領域詞或者技能詞抽取常用的方法：互信息，文檔頻率，信息增益，卡方檢驗等。這裡重點介紹兩種方法：卡方檢驗和信息增益來提取特徵詞。

原理

卡方檢驗的數學原理：卡方越大，則特徵越重要。

按照卡方的定義，若隨機變數相互獨立，且隨機變數服從正態分布，則定義隨機變數 $Q=sum_{i=0}^{n}{x_i}$ ,其分布服從 $chi^{2}$ 分布。則當原假設(變數之間相互獨立)是正確的時候，卡方值越趨近於0，反之卡方越大，則拒絕原假設，變數相關。

由於實際當中數據的離散形式，原假設 $H_{0}$ 為真，可認為樣本落入某個區間的頻率與概率應很接近，這裡考慮皮爾遜檢驗統計量：

$chi^{2}=sum_{i=0}^{n}{frac{(f_{i}-np_{i})^{2}}{np_{i}}}$

和其他文章的實例類似，我們統計出如下的數據，現在來設定原假設：深度學習這個技能詞與職位jd自然語言處理工程師不相關。

E_{00}

相关文章