一、文本特徵項的特點:

  1. 特徵項要能夠確實標示文本內容
  2. 特徵項具有將目標文本與其他文本相區分的能力。
  3. 特徵項的個數不能太多。
  4. 特徵項分離要比較容易實現。

特徵抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。

特徵抽取:通常根據某個特徵評估函數計算各個特徵的評分值,然後按評分值對這些特徵進行排序,選取若干個評分值最高的作為特徵。

特徵選取的方法有4種:

  1. 用映射或變換的方法把原始特徵變換為較少的新特徵。
  2. 從原始特徵中挑選出一些最具代表性的特徵。
  3. 根據專家的知識挑選最有影響的特徵。
  4. 用數學的方法進行選取,找出最具分類信息的特徵,尤其適合於文本自動分類挖掘系統的應用。

二、基於統計的特徵提取方法(構造評估函數)

1. 詞頻

詞頻是一個詞在文檔中出現的次數。通過詞頻進行特徵選擇就是將詞頻小於某一閉值或大於某一值的詞刪除,從而降低特徵空間的維數。這個方法是基於這樣一個假設,即出現頻率小的詞對過濾的影響也較小。出現頻率大的詞可能是無意義的普通詞。但是在信息檢索的研究中認為,有時頻率小的詞含有更多的信息。因此,在特徵選擇的過程中不宜簡單地根據詞頻大幅度刪詞。

2. 文檔頻次

文檔頻數(Document Frequency, DF)是最為簡單的一種特徵選擇演算法,它指的是在整個數據集中有多少個文本包含這個單詞。在訓練文本集中對每個特徵計算它的文檔頻次,並且根據預先設定的閾值去除那些文檔頻次特別低和特別高的特徵。文檔頻次通過在訓練文檔數量中計算線性近似複雜度來衡量巨大的文檔集,計算複雜度較低,能夠適用於任何語料,因此是特徵降維的常用方法。

在訓練文本集中對每個特徵計算它的文檔頻數,若該項的DF 值小於某個閾值則將其刪除,若其DF 值大於某個閾值也將其去掉。因為他們分別代表了「沒有代表性」和「沒有區分度」2 種極端的情況。DF 特徵選取使稀有詞要麼不含有用信息,要麼太少而不足以對分類產生影響,要麼是噪音,所以可以刪去。DF 的優點在於計算量很小,而在實際運用中卻有很好的效果。缺點是稀有詞可能在某一類文本中並不稀有,也可能包含著重要的判斷信息,簡單捨棄,可能影響分類器的精度。

文檔頻數最大的優勢就是速度快,它的時間複雜度和文本數量成線性關係,所以非常適合於超大規模文本數據集的特徵選擇。不僅如此,文檔頻數還非常地高效,在有監督的特徵選擇應用中當刪除90%單詞的時候其性能與信息增益和x2 統計的性能還不相上下。

3. TF-IDF

詞頻(TF)= 某個詞在文章中的出現次數 / 文章的總詞數

逆文檔頻率(IDF) = log(語料庫的文檔總數 / (包含該詞的文檔數+1))

TF-IDF = TF * IDF

TF-IDF可以有效評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。因為它綜合表徵了該詞在文檔中的重要程度和文檔區分度。但在文本分類中單純使用TF-IDF來判斷一個特徵是否有區分度是不夠的。

1)它沒有考慮特徵詞在類間的分布。也就是說該選擇的特徵應該在某類出現多,而其它類出現少,即考察各類的文檔頻率的差異。如果一個特徵詞,在各個類間分布比較均勻,這樣的詞對分類基本沒有貢獻;但是如果一個特徵詞比較集中的分布在某個類中,而在其它類中幾乎不出現,這樣的詞卻能夠很好代表這個類的特徵,而TF-IDF不能區分這兩種情況。

2)沒有考慮特徵詞在類內部文檔中的分布情況。在類內部的文檔中,如果特徵詞均勻分布在其中,則這個特徵詞能夠很好的代表這個類的特徵,如果只在幾篇文檔中出現,而在此類的其它文檔中不出現,顯然這樣的特徵詞不能夠代表這個類的特徵。

特徵提取的目的在於降維。即使隨機選取一部分詞,分類效果也不會差到驚人的地步。採用了TF-IDF方法的分類效果當然也能有不錯的效果。當然,TF-IDF用於向量空間模型,進行文檔相似度計算是相當有效的。

4. 互信息

互信息衡量的是某個詞和類別之間的統計獨立關係。互信息是計算語言學模型分析的常用方法,它度量兩個對象之間的相互性。在過濾問題中用於度量特徵對於主題的區分度。

使用互信息理論進行特徵抽取是基於如下假設:在某個特定類別出現頻率高,但在其他類別出現頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特徵詞和類別之問的測度,如果特徵詞屬於該類的話,它們的互信息量最大。由於該方法不需要對特徵詞和類別之問關係的性質作任何假設,因此非常適合於文本分類的特徵和類別的配准工作。

互信息計算的時間複雜度類似於信息增益, 互信息的平均值就是信息增益。互信息的不足之處在於得分非常受詞條邊緣概率的影響。

實驗數據顯示,互信息分類效果最差,其次是文檔頻率、CC 統計,CHI 統計分類效果最好。

5. 期望交叉熵

交叉嫡 ,也稱KL距離。它反映了文本主題類的概率分布和在出現了某特定辭彙的條件下文本主題類的概率分布之間的距離,辭彙w的交叉嫡越大,對文本主題類分布的影響也越大。它與信息增益唯一的不同之處在於沒有考慮單詞未發生的情況,只計算出現在文本中的特徵項。如果特徵項和類彆強相關, P ( Ci | w )就大,若P( Ci) 又很小的話,則說明該特徵對分類的影響大。

交叉熵反映了文本類別的概率分布和在出現了某個特定詞的條件下文本類別的概率分布之間的距離, 特徵詞t 的交叉熵越大, 對文本類別分布的影響也越大。熵的特徵選擇效果都要優於信息增益。

6. 二次信息熵

將二次熵函數應用於互信息評估方法中,取代互信息中的Shannon熵,就形成了基於二次熵的互信息評估函數。基於二次熵的互信息克服了互信息的隨機性,是一個確定的量,因此可以作為信息的整體測度,另外它還比互信息最大化的計算複雜度要小,所以可以比較高效地用在基於分類的特徵選取上。

7. 信息增益方法

信息增益方法是機器學習的常用方法,在過濾問題中用於度量已知一個特徵是否出現於某主題相關文本中對於該主題預測有多少信息。通過計算信息增益可以得到那些在正例樣本中出現頻率高而在反例樣本中出現頻率低的特徵,以及那些在反例樣本中出現頻率高而在正例樣本中出現頻率低的特徵。

信息熵

意思就是一個變數可能的變化越多(反而跟變數具體的取值沒有任何關係,只和值的種類多少以及發生概率有關),它攜帶的信息量就越大。

一個系統一個特徵t,系統有它和沒它的時候信息量各是多少,兩者的差值就是這個特徵給系統帶來的信息量,系統越是有序,信息熵就越低;反之,一個系統越亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的一個衡量。

信息增益(特徵的)是指期望信息或者信息熵的有效減少量。

對於一個特徵t,系統有它和沒它的時候信息量各是多少,兩者的差值就是這個特徵給系統帶來的信息量。有它即信息熵,無它則是條件熵。

條件熵:計算當一個特徵t不能變化時,系統的信息量是多少。

對於一個特徵X,它可能的取值有n多種(x1,x2,……,xn),計算每個值的條件熵,再取平均值。

在文本分類中,特徵詞t的取值只有t(代表t出現)和t(代表t不出現)。那麼

最後,信息增益為:

但信息增益最大的問題還在於它只能考察特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂「全局」的特徵選擇(指所有的類都使用相同的特徵集合),而無法做「本地」的特徵選擇(每個類別有自己的特徵集合,因為有的詞,對這個類別很有區分度,對另一個類別則無足輕重)。

信息增益特徵提取步驟:

1)統計正負分類的文檔數:N1、N2。

2)統計每個詞的正文檔出現頻率(A)、負文檔出現頻率(B)、正文檔不出現頻率)、負文檔不出現頻率。

3)計算信息熵

4)計算每個詞的信息增益

5)將每個詞按信息增益值從大到小排序,選取前k個詞作為特徵,k即特徵維數。

8. x2統計量方法

x2統計量用於度量特徵w和主題類C之間的獨立性。

當特徵w和主題類C之間完全獨立的時候,x2統計量為0。x2統計量和互信息的差別在於它是歸一化的統計量,但是它對低頻特徵的區分效果也不好。X2 統計得分的計算有二次複雜度, 相似於互信息和信息增益。在 X2 統計和互信息之間主要的不同在於 X2 是規格化評價, 因而 X2 評估分值對在同類中的詞是可比的, 但是 X2 統計對於低頻詞來說是不可靠的。

利用x2 統計方法來進行特徵抽取是基於如下假設:在指定類別文本中出現頻率高的詞條與在其他類別文本中出現頻率比較高的詞條,對判定文檔是否屬於該類別都是很有幫助的.

採用x2估計特徵選擇演算法的準確率在實驗中最高,其分類效果受訓練集影響較小,比較穩定。而且在對文教類和政治類存在類別交叉現象的文本進行分類時,採用x2估計的分類系統表現出了優於其它方法的分類性能。X2估計的可靠性較好,便於對程序的控制,無需因訓練集的改變而人為的調節特徵閥值的大小。

9. 文本證據權:權衡量類的概率和給定特徵時類的條件概率之間的差別。

10. 優勢率: 只適用於二分類。 只關心文本特徵對於目標類的分值。

11. 遺傳演算法

文本實際上可以看作是由眾多的特徵詞條構成的多維空間,而特徵向量的選擇就是多維空間中的尋優過程,因此在文本特徵提取研究中可以使用高效尋優演算法。遺傳演算法(Genetic Algorithm, GA)是一種通用型的優化搜索方法,它利用結構化的隨機信息交換技術組合群體中各個結構中最好的生存因素,複製出最佳代碼串,並使之一代一代地進化,最終獲得滿意的優化結果。在將文本特徵提取問題轉化為文本空間的尋優過程中,首先對Web文本空間進行遺傳編碼,以文本向量構成染色體,通過選擇、交叉、變異等遺傳操作,不斷搜索問題域空間,使其不斷得到進化,逐步得到Web文本的最優特徵向量。

12. 主成分分析:不是通過特徵選取的方式降維的,而是通過搜索最能代表原始數據的正交向量,創立一個替換的較小的變數集來組合屬性的精華,原數據可以投影到這個較小的集合。

主成分分析法是特徵選取常用的方法之一,它能夠揭示更多有關變數_豐要方向的信息。但它的問題在於矩陣方法中要使用奇異值分解對角化矩陣求解方差一協方差。

13. 模擬退火演算法:理論上能找到全局最優解

14. N-Gram演算法

它的基本思想是將文本內容按位元組流進行大小為N的滑動窗口操作,形成長度為N的位元組片段序列。每個位元組片段稱為gram,對全部gram的出現頻度進行統計,並按照事先設定的閾值進行過濾,形成關鍵gram列表,即為該文本的特徵向量空間,每一種gram則為特徵向量維度。

三、影響特徵詞權值的因素

1.詞頻:文本內空中的中頻詞往往具有代表性,高頻詞區分能力較小,而低頻詞或者示出現詞也常常可以做為關鍵特徵詞。所以詞頻是特徵提取中必須考慮的重要因素,並且在不同方法中有不同的應用公式。

2. 詞性: 考慮剔除對文本分類沒用的虛詞,可只提取文本中的名詞和動詞作為一級特徵。

3. 文檔頻次:出現文檔少的特徵詞更能代表文本的不同主題。

4. 標題:小標題的識別能力在一定程度上提高文摘的質量。

5.位置:提高處於特殊位置的權重

6. 句法結構:句式與句子的重要性之間存在著某種聯繫,比如摘要中的句子大多是陳述句,而疑問句、感嘆句等則不具內容代表性。而通常「總之」、「綜上所述」等一些概括性語義後的句子,包含了文本的中心內容。

7. 專業詞庫:通用詞庫包含了大量不會成為特徵項的常用辭彙,為了提高系統運行效率,系統根據挖掘目標建立專業的分詞表,這樣可以在保證特徵提取準確性的前提下,顯著提高系統的運行效率。可以通過人工確定領域內的關鍵詞集。

8. 信息熵

9. 文檔、詞語長度:一般情況下,詞的長度越短,其語義越泛。一般來說,中文中詞長較長的詞往往反映比較具體、下位的概念,而短的詞常常表示相對抽象、上位的概念。一般說來,短詞具有較高的頻率和更多的含義,是面向功能的;而長詞的頻率較低,是面向內容的,增加長詞的權重,有利於辭彙進行分割,從而更準確地反映出特徵詞在文章中的重要程度。

根據統計,二字辭彙多是常用詞,不適合作為關鍵詞,因此對實際得到的二字關鍵詞可以做出限制。比如,抽取5個關鍵詞,本文最多允許3個二字關鍵詞存在。這樣的後處理無疑會降低關鍵詞抽取的準確度和召回率,但是同候選詞長度項的運用一樣,人工評價效果將會提高。

10. 單詞的區分能力:在TF*IDF公式的基礎上,又擴展了一項單詞的類區分能力。新擴展的項用於描述單詞與各個類別之間的相關程度。

11. 詞語直徑:指詞語在文本中首次出現的位置和末次出現的位置之間的距離。

12. 首次出現位置: 關鍵詞一般在文本中較早出現,因此位置靠前的候選詞應加大權重。

13. 詞語分布偏差: 考慮的是詞語權重在文章中的統計分布。在整篇文章中分布均勻的詞語通常是重要的辭彙。詞語的分布偏差計算公式如下:其中,CurLoc ( tj )是辭彙t在文章中第j次出現的位置;MeanLoc ( t )是辭彙t在文章中出現的平均位置。

四、特徵提取一般步驟:

  1. 候選詞的確定
  • 分詞
  • 停用詞過濾
  • 記錄候選詞在文中的位置

2. 詞語權重計算

  • 詞語權值函數的構造
  • 關鍵詞抽取

候選詞的權值確定以後,將權值排序,取前n個詞作為最後的抽取結果

五、基於語義的特徵抽取方法

1.基於語境框架的文本特徵提取方法:將語義分析融入統計演算法,基本方法仍是「統計-抽取」

2.基於本體論的文本特徵提取方法:應用本體論(On-tology)模型可以有效地解決特定領域知識的描述問題。

3. 基於知網的概念特徵提取方法:基於概念特徵的特徵提取方法是在VSM的基礎上,對文本進行部分語義分析,利用知網獲取辭彙的語義信息,將語義相同的辭彙映射到同一概念,進行概念聚類,並將概念相同的詞合併成同一詞。

用聚類得到的詞作為文檔向量的特徵項,能夠比普通辭彙更加準確地表達文檔內容,減少特徵之間的相關性和同義現象。這樣可以有效降低文檔向量的維數,減少文檔處理計算量,提高特徵提取的精度和效率。

參考:

文本分類特徵選擇方法 - Class_guy的博客 - CSDN博客

文本特徵提取方法研究 - han____shuai的專欄 - CSDN博客


推薦閱讀:
相关文章