R語言自然語言處理：情感分析

作者：黃天元，復旦大學博士在讀，熱愛數據科學與R，熱衷推廣R在工業界與學術界的應用。郵箱：[email protected].歡迎合作交流

前文參考：

HopeR：R語言自然語言處理：中文分詞

HopeR：R語言自然語言處理：詞性標註與命名實體識別

HopeR：R語言自然語言處理：關鍵詞提取（TF-IDF）

HopeR：R語言自然語言處理：關鍵詞提取與文本摘要（TextRank）

HopeR：R語言自然語言處理：詞嵌入（Word Embedding）

情感分析，就是根據一段文本，分析其表達情感的技術。比較簡單的情感分析，能夠辨別文本內容是積極的還是消極的（褒義/貶義）；比較複雜的情感分析，能夠知道這些文字是否流露出恐懼、生氣、狂喜等細緻入微的情感。此外，情感的二元特性還可以表達為是否含有較大的感情波動。也就是說，狂喜和暴怒都屬於感情波動，而寵辱不驚則屬於穩定的情感狀態。

情感分析方法主要分為兩種：1.詞法分析；2.機器學習。

其中，機器學習需要依賴於標註和特徵提取，這裡大有文章可做，但是很難提煉出共性，因此這裡不進行特殊的介紹。主要就是以人工標註的情感數值作為響應變數，然後另一方面對於文本進行向量化處理（詞嵌入），然後用模型進行擬合，最後得到一個好的模型對新的文本進行情感的評估。需要注意的是，對文本進行情感特徵的提取也是有文章可以做的，只要能夠正確認識哪些文本能夠提供情感信息，就能夠更好地捕捉文本的情感方向和程度。