作者:黃天元,復旦大學博士在讀,熱愛數據科學與R,熱衷推廣R在工業界與學術界的應用。郵箱:[email protected].歡迎合作交流
前文參考:
HopeR:R語言自然語言處理:中文分詞
HopeR:R語言自然語言處理:詞性標註與命名實體識別
HopeR:R語言自然語言處理:關鍵詞提取(TF-IDF)
HopeR:R語言自然語言處理:關鍵詞提取與文本摘要(TextRank)
HopeR:R語言自然語言處理:詞嵌入(Word Embedding)
情感分析,就是根據一段文本,分析其表達情感的技術。比較簡單的情感分析,能夠辨別文本內容是積極的還是消極的(褒義/貶義);比較複雜的情感分析,能夠知道這些文字是否流露出恐懼、生氣、狂喜等細緻入微的情感。此外,情感的二元特性還可以表達為是否含有較大的感情波動。也就是說,狂喜和暴怒都屬於感情波動,而寵辱不驚則屬於穩定的情感狀態。
情感分析方法主要分為兩種:1.詞法分析;2.機器學習。
其中,機器學習需要依賴於標註和特徵提取,這裡大有文章可做,但是很難提煉出共性,因此這裡不進行特殊的介紹。主要就是以人工標註的情感數值作為響應變數,然後另一方面對於文本進行向量化處理(詞嵌入),然後用模型進行擬合,最後得到一個好的模型對新的文本進行情感的評估。需要注意的是,對文本進行情感特徵的提取也是有文章可以做的,只要能夠正確認識哪些文本能夠提供情感信息,就能夠更好地捕捉文本的情感方向和程度。