如題,題主看的很多文章關於aspect-level或者target-dependent這種fine-grained情感分析都是在固定的數據集上測試自己提出來的模型,訓練集跟測試集都是標註好了實體跟情感傾向,在實際應用過程中難道也需要在測試集中提取實體嗎?


對近兩年的情感分類技術不久前寫過一篇綜述論文。關於你這個問題,很好回答。

關於細粒度情感分析(fine-grained SA),每個人的提法可能不太一樣,比如在zhang vo下是 open domain SA。並且還可以細分,根據我所調研過的文章,fine-grained SA 包括這些個類型:entity-oriented、aspect-oriented、topic-oriented,不過大同小異,都是在更細粒度的target上做情感分類。

你的puzzle是fine-grained SA的建模問題( task modeling),關於task modeling of fine-grained SA, 就兩種方式:

a. joint model。就是我把 fine-grained SA任務視為序列標註問題,我的模型同時能將所有的targets以及sentiment polarities towards the correspoding targets通過合理的標註集設計,由序列標註模型一步產生。非常類似實體事件的聯合抽取任務。

b. pipeline。就是,第一步先去抽取出所有的target,至於具體採用了什麼抽取手段我不需要管,反正在第一步我先講語料中的target全部確定好了。第二步,我將標記好了target的訓練語料來訓練我的情感分類模型(注意現此步為情感分類sentiment classification),最後inference samples with unknown sentiment orientation。當然即便是sentiment classification,也是大部分人採用了序列相關模型, e.g., RNN related,CRF advanced ……

現在近幾年的文章(絕大部分),都是屬於後者,也就是純粹的情感分類任務。只有小部分採用的聯合抽取模型。

所以你的問題:為什麼你看到的在論文上都是「在固定的數據集上測試自己提出來的模型,訓練集跟測試集都是標註好了實體跟情感傾向」。這是因為你看過的文章全都是屬於第二種建模方式。

另外,關於細粒度情感分析「在實際應用」,是這樣的一個場景(或過程):

a. 抽取target信息(注意,在a. 粗粒度如document/sentence-level; b. joint model 中就不需要了這一步);

b. 情感分類;

c. make sentiment summarization for next use in real world applications. 情感分析實際應用中,我肯定是從海量語料中抽取很多很多的情感類別信息出來,最後我得通過分析,加工,進一步得出更有價值的內容來,供下一步使用(畢竟NLP也是現在很多數據處理系統的第一步的工作),比如說,我將大量的對某個target比如某個手機電池的情感,做一個情感極性的統計,最後得出在1w個用戶中80%都是對其滿意的。就這樣。

可以參考12年Liu Bing的Sentiment Analysis and Opinion Minig。


你為什麼覺得我會懂你提的問題,我都看不懂你說了些什麼


SemEval-2017 Task 5?

alt.qcri.org

這個shared task算是一個,出給學生當作業了。我不做sentiment analysis,所知也很有限。


推薦閱讀:
查看原文 >>
相关文章