近日,和很多公司溝通交流的時候,都發現在輿情系統的準確度上被提了很多問題,也有很多撕逼的地方,於是我打算寫下這篇文章,說說自己的感受,歡迎同行指正。

首先,我認為輿情系統的準確度是個不太好標準化的定義,需要根據具體的需求來區分判斷。比如,準確度會分為客觀指標以及主觀感受兩個維度,下面就細分說明一下我的認知。

一,如果是監測企業或組織口碑的監測任務,客觀來說準確度指的是找出客戶關注的「點」(通常是定製關鍵詞)所發現的所有輿情文本中,情感為負面或符合客戶命中要求的文本。這裡會有幾個關鍵點,客觀標準來說,所有符合客戶定製的關鍵詞規則的文本需要檢索出來,假設某系統這部分準確率90%。其次,情感分析指數會有一個閾值,不管是客戶設置還是系統默認/自動設置的閾值,判斷為負面的文本是否正確,假設這裡準確率為80%。如果客戶需求並不是情感負面,而是特定條件,比如關鍵詞命中或者某個輿情類型命中,那麼準確率主要考驗檢索功能,假設這裡也是80%。那麼綜合準確率就是90%乘以80%=72%,可以看出,這個準確率就已經離大家心中認知的95%以上才認為是比較好的情況差很多了。而且這還只是客觀準確率,也就是類似實驗室方案的測試結果,並不代表真實使用的感受。

那麼真實使用系統的「用戶」,他們對準確率是怎麼感受的呢?客戶的感性認知中,對於輿情系統的準確率包含了多個維度。這裡需要著重提出幾個關鍵性問題,首先為了得到用戶預期的準確的數據,會有一些關鍵限制點。第1點,數據採集覆蓋維度是否夠廣,廣度決定了召回率,也就是解決某個老生常談的問題:

領導:「小王,你怎麼沒發現這個負面文章?我從百度上一搜就搜出來了」

小王:「冤枉啊,領導,你看著破系統,這條沒找出來」

領導:「嗯,這系統不好用,一點也不準」

第2點,關鍵詞規則設置是否合理有效,這點我在之前的文章中有提過,關鍵詞規則設置是個學問,而且還要結合具體系統以及輿情事件情況來設置,也有點嘗試和碰運氣的成分。但是如果設置不好,自然感性準確率就會差很多。

第3點,篩選和排序機制是否合理,如果關鍵詞規則設置已經合理,那麼系統會返回大量符合的數據,這個時候就像大海撈針,需要逐步縮小範圍。縮小範圍的目的是為了最終找出來符合客戶需求的數據,縮小的方法包括了使用情感分析引擎、更細緻的關鍵詞規則或其他分類模型的方法。綜合這3點得出的最後準確率才是客戶的感性準確率,而很多系統因為多種原因(例如客戶服務不夠導致關鍵詞規則設置不合理、客戶預期和理解沒解釋清楚導致數據覆蓋範圍沒有覆蓋到等),最終導致客戶就是覺得系統不好用、不準確。所以,一個輿情系統的篩選功能、排序邏輯、預警條件等功能是否合理,也很大程度上決定了最終的感受。

也就是說,實際上準確率和召回率本身是一起衡量的,最終客觀衡量指標一般會用F值。但是實際客戶感受或者系統對比的時候,感性認知會遠遠超過這種單純的比較方法。

二、如果是針對目標人物的監測任務,那麼準確率的維度就包含了數據覆蓋程度、人名識別準確率、人物描述識別能力(句法關係分析、詞性標註等)。一篇文章中定位是否是關於某人的主要文章的方法很多,主要需要看NLP分析中的幾個點,首先客戶設置了人物人名,所以實體提取中人名識別引擎準確率必須要高。人名正確提取後,可能這篇文章並不是主要說這個人的,所以句法分析和詞權重分析的過程體現了價值,首先分析出描述這個人的句法關係,找到描述詞,通常是形容詞。再有就是通過指代詞判斷是否後續的文本還在繼續描述這個人,並且判斷相關詞在全文中的權重值是否夠高。綜合判斷後才能得出,首先這篇文章是包含目標人物的,並且文章內容中很大一部分是描述此人的。之後才會根據客戶具體需求來判斷是否該文章是目標文章,比如是否情感為負面,尤其是要發現描述該人物的形容詞情感值,以及描述語句的觀點拆分後的情感值。

三、如果是針對某個輿情事件的監測任務,準確率的判斷維度也比較複雜,包含了關鍵詞設置、文章相似相關分析、數據覆蓋度等維度。這裡比較重要的是文章的相似相關分析,通常輿情事件發生後總會發現一篇以上的重點目標文章,如果關鍵詞設置是大海撈針,那麼撈出來的針就是某篇文章。也就是說,第一層客戶需求是找出所有該輿情事件的文章。如果某篇文章被發現並人工標註出是100%命中的客戶需求的話,客戶的第二層需求就是,找出所有相似或者相關的文章,需要從標題和內容兩重進行相似相關判斷。這個時候客戶感受仍然和PM設計的篩選功能以及排序邏輯有很大相關性,最終好的輿情系統一定是排序較高的文章就已經滿足了客戶的預期。

綜合以上三種輿情監測任務,我們可以看出,系統設計時的客觀準確率指標,並不能代表客戶的實際感受。而輿情PM一直在這些細節上不停地打磨,雖然輿情系統幾年來更新幅度不小,但是整體架構仍然沒有改變和突破,所以很多客戶並沒有感覺到PM和RD在隱藏在界面之後的細節做出來的改進。最終這些改變會通過量變達到質變,下一代的輿情系統的革新很難是破壞性的,更大可能性是漸進微創新式的。

我是極客兔子,一個輿情大數據老產品,以上是我的一些感受,歡迎拍磚。如聯繫我可以通過知乎私信。

推薦閱讀:

相关文章