如題歡迎討論


很巧,剛參加了下半年中科院舉辦的假新聞識別大賽,算是有點心得體會吧。主流方法肯定是用機器學習演算法處理,但是這對數據要求其實蠻高的。最後頒獎典禮上嘉賓也深入討論了一些問題,比如虛假新聞到底如何定義?客觀發生的事件是真的,那斷章取義之後的新聞算真還是假?對事件的(片面)評論算真還是假?現場有新聞從業者回答說主要基於一些規則判斷,我聽下來感覺分辨的界限也比較模糊,所以這個問題其實沒有那麼理想,對於開放數據沒那麼有效。一個直接的原因,文本處理主要是對宏觀語意的理解,我稍改動細節能明顯把新聞變成假的,但模型且無法分辨。例如,「某廠離職員工被拘留251天」是真新聞,我們能很容易知道「某廠離職員工被拘2510天/3650天/20年/50年」是假新聞,但模型對於數字沒那麼敏感,它認為前者和後者語意差不多,同時,很多對於事件不了解的人也分不清數字的真假,這也是假新聞難以區別的原因。另外,現在對抗生成技術的發展,也是使得造假能力提升,更難以區別。

當然現在也有很多研究者在努力解決,我的觀點是,演算法很難徹底解決這個問題,最終決定魔高還是道高的是成本而非演算法。


這個問題分為兩部分,一個是假新聞的問題,一個是能不能的問題。

首先來說能不能的問題,答案是能。但是,不要把ML、大數據當做全知全能的機器,帶入先驗去定義和解決問題。這個問題看上去和垃圾郵件識別如出一轍。但這裡不能用TF-IDF去依靠關鍵詞判斷這麼簡單的問題。

引用一位大佬的話就是說萬物皆可embedding。也許和常規的nlp一樣,就是在於以什麼作為數據,去判斷真偽的可能性。不過是基於個人觀察、案例和類比去設定的vector了。

然而其中有一個問題就是:弱AI是沒有正常水平的獨立思考能力的,要想識別真假,我想大多數人的角度都是基於已有的知識,結合新聞中的論點和論據進行邏輯思考。但這僅限於科學方面能證明的邏輯性問題。比如:人需要水,樹需要水,所以小明是棵樹。而現在連這點還做不到。現在的水平是基於數據的基礎之上,一件形似的事件通過某種潛在規律發生n次,在對其數據分布「統計」的情況下,其中k次為真,n-k次為假,從而預測下一件事類比該分布或微調該分布,得出來predict的True or False,你可以將信息的來源平台、有關鍵詞文章的AP、關鍵詞詞向量接近的value以及贊、評論等作為自變數。

比如 今日一科學家發現,距地球147.25光年外有一顆類地行星,呈正十二面體。

假設我們在分詞的基礎上,將每個部分都作為搜索條件去匹配相關內容,我們大致可以得到這幾個欄位:距地球147.25光年外有一顆類地行星、類地行星呈正十二面體。(我相信絕大多百科不會寫類地行星是什麼形狀的)

那麼我們提取的判斷對象就是:147.25光年外早就應該勘探過了,類地行星與地球的詞向量相似,根據百科也證明性質如此,那麼就變成地球呈正十二面體,顯然這個打分就不會高了。

這是一個相當理想的條件了。因為現階段閱讀理解要能有這麼強對話機器人也能落地了……


虛假新聞本身很難定義,連人本身都很難去判別,想通過機器學習或者深度學習就更難了


可以,解決的方法有很多,簡單點的像樸素貝葉斯,邏輯回歸,svm等等,如果有看深度學習,rnn,cnn都是可以解決的


如果是在社交媒體場景中,可以基於時間軸上的數據:評論轉發的內容以及其單位時間密度與趨勢、「大V」參與程度、圖像音視頻附帶媒體信息等角度去刻畫建模,是可以達到一定效果的。不過就像其它回答提到的,虛假新聞的定義很關鍵。


推薦閱讀:
相关文章