演算法能解決虛假新聞的問題嗎？

如題歡迎討論

很巧，剛參加了下半年中科院舉辦的假新聞識別大賽，算是有點心得體會吧。主流方法肯定是用機器學習演算法處理，但是這對數據要求其實蠻高的。最後頒獎典禮上嘉賓也深入討論了一些問題，比如虛假新聞到底如何定義？客觀發生的事件是真的，那斷章取義之後的新聞算真還是假？對事件的（片面）評論算真還是假？現場有新聞從業者回答說主要基於一些規則判斷，我聽下來感覺分辨的界限也比較模糊，所以這個問題其實沒有那麼理想，對於開放數據沒那麼有效。一個直接的原因，文本處理主要是對宏觀語意的理解，我稍改動細節能明顯把新聞變成假的，但模型且無法分辨。例如，「某廠離職員工被拘留251天」是真新聞，我們能很容易知道「某廠離職員工被拘2510天/3650天/20年/50年」是假新聞，但模型對於數字沒那麼敏感，它認為前者和後者語意差不多，同時，很多對於事件不了解的人也分不清數字的真假，這也是假新聞難以區別的原因。另外，現在對抗生成技術的發展，也是使得造假能力提升，更難以區別。

當然現在也有很多研究者在努力解決，我的觀點是，演算法很難徹底解決這個問題，最終決定魔高還是道高的是成本而非演算法。

這個問題分為兩部分，一個是假新聞的問題，一個是能不能的問題。

首先來說能不能的問題，答案是能。但是，不要把ML、大數據當做全知全能的機器，帶入先驗去定義和解決問題。這個問題看上去和垃圾郵件識別如出一轍。但這裡不能用TF-IDF去依靠關鍵詞判斷這麼簡單的問題。

引用一位大佬的話就是說萬物皆可embedding。也許和常規的nlp一樣，就是在於以什麼作為數據，去判斷真偽的可能性。不過是基於個人觀察、案例和類比去設定的vector了。

然而其中有一個問題就是：弱AI是沒有正常水平的獨立思考能力的，要想識別真假，我想大多數人的角度都是基於已有的知識，結合新聞中的論點和論據進行邏輯思考。但這僅限於科學方面能證明的邏輯性問題。比如：人需要水，樹需要水，所以小明是棵樹。而現在連這點還做不到。現在的水平是基於數據的基礎之上，一件形似的事件通過某種潛在規律發生n次，在對其數據分布「統計」的情況下，其中k次為真，n-k次為假，從而預測下一件事類比該分布或微調該分布，得出來predict的True or False，你可以將信息的來源平台、有關鍵詞文章的AP、關鍵詞詞向量接近的value以及贊、評論等作為自變數。

比如今日一科學家發現，距地球147.25光年外有一顆類地行星，呈正十二面體。

假設我們在分詞的基礎上，將每個部分都作為搜索條件去匹配相關內容，我們大致可以得到這幾個欄位：距地球147.25光年外有一顆類地行星、類地行星呈正十二面體。（我相信絕大多百科不會寫類地行星是什麼形狀的）

那麼我們提取的判斷對象就是：147.25光年外早就應該勘探過了，類地行星與地球的詞向量相似，根據百科也證明性質如此，那麼就變成地球呈正十二面體，顯然這個打分就不會高了。

這是一個相當理想的條件了。因為現階段閱讀理解要能有這麼強對話機器人也能落地了……

虛假新聞本身很難定義，連人本身都很難去判別，想通過機器學習或者深度學習就更難了

可以，解決的方法有很多，簡單點的像樸素貝葉斯，邏輯回歸，svm等等，如果有看深度學習，rnn,cnn都是可以解決的

如果是在社交媒體場景中，可以基於時間軸上的數據：評論轉發的內容以及其單位時間密度與趨勢、「大V」參與程度、圖像音視頻附帶媒體信息等角度去刻畫建模，是可以達到一定效果的。不過就像其它回答提到的，虛假新聞的定義很關鍵。