大數據文摘出品

作者:周素雲


近期,HBO出品的臺劇《我們與惡的距離》熱播,在感慨劇情深度的同時,也引發了對於媒體行業生存現狀的反思。


《我們與惡的距離》劇照


一方面,人們希望媒體能夠堅持所謂“新聞理想”,另一方面,在信息爆炸訊息光速傳遞的今天,媒體人要堅守“客觀真實”的報道,實屬難得。


作爲一位媒體從業者,文摘菌對於女主角新聞臺副總監“宋喬安“印象深刻。


賈靜雯飾演宋喬安,演技炸裂


影片一開始,我們就目睹了一起搶熱點的假新聞事件。多家媒體同一時間播報了一條泰國發生爆炸的消息,令宋喬安和同事感到措手不及。這條消息沒有得到前方記者的證實,也缺乏官方認證,用媒體術語來說,就是不具有權威信源。但是,該爆炸性新聞自帶流量,若證實有中國遊客身亡,更會讓它成爲一條名副其實的爆款新聞。


競爭對手們爭相播報,宋喬安壓力頗大,儘管沒有拿到真的信源,依然硬着頭皮播了這條新聞,但最終,它被證實是一條假消息。


機器學習假新聞判別


宋喬安的尷尬處境也恰恰是當代媒體真實寫照。突發新熱點多,真假難以被證實。或許,我們可以在算法的幫助下,打破這一困境。


《我們與惡的距離》劇照


AI謠言粉碎機


今年愚人節當天,阿里宣佈了一項新技術被稱爲“AI謠言粉碎機”。這項技術的算法模型通過深度學習和神經網絡,設計了包括髮布信息、社交畫像、回覆者立場、回覆信息、傳播路徑在內的判斷系統,將謠言識別和社交用戶觀點識別打通,最快1秒內判定結果。在特定場景中的準確率可達到81%。


阿里希望幫助社交平臺和新聞網站在假新聞尚未造成大面積傷害時就快速識別出來,遏制其傳播。在信息被證實爲謠言後,AI還可通過虛假信息的傳播路徑,定向給閱讀過此信息的用戶進行闢謠。


SemEval語義測試大賽中,根據主辦方提供的過去兩年社交媒體Twitter和Reddit上的近500個真實言論和1萬多條相關反饋數據,阿里巴巴的人工智能技術對假新聞識別的準確率創造了新的紀錄。達摩院語言技術實驗室首席科學家司羅表示,“AI謠言粉碎機”未來有望幫助社交媒體的審覈機構承擔60%的工作量。


Breaking Data


英國有一家體育媒體GiveMeSport,是一個主要基Faceboook發佈體育相關的新聞,最後被人工智能公司Breaking Data 收購,目前在新聞頻道的兩個終端應用了AI技術,可以分析和反應片段及重大新聞報道。



Breaking Data運用自然語言處理技術掃描Twitter,通過相關推文篩選預定關鍵詞,如運動隊、球員姓名、球隊名稱、俱樂部、聯賽或運動場。經過篩選和驗證關鍵詞,將其分爲“重大事件”,“相關新聞”或“大幕新聞”等類別; 並在BreakingSports Slack頻道中作爲警報發送給記者。GiveMeSport正在使用Breaking Data的技術將其他公開可用的數據源(如Facebook,Reddit和Wikipedia)整合在一起。


這個平臺通過識別可靠的信息來源來判斷推文是否可靠,例如,歐冠中當巴薩以3:0戰勝利物浦時,人工智能平臺可以跟蹤Twitter上的內容何時首次出現,並將該帳戶標記爲可靠的權限。


用AI打假AI合成圖片


除了假新聞,AI合成的視頻和照片也越來越多,利用算法實現AI換臉技術已經很成熟。針對此種情況,成立於2017年的舊金山初創企業人工智能基金會(AI Foundation),他們正在開發的Reality Defender將幫助人們識別由人工智能算法生成的內容,以檢測潛在的虛假媒體。


與病毒防護類似,他們的工具掃描每一幅圖像、視頻和其他媒體,尋找已知的假象,允許你報告可疑的假新聞,並使用各種人工智能驅動的分析技術,以檢測變化或人爲生成的跡象。


虛假、合成的照片和視頻在網絡的傳播,也會造成品牌和個人造成不可挽回的名譽損毀。但試圖監管全球媒體數據將是一項艱鉅的任務,使用AI技術任何人都可以炮製出數百萬張看起來逼真的假照片。鑑於虛假圖像和視頻的改善速度之快,或許驗證“什麼是真實的”的商業模式可能更有效,也許媒體和個人很快應該擁有自己的數字指紋,可AI合成的底線又在哪?


假新聞訓練模型及數據集


在某種程度上假新聞的是一個微觀領域問題,它和謠言分類、事實判斷、標題黨檢測、垃圾內容挖掘等都比較類似,在宏觀上說都屬於內容質量的領域,所以很多方法其實是通用的框架。騰訊科技高級研究員孫子荀將假消息辨別模型分爲兩類:


  • 基於內容的建模;

  • 基於社交網絡的模型。


後者可以通過對虛假新聞的傳播遊走軌跡跟蹤,以及通過圖模型和演化模型中針對特定假新聞的進一步調查;其次,識別虛假新聞的關鍵傳播者,對於減輕社交媒體的傳播範圍至關重要。



在2017年,Kai Shu等人的論文中將假新聞的研究主要分爲三個方向:


數據方面的研究:目前還沒有標準的測評數據集,需要去建立的。可以通過傳播特性提前檢測假新聞。


模型特徵方面的研究:通過使用用戶的畫像特徵,內容特徵(NLP、CV)結合深度學習,還有傳播網絡特徵,比如用戶和內容之間的關係構造出來的網絡特徵,網絡本身的embedding表現。


模型方面的研究:這方面的工作可分爲特徵之間的組合、預測目標的變化、對內容源、內容反饋和文章風格的限制,組合這些模型,也可通過空間變換,把特徵變換到另外的latent語義空間嘗試解決。


鑑定假新聞是一件任重而道遠的事,對假新聞機器學習模型感興趣的同學也可以通過以下開放的數據集進行嘗試。


1. FakeNewsNet

BuzzFeed和PolitiFact兩個平臺的數據集,包括新聞內容本身(作者,標題,正文,圖片視頻)和社交上下文內容(用戶畫像,收聽,關注等)。


數據集獲取方式:

https://github.com/KaiDMML/FakeNewsNet


2.LIAR

該數據集也是來自PolitiFact,包括內容本身和內容的基礎屬性數據,比如來源,正文等。


數據集獲取方式:

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip


3. Twitter and Weibo DataSet

一個比較全的數據集包括帖子ID,發帖用戶ID,正文,回覆等數據。


數據集獲取方式:

http://alt.qcri.org/~wgao/data/rumdect.zip


4. Twitter15 Twitter16

來自 Twitter 15、16 年的帖子,包括了帖子之間的樹狀收聽,關注關係和帖子正文等。


數據集獲取方式:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0


5. Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的選舉假新聞,以及作者收集的 75個新聞故事。包括假新聞,真新聞和諷刺新聞。


數據集獲取方式:

https://github.com/rpitrust/fakenewsdata1


相關鏈接:

http://www.sohu.com/a/311856780_99928473?sec=wd

https://zhuanlan.zhihu.com/p/57124028



實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一羣遍佈全球最優秀的人一起成長。座標北京·清華東門,在大數據文摘主頁對話頁回覆“招聘”瞭解詳情。簡歷請直接發送至[email protected]


點「在看」的人都變好看了哦
相关文章