基於大數據的輿情分析系統架構 - 架構篇

前言

互聯網的飛速發展促進了很多新媒體的發展，不論是知名的大V，明星還是圍觀羣眾都可以通過手機在微博，朋友圈或者點評網站上發表狀態，分享自己的所見所想，使得「人人都有了麥克風」。不論是熱點新聞還是娛樂八卦，傳播速度遠超我們的想像。可以在短短數分鐘內，有數萬計轉發，數百萬的閱讀。如此海量的信息可以得到爆炸式的傳播，如何能夠實時的把握民情並作出對應的處理對很多企業來說都是至關重要的。大數據時代，除了媒體信息以外，商品在各類電商平臺的訂單量，用戶的購買評論也都對後續的消費者產生很大的影響。商家的產品設計者需要匯總統計和分析各類平臺的數據做為依據，決定後續的產品發展，公司的公關和市場部門也需要根據輿情作出相應的及時處理，而這一切也意味著傳統的輿情繫統升級成為大數據輿情採集和分析系統。

分析完輿情場景後，我們再來具體細化看下大數據輿情繫統，對我們的數據存儲和計算系統提出哪些需求：

海量原始數據的實時入庫：為了實現一整套輿情繫統，需要有上游原始輸出的採集，也就是爬蟲
系統。爬蟲需要採集各類門戶，自媒體的網頁內容。在抓取前需要去重，抓取後還需要分析提取，例如進行子網頁的抓取。
原始網頁數據的處理：不論是主流門戶還是自媒體的網頁信息，抓取後我們需要做一定的數據提取，把原始的網頁內容轉化為結構化數據，例如文章的標題，摘要等，如果是商品點評類消息也需要提取有效的點評。
結構化數據的輿情分析：當各類原始輸出變成結構化的數據後，我們需要有一個實時的計算產品把各類輸出做合理的分類，進一步對分類後的內容進行情感打標。根據業務的需求這裡可能會產生不同的輸出，例如品牌當下是否有熱點話題，輿情影響力分析，轉播路徑分析，參與用戶統計和畫像，輿論情感分析或者是否有重大預警。
輿情分析系統中間和結果數據的存儲，交互分析查詢：從網頁原始數據清洗到最終的輿情報表這中間會產生很多類型的數據。這些數據有的會提供給數據分析同學進行輿情分析系統的調優，有的數據會提供給業務部門根據輿情結果進行決策。這些查詢可能會很靈活，需要我們的存儲系統具備全文檢索，多欄位組合靈活的交互分析能力。
重大輿情事件的實時預警：對於輿情的結果除了正常的搜索和展示需求以外，當有重大事件出現我們需要能做到實時的預警。

我們計劃分兩篇介紹完整的輿情新架構，第一篇主要是提供架構設計，會先介紹時下主流的大數據計算架構，並分析一些優缺點，然後引入輿情大數據架構。第二篇會有完整的資料庫表設計和部分示例代碼。大家敬請期待。