現在在做Java開發,利用下班時間在自學大數據。想了解下大數據工程師的日常工作內容,好有所針對的學。目前Hadooop權威指南看了四遍,hive權威指南看了三遍了,內容好多,怕走彎路,希望在做大數據的工程師們給點信息


剛入職一家創業公司做大數據開發~趁之前緊張準備面試還有點餘熱不請自來怒答一波~

大數據工程師工作內容取決於你工作在數據流的哪一個環節。

從數據上游到數據下游,大致可以分為:

數據採集 -&> 數據清洗 -&> 數據存儲 -&> 數據分析統計 -&> 數據可視化 等幾個方面

工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現上面幾個方面的功能。

具體說說吧,

數據採集

業務系統的埋點代碼時刻會產生一些分散的原始日誌,可以用Flume監控接收這些分散的日誌,實現分散日誌的聚合,即採集。

數據清洗

原始的日誌,數據是千奇百怪的

  1. 一些欄位可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者欄位數據回填。
  2. 一些日誌的欄位信息可能是多餘的,下游不需要使用到這些欄位做分析,同時也為了節省存儲開銷,需要刪除這些多餘的欄位信息。
  3. 一些日誌的欄位信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用*字元替換。

數據存儲

清洗後的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日誌記錄入到kafka。

數據分析統計

數據分析是數據流的下游,消費來自上游的數據。其實就是從日誌記錄裡頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,複雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數據可視化

用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據~

當然,大數據平台(如CDH、FusionInsight等)搭建與維護,也可能是大數據工程師工作內容的一部分喔~


上午:打卡,買早點,吃早點,看新聞,逛社區論壇灌水(不限於知乎、GitHub、維基等)

中午:吃中飯順便遛彎,睡午覺,發獃

下午:覺得工作量不飽和開始碼幾行代碼,順便翻幾頁論文,點餐

晚上:在公司吃晚飯,看心情加不加班

就醬 :}


是時候真正做一些工作了,hive SQL會寫了嗎???搭建數倉會了嗎?數據集成,數據


數據分析!

數據挖掘!

大數據開發!

演算法工程師!

看書不如看視頻。我這裡有幾套大數據的視頻教程,建議你看一下,就知道工作內容了!

如果需要,就關注【業餘草】公眾號,我發給你!或者加我好友私信我!


推薦閱讀:
相关文章