大數據工程師的日常工作內容是幹嘛？

現在在做Java開發，利用下班時間在自學大數據。想了解下大數據工程師的日常工作內容，好有所針對的學。目前Hadooop權威指南看了四遍，hive權威指南看了三遍了，內容好多，怕走彎路，希望在做大數據的工程師們給點信息

剛入職一家創業公司做大數據開發~趁之前緊張準備面試還有點餘熱不請自來怒答一波~

大數據工程師工作內容取決於你工作在數據流的哪一個環節。

從數據上游到數據下游，大致可以分為：

數據採集 -&> 數據清洗 -&> 數據存儲 -&> 數據分析統計 -&> 數據可視化 等幾個方面

工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現上面幾個方面的功能。

具體說說吧，

數據採集：

業務系統的埋點代碼時刻會產生一些分散的原始日誌，可以用Flume監控接收這些分散的日誌，實現分散日誌的聚合，即採集。

數據清洗：

原始的日誌，數據是千奇百怪的

一些欄位可能會有異常取值，即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據，需要對這些記錄進行過濾或者欄位數據回填。
一些日誌的欄位信息可能是多餘的，下游不需要使用到這些欄位做分析，同時也為了節省存儲開銷，需要刪除這些多餘的欄位信息。
一些日誌的欄位信息可能包含用戶敏感信息，需要做脫敏處理。如用戶姓名只保留姓，名字用*字元替換。

數據存儲：

清洗後的數據可以落地入到數據倉庫(Hive)，供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高，則可以把日誌記錄入到kafka。

數據分析統計：

數據分析是數據流的下游，消費來自上游的數據。其實就是從日誌記錄裡頭統計出各種各樣的報表數據，簡單的報表統計可以用sql在kylin或者hive統計，複雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數據可視化：

用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據~

當然，大數據平台(如CDH、FusionInsight等)搭建與維護，也可能是大數據工程師工作內容的一部分喔~

上午：打卡，買早點，吃早點，看新聞，逛社區論壇灌水（不限於知乎、GitHub、維基等）

中午：吃中飯順便遛彎，睡午覺，發獃

下午：覺得工作量不飽和開始碼幾行代碼，順便翻幾頁論文，點餐

晚上：在公司吃晚飯，看心情加不加班

就醬：｝

是時候真正做一些工作了，hive SQL會寫了嗎？？？搭建數倉會了嗎？數據集成，數據

數據分析！

數據挖掘！

大數據開發！

演算法工程師！

看書不如看視頻。我這裡有幾套大數據的視頻教程，建議你看一下，就知道工作內容了！

如果需要，就關注【業餘草】公眾號，我發給你！或者加我好友私信我！

大數據工程師的日常工作內容是幹嘛？

热门新闻

周热门

大數據工程師的日常工作內容是幹嘛？

既然Python的庫能對大數據進行分析，那為何還要用Hadoop和Spark?

大數據怎麼就突然火了起來？

數據能證明一切嗎？

八斗學院的大數據到底怎麼樣，靠譜嗎？

Hadoop和Spark有什麼區別?

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

大數據是怎麼捉取你的信息的？

今年選擇大數據這個專業還嗎？行業前景還好嗎？

大數據的應用會對人的知識水平造成影響嗎？影響主要體現在哪些方面？這種影響會帶來人們之間的差距嗎？

數據可視化究竟是什麼意思？

如何收集疫情防控信息數據？

一個好的互聯網產品是不是在群里發布就會有很多人下載？

如何用python對一個大的txt文件進行逐行查重，並將查重過的數據存到一個新的txt文件中？

數據太大十幾萬用什麼工具好？

如何在本地搭建hadoop集群？

热门新闻

周热门