如果掌握excelPython等工具,對於大數據知識是必要的嗎,不太了解Hadoop知識對數據分析行業的作用


謝邀,

如果您是初學者,並且想學習大數據hadoop,那麼我建議您從一些知乎上的知名博主了解一些大數據的學習路線;

如何進入大數據領域,學習路線是什麼??

www.zhihu.com圖標

在學習Hadoop之前,需要先了解sq|或者java, 梳理一下基礎知識;

Hadoop生態系統的基本組件是:

1、 HDFS (Hadoop分 布式文件系統)

2、 MapReduce

HDFS如何工作?

HDFS可以非常快速地將數據傳輸到MapReduce。HDFS與MapReduce緊密結合,因此HDFS中的數據被傳輸到MapReduce進行進一步處理。

HDFS接收數據時,會將信息分解為單獨的塊,然後將其分發到群集中的不同節點,以便它可以並行執行任務以更有效地工作。

此外,Hadoop分散式文件系統經過專門設計,具有很高的容錯能力。文件系統多次複製或複製每個數據(稱為複製因子),並將這些副本分發到各個節點,至少將一個副本放置在與其他節點不同的伺服器機架上。這樣做基本上是因為在任何情況下,如果一個節點崩潰時包含有價值的數據,那麼我們就可以從另一個以複製形式放置的特定數據中訪問該特定數據。

HDFS使用主/從體系結構。最初,每個Hadoop集群都由一個NameNode組成,該NameNode管理文件系統操作,並支持DataNodes來管理各個計算節點上的數據存儲。HDFS元素組合在一起以支持具有大數據集的應用程序。

MapReduce如何工作?

Apache Hadoop MapReduce是一個框架, 用於跨Hadoop集群並行處理大型數據集。數據分析使用兩個步驟:

  • 地圖處理
  • 減少流程

MapReduce中的頂層工作是一項工作。工作通常具有映射和縮小階段,儘管可以省略縮小階段。例如,考慮一個MapReduce作業,該作業計算在一組文檔中每個單詞的使用次數。映射階段對每個文檔中的單詞進行計數,然後歸約階段將每個文檔的數據聚合為整個整個集合中的單詞計數。

在映射階段,輸入數據分為多個輸入拆分,以供跨Hadoop集群並行運行的映射任務進行分析。默認情況下,MapReduce框架 從Hadoop分散式文件系統(HDFS) 獲取輸入數據。使用MarkL ogic Connector for Hadoop,可使框架從MarkL ogic Server實例獲取輸入數據。

精簡階段使用映射任務的結果作為一組並行精簡任務的輸入。reduce任務將數據合併為最終結果。默認情況下,MapReduce框架將結果存儲在HDFS中。使用MarkLogicConnector for Hadoop,可使框架將結果存儲在Markl ogic Server實例中。

參考學習:關於大數據的入門知識,知乎專欄也供你參考學習:

從頭學習大數據?

zhuanlan.zhihu.com圖標大數據從入門到深入?

zhuanlan.zhihu.com圖標

下面附一份大數據課程大綱也供你參考


謝邀 數據分析師對這個要求不是很多的,你可以去看下招聘JD ,一般數據分析師要求更多的是業務決策能力,你需要學習分析工具,例如SQL EXCLE PYTHON ,再就是把業務知識和數據報告 數據邏輯內容系統的結合實戰學習起來,具體這些怎麼學習需要看你的背景

hadoop一般大數據工程師、數據開發工程師、數據倉庫工程師是剛需的部分


看公司規模,和人員分工。一般來講,數據崗位分為數據分析工程師,數據挖掘工程師,數據開發工程師,數據運維工程師和演算法工程師。

一般崗位深度,從業務層逐漸往下。數據分析工程師除了要動數據本身價值,還要掌握一些數據挖掘方法,比如python里的常用類庫,numpy,pandas,包括一些簡單的分類、聚類等。

規模較大的企業,會把很多工具開發好,只需要在IDE上寫對應腳本就好,例如寫一些一般sql、jupyter上寫一些簡單腳本,簡單計算,順便圖形化等。但是小規模公司,角色劃分沒那麼清楚,可能就需要數據分析師不單單會寫一些簡單sql,用用excel。

hadoop里yarn、hdfs原理不用過多了解,但是基本的數據存儲格式,和數據拉取融合的方式要有了解。需要熟悉各種的OLAP,否則,一個數據分析師,基本的數據存儲位置和存儲格式都搞不清楚,很難和數據開發同學溝通。

最後一點,極多不壓身,自己掌握的東西足夠多,籌碼才會比較大。多學習,沒什麼壞處的


有hadoop平台的公司,一般也會提供Hive、Hue、zeppelin之類的工具給分析師,可以直接寫sql處理數據。hadoop目前最主要的是提供分散式存儲能力,主要是大數據工程師需要掌握,分析師感興趣的話,也可以了解下。


傳統的統計分析,是先有總體,再有數據,即必須先確定總體範圍和個體單位,再收集個體數據,分析總體。但對大數據來說,情況完全不同了,是先有數據,再有總體。從某種意義上說,大數據的產生系統多數是非總體式的,即無事先定義的目標總體,只有與各個時點相對應的事後總體,原因就在於個體是不確定的,是變化著的,是無法事先編製名錄庫的,這與傳統的總體與個體有很大的不同。更為複雜的是,事後個體的識別也很困難,因為同一個個體可能有多個不同的網路符號或稱謂,而不同網路系統的相同符號( 稱謂) 也未必就是同一個個體,而且還經常存在個體異位的情況( 即某一個體利用另一個體的符號完成某種行為) ,因此我們對於大數據往往是只見「數據」的外形而不見「個體」的真容。但對大數據的分析,仍然有一個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體的定義方式———儘管它們的內涵沒有變。與此對應,如果要從大資料庫中提取樣本數據,那麼樣本的定義方式也需要改變。當然,考慮到大數據的流動變化性,任何時點的總體都可以被理解為一個截面樣本。

儘管用於收集和分析數據的統計技術已相對成熟、自成體系,但其所能處理的數據量是有限的,面對不可同日而語的大數據、特別是其中大量的非結構化數據,恐怕單憑一己之力是難以勝任的,只能望「數」興嘆。首先遇到的問題就是計算能力問題,這就要求我們在不斷創新與發展統計技術的同時,還要緊緊依靠現代信息技術、特別是雲計算技術。雲計算技術主要包括虛擬化、分散式處理、雲終端、雲管理、雲安全等技術,或者說以編程模型、數據存儲、數據管理、虛擬化、雲計算平台管理等技術最為關鍵。藉助雲計算技術可以將網格計算、分散式計算、並行計算、效用計算、網路存儲、虛擬化、負載均衡等傳統計算機技術與現代網路技術融合起來,把多個計算實體整合成一個具有強大計算能力的系統,並藉助 SaaS、PaaS、IaaS、MSP 等商業模式把它分布到終端用戶手中。雲計算的核心理念就是不斷提高「雲」處理能力來減少用戶終端的處理負擔,使用戶終端簡化成一個單純的輸入輸出設備,並能按需享受強大的「雲」計算處理能力。可見,統計技術與雲計算技術的融合是一種優勢互補,只有這樣統計技術才能在大數據時代一展身手、有所作為,才能真正把統計思想在數據分析中得到體現,實現統計分析研究的目的。


數據分析是方法

hadoop是工具,用於解決海量數據的處理,數據未到達一定規模使用hadoop是不明智的

分析建模過程中多半使用的小量的匯總數據


需要,hadoop是大數據知識基礎


HADOOP分散式其實在分析師這個崗位上用的比較少,了解就可以了,因為現在分散式這塊大公司都有現成的工具用,連搭建都不需要,直接用就可以了,非常方便。


取決於工作中的數據規模。

如果要進行海量數據的處理是必須學習大數據相關知識的。


推薦閱讀:
相关文章