謝謝邀請!

大數據是一系列技術的統稱,經過多年的發展,大數據已經形成了從數據採集、整理、傳輸、存儲、安全、分析、呈現和應用等一系列環節,這些環節涉及到諸多大數據工作崗位,這些工作崗位與物聯網、雲計算也都有密切的聯繫。

大數據自身的崗位包括大數據平台研發、大數據應用開發、大數據分析、大數據運維等,不同的工作崗位有不同的任務要求。比如大數據平台研發主要從事大數據基礎性的開發任務,解決大數據分散式存儲和分散式計算機的系統級問題,另外還需要考慮並發、安全、事務等內容。

Hadoop本身就是大數據平台研發人員的工作成果,Hadoop是目前比較常見的大數據支撐性平台,Hadoop平台提供了分散式存儲(HDFS)、分散式計算(MapReduce)、任務調度(YARN)、對象存儲(Ozone)和組件支撐服務(Common)。

大數據開發人員可以通過Hadoop提供的系統級服務支持從而幫助企業完成大數據改造,對於開發人員來說,只需要關注於具體的服務實現就可以了,系統級功能已經由Hadoop提供了實現。所以,Hadoop是大數據開發人員的重要基礎。

隨著Hadoop的不斷發展,基於Hadoop的大數據生態越發完善,目前包括Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez、Zookeeper等組件陸續被開發出來,這些組件極大的豐富了Hadoop自身的應用。隨著組件的增多,Hadoop自身也越來越重,因此目前很多大數據工程師更願意使用Spark,因為Spark更輕,速度也更快一些(基於內存)。

由於Hadoop對硬體的要求並不高,所以很多初學者都是從Hadoop開始學習大數據的,目前很多商用大數據平台也是基於Hadoop的。

作者簡介:中國科學院大學計算機專業研究生導師,從事IT行業多年,研究方向包括動態軟體體系結構、大數據、人工智慧相關領域,有多年的一線研發經驗。

歡迎關注作者,歡迎諮詢計算機相關問題。


廣義上講 大數據是時代發展和技術進步的產物。Hadoop只是一種處理大數據的技術手段。

「大數據」概念在1980年由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶 在《第三次浪潮》首次提出,由麥肯錫公司(McKinsey)最早應用。

大數據的特徵

容量:數據的大小決定所考慮的數據的價值和潛在的信息

種類:數據類型的多樣性

速度:指獲得數據的速度

可變性:妨礙了處理和有效地管理數據的過程

真實性:數據的質量

複雜性:數據量巨大,來源多渠道

價值:合理運用大數據,以低成本創造高價值

大數據的發展趨勢(摘自百科)

趨勢一:數據的資源化

趨勢二:與雲計算的深度結合

趨勢三:科學理論的突破

趨勢四:數據科學和數據聯盟的成立

趨勢五:數據泄露泛濫

趨勢六:數據管理成為核心競爭力

趨勢七:數據質量是BI(商業智能)成功的關鍵

趨勢八:數據生態系統複合化程度加強

Hadoop是什麼?

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下,開發分散式程序。充分利用集群的威力進行高速運算和存儲。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。

hdfs架構示意圖:

MapReduce工作原理圖:

Hadoop生態圈:

大數據需要特殊的技術,無法用單台計算機進行處理,必須採用分散式架構。hadoop只是處理大數據的一種技術。圍繞大數據還有其它的技術

大數據和hadoop之間的關係

最後總結下:大數據是時代發展的產物,為了應對大數據環境下新的業務需求,相關的分散式存儲,分散式計算,大規模分散式資料庫等技術,hadoop解決了通過hdfs實現分散式存儲,通過mapreduce實現分散式計算。圍著hadoop逐步發展出一個hadoop生態圈。 hadoop大數據環境下的一種處理結束。

關注數據僧,我們一起討論,大家都喜歡什麼樣的工作,歡迎大家留言。(圖片來自網路,侵刪。)


可以這樣簡單地理解:

1、大數據是一個高層次的概念(相當於互聯網的概念),而Hadoop只是承載大數據的一個平台框架一種實現方式而已(類似於各種物理電腦網路)。

2、大數據包含的內涵廣泛得多,而Hadoop只是其中一部分實現。

我們平常所說的大數據包含:採集、傳輸、存儲、分析、可視化等等;而Hadoop更多是用於提取、存儲、分析的一個系統平台而已。

3、實現大數據平台的框架除了Hadoop之外,還有其他更多的平台。

由於Hadoop是一個開源的大數據系統平台,所以你們聽得最多。其實,除了Hadoop平台外,還有更多其他的系統平台(比如阿里巴巴的飛天平台)。

所以,大數據不等於Hadoop,大數據與Hadoop也不是包含關係。如果你眼裡只有Hadoop的大數據,記得提醒自己,你的眼界太狹窄了喲!

當然,關於Hadoop的細節技術,我就不啰嗦了,多去網路上查查吧。


可以參考我的《大數據的15年發展歷程(2003-2018)》這篇文章。


搞大數據你離不開Hadoop,離開Hadoop的大數據都是騙人的。


謝邀!

Hadoop是處理大數據的工具,下面有其他人詳細的回答


鍋和美食的關係


推薦閱讀:
相关文章