端午節寫一篇非技術的。

Cloudera 昨天晚上美股開盤之後跳水 40%,這也昭示了 Hadoop 這一生態的衰敗。

Hadoop 包括兩部分 MapReduce 和 HDFS,分別對應 Google 三架馬車論文中的 MapReduce 和 GFS。後來 Hadoop 的 MapReduce 調度框架為了實現抽象度更高的資源調度,將編程模式剝離出調度框架,就出現了 YARN(Yet Another Resource Negotiator)。所以我們現在常說的 Hadoop 其實就是 HDFS 和 YARN。

圍繞 Hadoop 進行商業化有著名的三巨頭,分別是 Cloudera, Hortonworks 和 MapR,如今都不約而同的隕落了。

Cloudera

Cloudera 於 2008 年成立,創始人來自 Google, FaceBook 和 Yahoo!,在 2008 年還不知道大數據為何物的時候創辦 Cloudera,可謂非常有眼光。還有一點不得不提的是,Cloudera 的首席架構師 Doug Cutting, 也就是是 Hadoop 的第一位作者,後來被 Yahoo! 招安,再之後轉投 Cloudera。順風順水,後來升至 Apache 基金會主席。

Cloudera 的 Hadoop 發行版 CDH 是免費的,但是公司通過賣服務賺錢。比如 Hadoop 集羣的管理軟體,Cloudera Manager 就是收費的。Cloudera Manager 的功能包括集羣的管理、部署、監控、升級等,簡單來說就是運維。而這些都是公有雲要做的,畢竟雲計算就是賣運維。

Cloudera 在 2014 年隨著不斷融資,包括 Intel, Google,市值到達頂峯 41 億美元。之所以說是頂峯,是因為之後的三年 Cloudera 的發展並沒有如預想中的順利,也終於在 2017 年以 20 多億美元匆忙上市。

Hortonworks

Hortonworks 於 2011 年由於 Yahoo! 的 Hadoop 團隊拆分而成,和 Cloudera 不同的是,Hortonworks 的代碼是完全開源的。但是相比 Cloudera 起步晚,而且缺少了 Doug Cutting 這種領袖人物,亮點可謂乏善可陳。公司成立三年就於 2014 年匆忙上市,上市之初市值十多億美元。

無論是 Cloudera 還是 Hortonworks 都沒有趕上雲產商這班車,比如著名的開源軟體吸血鬼 AWS,針對 Hadoop 生態的公有雲產品 Elastic MapReduce 對 Cloudera 和 Hortonworks 兩家公司不可謂不小。可能是疲於同行業內耗,最終兩家公司與 2018 年 10 月份宣佈合併,但是以事後的角度來看,合併並沒有什麼用。

MapR

MapR 的創始人 M. C. Srivas 來自於 Google。客觀來說 GFS 架構設計其實並不是很好,HDFS 相當於對 GFS 論文的一種拙劣的模仿。而 Google 內部使用的分散式文件系統也是多方面碾壓 HDFS。所以 M. C. Srivas 創立 MapR 的時候就將 Hadoop 的文件系統 HDFS 進行了重構,同時兼任了 Hadoop 協議,但是是閉源的。MapR 的商業化之路主打系統的性能等優於開源 Hadoop 的特性,在售價上也要高於 Cloudera。MapR 一度給人一種用技術挑戰整個 Hadoop 社區的感覺,只不過很多人不買賬。

在 MapR 看似一切都還發展不錯的時候,M. C. Srivas 在 2016 年離開了 MapR 加入了 Uber。對於一個創業公司來說並不是一個好的信號。直到 2019 年 5 月底爆出消息,MapR 融資困難,可能在不久之後關閉。曾經估值高達 10 億美元的一代梟雄或將在此隕落。

啟示

Hadoop 除了這三家發行商,目前在各大雲廠商上都還以 Elastic MapReduce 的形態存在,包括 AWS EMR,Aliyun EMR 等。目前來看,對於 Hadoop 的存在形態,還會在公有雲上存在一段時間。但是還能存在多久,拭目以待。

Hadoop 商業化平臺的衰敗或許並不能代表整個大數據行業的衰敗,但是卻預示著 Hadoop 的失敗,對 Hadoop 的後續開發維護必然會產生影響。

作為 Hadoop 的替代產品,HDFS 在 AWS 上早已被 S3 取代。國內的各大公有雲產生也有自己自研的文件系統。YARN 或許還能存在一段時間,很早之前就有人推崇使用 Kubernetes 來替代 YARN 作為資源調度器。但是由於 Kubernetes 的調度器是一種集中式的資源調度器,而 YARN 是兩層資源調度器,目前 YARN 上面的作業並不能很容易地無縫遷移到 Kubernetes。

結語

Hadoop 本是 Google 的上一代技術三架馬車(GFS, MapReduce, BigTable)的模仿,設計不可謂優雅,但是也發展了十年左右,也借著大數據的這班車搶盡風頭。如今 Google 又開源了 Kubernetes 系統,大家才發現進程應該結合 Namespace 和 Cgroup 來跑,然後整個社區又被 Google 帶著跑。

有的時候不得不說,號稱不做惡的 Google 有的時候還是挺壞的。

推薦閱讀:

相關文章