Apache Spark 是一款常用於大數據工作負載的分散式開源處理系統。Apache Spark 利用內存中緩存和經過優化的執行方式以實現高速性能,並支持常規批處理、流式分析、機器學習、圖形資料庫和臨時查詢。請參閱此處,瞭解有關 Apache Spark 的更多信息。

Amazon EMR 本身支持 Apache HBase,因此您可以快速輕鬆地通過 AWS 管理控制檯、AWS CLI 或 Amazon EMR API 創建託管的 Apache HBase 羣集。此外,您還可以利用其他 Amazon EMR 功能,包括使用 Amazon EMR 文件系統 (EMRFS) 快速連接 Amazon S3、與 Amazon EC2 Spot 市場和 AWS Glue 數據目錄集成,以及使用 Auto Scaling 在羣集中添加或移除實例。此外,您還能使用 Apache Zeppelin 來創建互動式協作筆記本,以便使用 Apache Spark 挖掘數據,並將 Apache MXNet 等深度學習框架用於 Spark 應用程序。


推薦閱讀:
相關文章