Apache Spark 是一款常用于大数据工作负载的分散式开源处理系统。Apache Spark 利用内存中缓存和经过优化的执行方式以实现高速性能,并支持常规批处理、流式分析、机器学习、图形资料库和临时查询。请参阅此处,了解有关 Apache Spark 的更多信息。

Amazon EMR 本身支持 Apache HBase,因此您可以快速轻松地通过 AWS 管理控制台、AWS CLI 或 Amazon EMR API 创建托管的 Apache HBase 群集。此外,您还可以利用其他 Amazon EMR 功能,包括使用 Amazon EMR 文件系统 (EMRFS) 快速连接 Amazon S3、与 Amazon EC2 Spot 市场和 AWS Glue 数据目录集成,以及使用 Auto Scaling 在群集中添加或移除实例。此外,您还能使用 Apache Zeppelin 来创建互动式协作笔记本,以便使用 Apache Spark 挖掘数据,并将 Apache MXNet 等深度学习框架用于 Spark 应用程序。


推荐阅读:
相关文章