如果掌握excelPython等工具,对于大数据知识是必要的吗,不太了解Hadoop知识对数据分析行业的作用


谢邀,

如果您是初学者,并且想学习大数据hadoop,那么我建议您从一些知乎上的知名博主了解一些大数据的学习路线;

如何进入大数据领域,学习路线是什么??

www.zhihu.com图标

在学习Hadoop之前,需要先了解sq|或者java, 梳理一下基础知识;

Hadoop生态系统的基本组件是:

1、 HDFS (Hadoop分 布式文件系统)

2、 MapReduce

HDFS如何工作?

HDFS可以非常快速地将数据传输到MapReduce。HDFS与MapReduce紧密结合,因此HDFS中的数据被传输到MapReduce进行进一步处理。

HDFS接收数据时,会将信息分解为单独的块,然后将其分发到群集中的不同节点,以便它可以并行执行任务以更有效地工作。

此外,Hadoop分散式文件系统经过专门设计,具有很高的容错能力。文件系统多次复制或复制每个数据(称为复制因子),并将这些副本分发到各个节点,至少将一个副本放置在与其他节点不同的伺服器机架上。这样做基本上是因为在任何情况下,如果一个节点崩溃时包含有价值的数据,那么我们就可以从另一个以复制形式放置的特定数据中访问该特定数据。

HDFS使用主/从体系结构。最初,每个Hadoop集群都由一个NameNode组成,该NameNode管理文件系统操作,并支持DataNodes来管理各个计算节点上的数据存储。HDFS元素组合在一起以支持具有大数据集的应用程序。

MapReduce如何工作?

Apache Hadoop MapReduce是一个框架, 用于跨Hadoop集群并行处理大型数据集。数据分析使用两个步骤:

  • 地图处理
  • 减少流程

MapReduce中的顶层工作是一项工作。工作通常具有映射和缩小阶段,尽管可以省略缩小阶段。例如,考虑一个MapReduce作业,该作业计算在一组文档中每个单词的使用次数。映射阶段对每个文档中的单词进行计数,然后归约阶段将每个文档的数据聚合为整个整个集合中的单词计数。

在映射阶段,输入数据分为多个输入拆分,以供跨Hadoop集群并行运行的映射任务进行分析。默认情况下,MapReduce框架 从Hadoop分散式文件系统(HDFS) 获取输入数据。使用MarkL ogic Connector for Hadoop,可使框架从MarkL ogic Server实例获取输入数据。

精简阶段使用映射任务的结果作为一组并行精简任务的输入。reduce任务将数据合并为最终结果。默认情况下,MapReduce框架将结果存储在HDFS中。使用MarkLogicConnector for Hadoop,可使框架将结果存储在Markl ogic Server实例中。

参考学习:关于大数据的入门知识,知乎专栏也供你参考学习:

从头学习大数据?

zhuanlan.zhihu.com图标大数据从入门到深入?

zhuanlan.zhihu.com图标

下面附一份大数据课程大纲也供你参考


谢邀 数据分析师对这个要求不是很多的,你可以去看下招聘JD ,一般数据分析师要求更多的是业务决策能力,你需要学习分析工具,例如SQL EXCLE PYTHON ,再就是把业务知识和数据报告 数据逻辑内容系统的结合实战学习起来,具体这些怎么学习需要看你的背景

hadoop一般大数据工程师、数据开发工程师、数据仓库工程师是刚需的部分


看公司规模,和人员分工。一般来讲,数据岗位分为数据分析工程师,数据挖掘工程师,数据开发工程师,数据运维工程师和演算法工程师。

一般岗位深度,从业务层逐渐往下。数据分析工程师除了要动数据本身价值,还要掌握一些数据挖掘方法,比如python里的常用类库,numpy,pandas,包括一些简单的分类、聚类等。

规模较大的企业,会把很多工具开发好,只需要在IDE上写对应脚本就好,例如写一些一般sql、jupyter上写一些简单脚本,简单计算,顺便图形化等。但是小规模公司,角色划分没那么清楚,可能就需要数据分析师不单单会写一些简单sql,用用excel。

hadoop里yarn、hdfs原理不用过多了解,但是基本的数据存储格式,和数据拉取融合的方式要有了解。需要熟悉各种的OLAP,否则,一个数据分析师,基本的数据存储位置和存储格式都搞不清楚,很难和数据开发同学沟通。

最后一点,极多不压身,自己掌握的东西足够多,筹码才会比较大。多学习,没什么坏处的


有hadoop平台的公司,一般也会提供Hive、Hue、zeppelin之类的工具给分析师,可以直接写sql处理数据。hadoop目前最主要的是提供分散式存储能力,主要是大数据工程师需要掌握,分析师感兴趣的话,也可以了解下。


传统的统计分析,是先有总体,再有数据,即必须先确定总体范围和个体单位,再收集个体数据,分析总体。但对大数据来说,情况完全不同了,是先有数据,再有总体。从某种意义上说,大数据的产生系统多数是非总体式的,即无事先定义的目标总体,只有与各个时点相对应的事后总体,原因就在于个体是不确定的,是变化著的,是无法事先编制名录库的,这与传统的总体与个体有很大的不同。更为复杂的是,事后个体的识别也很困难,因为同一个个体可能有多个不同的网路符号或称谓,而不同网路系统的相同符号( 称谓) 也未必就是同一个个体,而且还经常存在个体异位的情况( 即某一个体利用另一个体的符号完成某种行为) ,因此我们对于大数据往往是只见「数据」的外形而不见「个体」的真容。但对大数据的分析,仍然有一个总体口径问题,依然需要识别个体身份。这就需要我们改变总体与个体的定义方式———尽管它们的内涵没有变。与此对应,如果要从大资料库中提取样本数据,那么样本的定义方式也需要改变。当然,考虑到大数据的流动变化性,任何时点的总体都可以被理解为一个截面样本。

尽管用于收集和分析数据的统计技术已相对成熟、自成体系,但其所能处理的数据量是有限的,面对不可同日而语的大数据、特别是其中大量的非结构化数据,恐怕单凭一己之力是难以胜任的,只能望「数」兴叹。首先遇到的问题就是计算能力问题,这就要求我们在不断创新与发展统计技术的同时,还要紧紧依靠现代信息技术、特别是云计算技术。云计算技术主要包括虚拟化、分散式处理、云终端、云管理、云安全等技术,或者说以编程模型、数据存储、数据管理、虚拟化、云计算平台管理等技术最为关键。借助云计算技术可以将网格计算、分散式计算、并行计算、效用计算、网路存储、虚拟化、负载均衡等传统计算机技术与现代网路技术融合起来,把多个计算实体整合成一个具有强大计算能力的系统,并借助 SaaS、PaaS、IaaS、MSP 等商业模式把它分布到终端用户手中。云计算的核心理念就是不断提高「云」处理能力来减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备,并能按需享受强大的「云」计算处理能力。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计技术才能在大数据时代一展身手、有所作为,才能真正把统计思想在数据分析中得到体现,实现统计分析研究的目的。


数据分析是方法

hadoop是工具,用于解决海量数据的处理,数据未到达一定规模使用hadoop是不明智的

分析建模过程中多半使用的小量的汇总数据


需要,hadoop是大数据知识基础


HADOOP分散式其实在分析师这个岗位上用的比较少,了解就可以了,因为现在分散式这块大公司都有现成的工具用,连搭建都不需要,直接用就可以了,非常方便。


取决于工作中的数据规模。

如果要进行海量数据的处理是必须学习大数据相关知识的。


推荐阅读:
相关文章