多实践作重要,在工作中解决实际问题的过程中就会有慢慢的体会。首先,hadoop是离线分析的工具适合海量数据。

其次,hive便于业务人员查询。pig方便开发人员做m/r的开发。

对于数据挖掘方面可以通过mahout与hadoop整合来实现数据的分类,聚类以及预测等方面。其次,理论知识也很重要,尤其涉及到概率论与统计学。重点关注机器学习方面。我将自己的一些经验整理到我的blog,http://www.r66r.net


引用我原创文章中的一段来回复你的问题!

原作者姓名:本人青牛

原出处:海牛部落/青牛知乎文章海牛部落原文链接:[新手必读] 从小白到大数据技术专家的学习历程知乎原文链接:零基础小白成为大数据技术专家必知的学习历程

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬碟一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软体就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念,听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。

当然学习大数据不能只学hadoop,还有很多技术和知识点需要学习,我给你分享一份完整的大数据课程大纲供你参考


纸上得来终归浅,绝知此事要躬行。去真实应用环境中实习、工作

大数据三大件:存储、分布演算法、调度管理,这是基础,先理解清楚这些,后面的东西就比较好理解了。


http://hadoop.aura.cn
hadoop是云技术的一种实现,有很多模块组成。建议你系统性的看一下Map-Reduce原理 Hive Hbase HDFS文件系统。可以参考炼数成金的网站列表介绍

Hadoop等这些是一个生态中的技术框架,技术是用来解决问题的,所以开始学习一个技术框架时,需要明确:

1.为什么会出现,演变过程是什么?

2.解决了什么问题,使用场景是什么?

3.该技术框架的使用人员是什么?

4.该框架处于数据处理流程中的哪个环节,该环节还有没有类似的框架?

搞清楚上面几个问题之后,再寻找大数据行业的技术体系框架,选择切入点著手学习。


建议从实践开始,比如处理word count类似的程序,然后渐渐入门。

可以先写一些hadoop的java程序,用intellij的软体,是可以做到本地跑hadoop程序的(只有一台机器就是了)

然后逐行debug看内部的原理。

如果以上过程太过晦涩,也可以读一下hadoop的书,比如hadoop definite guide,了解一下基本原理再下手


求问,到底是要走例如Python、R还是Hadoop方向的路线,这个有什么参考标准的吗?
推荐阅读:
相关文章