大数据现在这么火,想往大数据方面发展,但是英文、数学不好的可以吗?? 学习大数据该学哪些技术??大数据和程序员比哪个要好学点??等等。。。很多人学大数据的原因就是大数据找工作好找,薪资很高,,当然,为了这个原因也是可以的,毕竟这个时代就业压力确实很大,为了一个好的工作学一门技术,,但是我想问下你,你的专业是什么呢??对于计算机/软体,你的兴趣是什么?是计算机专业,对操作系统、硬体、网路、伺服器感兴趣?是软体专业,对软体开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。

  其实说这些不是为了说明大数据有多难,只是告诉你这就是大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。。这三个方面没有哪个容易学些、哪个薪资高些、哪个发展前景好些。。。

  现如今大数据开源框架也是越来越多,举几个常用的例子:

  文件存储:Hadoop HDFS、Tachyon、KFS

  流式、实时计算:Storm、Spark Streaming、S4、Heron

  K-V、NOSQL资料库:HBase、Redis、MongoDB

  资源管理:YARN、Mesos

  日志收集:Flume、Scribe、Logstash、Kibana

  消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ

  查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

  分散式协调服务:Zookeeper

  集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager

  数据挖掘、机器学习:Mahout、Spark MLLib

  数据同步:Sqoop

  任务调度:Oozie

  上面有30多种框架了吧,哈哈,是不是有点慌了,虽然有这么多框架,别说全部精通了,就算是全会用的,估计现在也没有几个,就要看你在三个方面往哪个方面发展了。就拿第二个来说(开发/设计、架构),且先听听我的建议:

  一、初识hadoop

  Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

  关于Hadoop,你至少需要搞清楚以下是什么:

  Hadoop 1.0、Hadoop 2.0

  MapReduce、HDFS

  NameNode、DataNode

  JobTracker、TaskTracker

  Yarn、ResourceManager、NodeManager

  自己搭建Hadoop,请使用第一步和第二步,能让它跑起来就行。

  建议先使用安装包命令行安装,不要使用管理工具安装。

  另外:Hadoop1.0知道它就行了,现在都用Hadoop 2.0.

  二、更高效的WordCount

  首先,你得先学习SQL,访问、查询资料库的基本语言还是要懂的。。然后SQL On Hadoop之Hive,Hive是数据仓库工具,数据仓库是逻辑上的概念,底层使用的是资料库,数据仓库的特点:数据全(海量)、稳定;所谓稳定,比如资料库的数据经常要更新,而数据仓库的数据是不会被更新,只会被查询,所以说Hive适合做数据仓库。最后就是了解hive的工作原理,学会Hive的工作命令。

  三、把别处的数据搞到Hadoop上

  四、把Hadoop上的数据搞到别处去

  五、实例分析

  六、实时数据

  七、更新查询数据

  八、高大上的机器学习

  完成了第一、二,说明你已经快步入大数据的行列了,写的不好也请多多包涵。

推荐阅读:

相关文章