目前从事大数据工作一年,2019年很多大学开设了大数据相关的课程,具体课程内容包含什么,我不太清楚,但是可以以过来人的身份说一下【大数据开发】方向需要的技能以及学习大数据开发的学习路线。

2020大数据学习路线图

如果图片不清晰,可以私信我获取高清大图。

上面也只是罗列了一些我工作中使用到的技术,只是冰山一角。如果你可以想学习大数据或者乐于分享技术,可以一起来交流。

大数据 · 语雀?

www.yuque.com图标

免费的知识星球,纯粹的技术交流。

https://t.zsxq.com/7iQRNrR?

t.zsxq.com

数据科学

偏工程类的岗位,首先需要熟练使用 SQL 和 Python。在此基础上学习下面几个部分:

第一部分:数据科学入门熟悉数据科学问题解决流程,包括探索性数据分析、异常值的处理,如何与不同的利益相关方有效沟通。

第二部分:深度学习神经网路是深度学习的基石。在这部分课程中,你将学习神经网路的基本原理,并在实战项目中用 Python 和 Numpy 从头开始构建一个神经网路。你还将简要了解 TensorFlow,以及如何用它来搭建深度神经网路。在此节中,你还会拓展学习社交媒体的情绪分析方法。

第三部分:软体工程发展数据科学家核心的软体工程技能。你将学习到如何书写整洁和模块化的代码,如何对代码进行测试与审查,并学习面向对象编程。你还会开发与部署自己的数据应用。

第四部分:数据工程学习处理完整的数据科学工作流中的所有数据,包括运行数据管道、转化数据、构建模型、将解决方案部署到云端。你还会学到 NLP 数据管道与机器学习管道的原理与应用。

第五部分:试验设计与推荐系统学习使用科学的试验方法来审查数据结果,并开展和分析 A/B 测试。学习基于知识和内容的推荐系统机制,并采用矩阵分解来验证与优化推荐系统效果。

第六部分:如何使用 Spark 来处理大数据,并规模化构建机器学习模型,包括如何使用 PySpark 来清洗大数据集及建模。PySpark 是 Spark 为 Python 开发者提供的 API。本课程介绍了大数据及 Spark 在大数据生态系统的角色,并通过互动式练习,处理和清洗数据集,从而熟悉 SparkSQL 和 dataframe APIs,并使用 Spark 机器学习库来训练机器学习模型。

以上六部分的学习大纲来自某外国学习网站,近期我也打算学习深造一下,数据科学家应该是每个做数据开发向往的顶部了吧,加油吧少年!

持续更新中...


我们这个专业是与阿里巴巴合作的,目前我大一,要学的课程有web开发,c语言程序设计,python,计算机网路基础,java程序设计,资料库,机器学习,hadoop框架


这个囊括的东西比较多 看你要走什么方向

大数据开发

1.hadoop全家桶 数据接入 数据存储 数据开发 数据仓库 数据查询 等

2.流式数据 实时数据仓库技术

3.各种nosql资料库

数据分析

1.增长黑客相关业务知识

2.分析工具 tableau之类的

3.sql 资料库知识 最好的hive spark

数据挖掘和演算法

1.各种基础演算法

2.机器学习演算法

3.深度学习演算法

4.其他更垂直的演算法 比如nlp cv等

5.各种工具的使用


首先大一要把数学基础打好,高等数学,代数和基本的C语言必须掌握;

大二主要学习编程,离散数学,概率论与数理统计,Python要掌握,MATLAB,MySQL要了解,数据结构与演算法也要学习,数学建模,数据采集与清洗,统计学,最优化方法,数值计算,并行计算等等要学;

大三的话主要是要学软体工程,了解AI(毕竟本科,人工只能这方面不会很深奥),时间序列,深度学习,云计算技术,数据可视化,还有金融与保险数据分析,生物与医疗数据分析,等等;

大四就没什么了,毕业实习,毕设。

总结大一闲,大二大三累成狗,学的主要是关于数学和计算机的课程!


C语言基础

Linux操作系统

高等代数

数学分析

Java

英语


这是两个比较宽泛的合集,而且还在不停的扩充中。在一些语境中,数据科学是包括大数据技术的;另一些语境中这俩只是有部分交集,数据科学偏向分析和决策,大数据技术偏向工程和产品。

再加上这种title,在不同学校的培养方向可能不同,在不同公司的负责内容也会不同。所以,还是分三条线说,到时候具体看专业描述或者职位描述。

第一,走数据分析路线的。那么数据准备、处理、计算过程用到的SQL、Python、R之类的要会。数据可视化的工具要会,至少精通一个。常见的统计方法和分析方法要会。常见的演算法模型要懂得原理和优化方法。另外逻辑思维比较清晰,能从数据中提炼信息形成结论并支撑决策,简单说,书面和口头表达能力都要好一些,要能让别人懂你的意思。

第二,走平台建设路线的。那么软体工程和项目管理要懂。常见的系统架构要懂,怎么做负载均衡,怎么减少冗余,怎么提高性能等等。常见的项目,比如Hadoop、Hive、Flink、Spark那些,实现原理和能力特点要懂。另外最好懂一些常见的技术语言,比如Java、HTML、JS等等,能简单写两句的程度。

第三,走数据治理路线的。那么各种数据治理框架要懂,比如常见的数仓模型,常见的数据安全管理办法,常见的数据质量稽查方法,以及行业内的各种关于数据和数据系统的标准。


李阳 / 高级数据产品经理 / 知识星球 公众号:数据有毒


推荐阅读:
相关文章