台湾 || 语言: 大陆简体港澳繁體台灣正體

请问下用python做数据爬虫，和数据分析两个方面，python 的基础要学到什么层次？

雪花台湾 2021-04-17 16:52

我现在学到了正则表达式，但是看到很多关于python数据分析时用到正则表达式不多，还有metaclass也用的很少，就想问下我现在应该转去学pandas，numpy这样的包还是，继续完善下基础

用Python 爬虫 来进行Web数据挖掘已经是每个优秀数据分析师的必备技能，但对于没有接受过系统技术培训的Python自学者而言，想要独立进行Web数据爬取与数据分析必然有难度，打下坚实的基础毋庸置疑是每个初学者最需要重视的事情。

但如果想要在学习过程中尝试利用Python做简单的爬虫也不是完全不能实现，以下是和鲸社区专栏为初学者提供的一小时入门Python爬虫方法（截取部分代码，点击查看全文）

导入模块

1、批量获取数据页面url

2、访问页面+解析

df=pd.DataFrame(datai)

df

获得数据如下：

除此之外，和鲸社区的《大鹏教你玩数据》专栏内还有其他适用于用Python做数据分析的项目，希望能帮助到大家~

Python初学者常见问题
如何用Pandas快速处理数据
用随机数模拟社会财富分配
Python数据可视化利器：PYECHARTS!
1小时入门Python爬虫：当数据分析师就该自己爬数据！
用数据做攻略：找到一个城市最有趣的地方
人口数据：揭秘一年里来上海工作的人员流动情况
用Python处理文本数据：星座运势分析
Python也可以做图表：matplotlib技能详解

发布于 2019-07-05继续浏览内容知乎发现更大的世界打开Chrome继续程序猿十几年还在搬砖的码农

不请自来，的确爬虫和数据分析都首先得有python基础，不过往后爬虫和数据分析的技能，交集不多。数据分析的数据来源有可能是从爬虫来而已。

numpy和pandas只是两个工具库，你最多就熟悉一些函数的api和使用方法，不过这个不是学数据分析。数据分析需要具备一定的数学基础(数据建模，概率和统计)，如果还有机器学习或者深度学习，那就更多了。所以你可以继续往前看数据分析的知识，遇到python基础不懂的地方可以回头来继续看。

以上

不请自来，的确爬虫和数据分析都首先得有python基础，不过往后爬虫和数据分析的技能，交集不多。数据分析的数据来源有可能是从爬虫来而已。

numpy和pandas只是两个工具库，你最多就熟悉一些函数的api和使用方法，不过这个不是学数据分析。数据分析需要具备一定的数学基础(数据建模，概率和统计)，如果还有机器学习或者深度学习，那就更多了。所以你可以继续往前看数据分析的知识，遇到python基础不懂的地方可以回头来继续看。

以上

首先，先把Python名字打对了先

这类基础没有说学到什么层次，都是尽可能都要去了解。现在遇不到不代表以后遇不到。最好的是找些爬虫项目跟数据分析项目练手，边学边做。还有多去GitHub这些网站看看，很多Python很实用的库。多去了解一下，很好用！

基础吧，基础真的很重要，我之前就学了一点Python的基础，然后学了爬虫，基本的可以写，但是很难受，之后还是要补上Python其他的相关知识

我现在也在学习这方面的知识

我的一点见解，如果学数据分析只是说完成公司分派的数据分析任务，先把数据分析的模块啃下。数据爬虫可以放后面需要再学（当然，看需求大不大）。

数据爬虫有很多好玩的东西，看很多人爬了各种各样的数据，然后再做一波数据分析，最后分享出来的分析报告挺有趣的！

一点点啃下去吧，不要急躁！加油

先说爬虫，爬虫就是跟网站前端工程师的战争，你爬出来的是什么？HTML和JS。正则就是从大段大段的HTML中找到你想要的东西，比如资源链接，json，比如特定标签。正则是最有用的，不知道为啥你用的不多。

再说数据分析，数据分析，核心是很理论的东西，概率论和数理统计，线性代数等等，numpy和pandas只是入门工具。大量的科学计算还需要其它的包支持。所以Python基础需要多少？可以很多，纯Python实现，可以没有，Excel也有科学统计组件。

学无止境，学到你认为能完成你的任务为止。

爬虫常用requests, scapy, beautifulsoup, selenium。

数据分析常用的是pandas包。

推荐阅读：

相关文章