我现在学到了正则表达式,但是看到很多关于python数据分析时用到正则表达式不多,还有metaclass也用的很少,就想问下我现在应该转去学pandas,numpy这样的包还是,继续完善下基础


Python 爬虫 来进行Web数据挖掘已经是每个优秀数据分析师的必备技能,但对于没有接受过系统技术培训的Python自学者而言,想要独立进行Web数据爬取与数据分析必然有难度,打下坚实的基础毋庸置疑是每个初学者最需要重视的事情。

但如果想要在学习过程中尝试利用Python做简单的爬虫也不是完全不能实现,以下是和鲸社区专栏为初学者提供的 一小时入门Python爬虫 方法(截取部分代码,点击查看全文)

导入模块

1、批量获取数据页面url

2、访问页面+解析

df=pd.DataFrame(datai)

df

获得数据如下:

除此之外,和鲸社区的《大鹏教你玩数据》专栏内还有其他适用于用Python做数据分析的项目,希望能帮助到大家~

  • Python初学者常见问题
  • 如何用Pandas快速处理数据
  • 用随机数模拟社会财富分配
  • Python数据可视化利器:PYECHARTS!
  • 1小时入门Python爬虫:当数据分析师就该自己爬数据!
  • 用数据做攻略:找到一个城市最有趣的地方
  • 人口数据:揭秘一年里来上海工作的人员流动情况
  • 用Python处理文本数据:星座运势分析
  • Python也可以做图表:matplotlib技能详解

发布于 2019-07-05继续浏览内容知乎发现更大的世界打开Chrome继续程序猿程序猿十几年还在搬砖的码农

不请自来,的确爬虫和数据分析都首先得有python基础,不过往后爬虫和数据分析的技能,交集不多。数据分析的数据来源有可能是从爬虫来而已。

numpy和pandas只是两个工具库,你最多就熟悉一些函数的api和使用方法,不过这个不是学数据分析。数据分析需要具备一定的数学基础(数据建模,概率和统计),如果还有机器学习或者深度学习,那就更多了。所以你可以继续往前看数据分析的知识,遇到python基础不懂的地方可以回头来继续看。

以上


不请自来,的确爬虫和数据分析都首先得有python基础,不过往后爬虫和数据分析的技能,交集不多。数据分析的数据来源有可能是从爬虫来而已。

numpy和pandas只是两个工具库,你最多就熟悉一些函数的api和使用方法,不过这个不是学数据分析。数据分析需要具备一定的数学基础(数据建模,概率和统计),如果还有机器学习或者深度学习,那就更多了。所以你可以继续往前看数据分析的知识,遇到python基础不懂的地方可以回头来继续看。

以上


首先,先把Python名字打对了先


这类基础没有说学到什么层次,都是尽可能都要去了解。现在遇不到不代表以后遇不到。最好的是找些爬虫项目跟数据分析项目练手,边学边做。还有多去GitHub这些网站看看,很多Python很实用的库。多去了解一下,很好用!


基础吧,基础真的很重要,我之前就学了一点Python的基础,然后学了爬虫,基本的可以写,但是很难受,之后还是要补上Python其他的相关知识


我现在也在学习这方面的知识

我的一点见解,如果学数据分析只是说完成公司分派的数据分析任务,先把数据分析的模块啃下。数据爬虫可以放后面需要再学(当然,看需求大不大)。

数据爬虫有很多好玩的东西,看很多人爬了各种各样的数据,然后再做一波数据分析,最后分享出来的分析报告挺有趣的!

一点点啃下去吧,不要急躁!加油


先说爬虫,爬虫就是跟网站前端工程师的战争,你爬出来的是什么?HTML和JS。正则就是从大段大段的HTML中找到你想要的东西,比如资源链接,json,比如特定标签。正则是最有用的,不知道为啥你用的不多。

再说数据分析,数据分析,核心是很理论的东西,概率论和数理统计,线性代数等等,numpy和pandas只是入门工具。大量的科学计算还需要其它的包支持。所以Python基础需要多少?可以很多,纯Python实现,可以没有,Excel也有科学统计组件。


学无止境,学到你认为能完成你的任务为止。

爬虫常用requests, scapy, beautifulsoup, selenium。

数据分析常用的是pandas包。


推荐阅读:
相关文章