无任何编程基础,现在在学习Python写爬虫,目前可以爬取京东手机价格变动并每次运行完后发邮件发送价格变动的机型。但在抓取苏宁手机价格的时候遇到了难题,苏宁的移动版网页价格也是在js中隐藏的,我现在在还不会抓取。其次是数据存储问题,目前仅仅把价格存在.txt文件中,一个文件对应一个手机,用各自的ID命名以区分,如果用资料库的话用什么比较好?初级目标是抓取各电商手机价格变化和各手机型号销量。 请各位不吝赐教! 谢谢


苏宁跟京东思路一样的, 都是在静态网页找到商品的数字编码,然后用数字编码通过json链接获取价格. 商品名, 链接和评论数也是在静态网页找到的.


关于怎么用post请求获取苏宁数据,上面很多大佬已经讲得特别详细了

如果使用post请求获取数据,需要进行以下几个步骤:

抓包→获取请求网址以及参数→发送请求→获取详情内容→解析内容→保存数据

基本上每一步都会耗费大量调试时间,如果碰上防采集比较严的网站,可能要花个1-2天才能获取到自己需要的数据。

所以其实如果想要快速获取数据的话,利益相关,推荐使用我们家的八爪鱼。

让数据采集过程,更加简单,只需简单3步,即可获取到大量数据。

八爪鱼内置市面上几乎所有主流电商网站采集模板,可以很方面的获取电商相关数据。

另外针对导出,也支持很多种文件格式。

最后,附上八爪鱼官网下载链接:

免费下载 - 八爪鱼采集器?

www.bazhuayu.com

发布于 2020-02-19继续浏览内容知乎发现更大的世界打开Chrome继续周绪龙周绪龙12年测试从业经验,IBM测试开发工程师,虫师学院创始人

你要看爬取出来的网页内容,然后分析你需要的数据有什么特点,再用正则匹配出来,数据爬出来后,保存到mysql资料库就可以


你要看爬取出来的网页内容,然后分析你需要的数据有什么特点,再用正则匹配出来,数据爬出来后,保存到mysql资料库就可以


数据存储我用mysql,本地安装部署稍微有点挑战,但实效来说,相对于本地文件(无论是txt还是excel,csv),强大太多了!

这是我做的笔记。恰好也是基于爬虫的目的。

刘娟娟PRESSone:【呕心总结】python如何与mysql实现交互及常用sql语句?

zhuanlan.zhihu.com图标
先简单的说一下,之后会补充。

1. 善用浏览器的F12。一切网页上能看到的东西,都是HTTP请求和基于HTTP请求的脚本、插件执行结果。

2. 请使用MySQL入门。学习期间不推荐其它的资料库。
推荐阅读:
相关文章