想學習Python爬蟲的話可以前期先看一些視頻學習。

老劉劉:如何看待Python爬蟲?Python爬蟲是什麼?(免費附教程)?

zhuanlan.zhihu.com圖標


首先你要知道學習爬蟲需要會哪些技術和知識,以下是我做爬蟲工作中使用到的東西,很零散,將這些學會,相信你能對爬蟲有新的理解。

1、最基礎的HTML 要會,各種標籤含義要懂得。因為在抓界面數據時,需要對這些理解深入

2、js這個需要至少看得懂的地步,現在越來越多的網站是js渲染出來的,就像請求的驗證和開放網站的cookie很多是經過js計算過的,所以需要對js有了解,另外可以在網路上搜索js反向破解如何做。

3、python中的請求模塊,解析模塊,需要都會使用例如 requests pyquery bs4 和xpath相關

4、目前在python應用率較高的scrapy框架需要熟練的應用

5、還有就是分散式爬蟲,scrapy_redis 一類的模塊使用和配置

6、要對json數據熟練抽取

7、模擬瀏覽器,遇到棘手的網站可以使用 selenium+chrom

8、數據存儲相關的 需要對關係型資料庫和非關係型資料庫熟練使用例如 mysql和mongo redis

9、關於海量數據入庫去重的方法[因為涉及到爬蟲,數據量便不會很低,數據量一高處理,存儲都是會非常耗時間,如何將時間縮短是一個問題,具體可搜大數據去重]

大概就這麼多!


先通過一張圖來直觀的了解一下 Python 爬蟲相關知識。

分享幾篇之前寫的爬蟲相關文章,可以做個簡單的參考。

Python 爬蟲(一):爬蟲偽裝?

mp.weixin.qq.com圖標Python爬蟲(二):Requests庫?

mp.weixin.qq.com圖標Python爬蟲(三):BeautifulSoup庫?

mp.weixin.qq.com圖標Python 爬蟲(四):Selenium 框架?

mp.weixin.qq.com圖標Python 爬蟲(五):PyQuery 框架?

mp.weixin.qq.com圖標Python 爬蟲(六):Scrapy 爬取景區信息?

mp.weixin.qq.com圖標Python 爬蟲(七):pyspider 使用?

mp.weixin.qq.com圖標爬取愛奇藝彈幕?

mp.weixin.qq.com圖標爬取豆瓣短評?

mp.weixin.qq.com圖標爬取公眾號文章?

mp.weixin.qq.com圖標爬取知乎問答?

mp.weixin.qq.com圖標

如果想要了解、學習更多的爬蟲項目,可以看一下我之前的回答。

https://www.zhihu.com/question/58151047/answer/1213871324


可以參考我之前的寫的回答

想自學python爬蟲建議買哪些書??

www.zhihu.com圖標

簡單的說,想說爬蟲還是需要了解一點網路知識,熟練使用 chrome 、postman等工具,藉助這些工具可以獲取要請求的數據後,再考慮使用 python 的一些庫,完成數據的過濾、清洗了。


爬蟲應該從法律學起,什麼能爬,什麼不能爬,如何在邊界遊走,怎麼不越界,不然爬蟲寫得好,牢飯少不了!


推薦閱讀:
相关文章