想學習Python爬蟲的話可以前期先看一些視頻學習。
老劉劉:如何看待Python爬蟲?Python爬蟲是什麼?(免費附教程)?zhuanlan.zhihu.com
首先你要知道學習爬蟲需要會哪些技術和知識,以下是我做爬蟲工作中使用到的東西,很零散,將這些學會,相信你能對爬蟲有新的理解。
1、最基礎的HTML 要會,各種標籤含義要懂得。因為在抓界面數據時,需要對這些理解深入
2、js這個需要至少看得懂的地步,現在越來越多的網站是js渲染出來的,就像請求的驗證和開放網站的cookie很多是經過js計算過的,所以需要對js有了解,另外可以在網路上搜索js反向破解如何做。
3、python中的請求模塊,解析模塊,需要都會使用例如 requests pyquery bs4 和xpath相關
4、目前在python應用率較高的scrapy框架需要熟練的應用
5、還有就是分散式爬蟲,scrapy_redis 一類的模塊使用和配置
6、要對json數據熟練抽取
7、模擬瀏覽器,遇到棘手的網站可以使用 selenium+chrom
8、數據存儲相關的 需要對關係型資料庫和非關係型資料庫熟練使用例如 mysql和mongo redis
9、關於海量數據入庫去重的方法[因為涉及到爬蟲,數據量便不會很低,數據量一高處理,存儲都是會非常耗時間,如何將時間縮短是一個問題,具體可搜大數據去重]
大概就這麼多!
先通過一張圖來直觀的了解一下 Python 爬蟲相關知識。