比如說基本python知識等等


之前寫了幾篇爬蟲的文章,內容包括了知識點和實際的爬取,可以參考一下。

Python 爬蟲(一):爬蟲偽裝?

mp.weixin.qq.com圖標Python爬蟲(二):Requests庫?

mp.weixin.qq.com圖標Python爬蟲(三):BeautifulSoup庫?

mp.weixin.qq.com圖標Python 爬蟲(四):Selenium 框架?

mp.weixin.qq.com圖標Python 爬蟲(五):PyQuery 框架?

mp.weixin.qq.com圖標Python 爬蟲(六):Scrapy 爬取景區信息?

mp.weixin.qq.com圖標Python 爬蟲(七):pyspider 使用?

mp.weixin.qq.com圖標爬取愛奇藝彈幕?

mp.weixin.qq.com圖標爬取豆瓣短評?

mp.weixin.qq.com圖標爬取公眾號文章?

mp.weixin.qq.com圖標爬取知乎問答?

mp.weixin.qq.com圖標


入門程度的基礎很簡單:

  1. 簡單的python語法,不需要什麼很深的東西
  2. 請求庫用法(requests、aiohttp等)
  3. 簡單的抓包/摳URL
  4. xpath、正則表達式的使用,且能在不用生成工具的情況下自己寫出語句提取數據

以上四點已經足夠讓你爬一些簡單的網站了,但僅僅是這個程度而已的話,你還沒那些傻瓜式爬蟲工具強呢。你還需要JavaScript/Android/iOS逆向知識(核心,雜七雜八的那些這裡不一一列舉,太多了),用於破加密請求參數、反爬等各種阻止你獲取到數據的東西,就單這一點,傻瓜式工具就已經被你打趴下了,因為那些工具在碰到較複雜的反爬時並不能達到很好的效果。


然後打個小廣告,推薦關注我的知乎專欄↓↓↓↓↓,如名字所述,手把手教你寫爬蟲。

手把手教你寫爬蟲?

zhuanlan.zhihu.com圖標


  1. python基礎語法
  2. requests庫的用法
  3. html語言的基礎語法


大概需要 web 前端基礎知識,python 基礎知識,python 網路請求和解析的第三方庫的使用。其實可以通過實際爬蟲的實現來豐富這些知識的瞭解,實戰入門即可!是一個正反饋的過程,實戰多了,基礎知識就愈加豐富,基礎知識也會牢固,後面實現爬蟲也就越加容易!


  1. 寫一些最簡單的爬蟲
    1. python的基本語法;
    2. 正則表達式;
    3. urllib庫的使用
  2. 稍複雜點的任務
    1. BeautifulSoup或者lxml或者同類庫的使用;
    2. requests庫的使用;
    3. 一些簡單的html知識
  3. 再往後還要了解:
    1. 資料庫的基本操作;
    2. scrapy庫的使用;
    3. 一些簡單的JavaScript知識;
    4. 多進程多線程


推薦閱讀:
相關文章