爬蟲開發實用小工具匯總
作者:Zarten
知乎專欄:Python爬蟲深入詳解知乎ID: Zarten簡介: 互聯網一線工作者,尊重原創並歡迎評論留言指出不足之處,也希望多些關注和點贊是給作者最好的鼓勵 !
概述
在做爬蟲開發中,有一些實用的小工具可以幫助我們事半功倍,正所謂:「欲善其事必先利其器」。
工具介紹
1.httpbin
官網:
httpbin.org
此網站可以用作爬蟲的測試(http和https),會返回爬蟲機器的一些信息,也可以做在線測試。具體用法可查看官網,一目了然,這裡不做闡述。
2.curl to python
官網:
Convert cURL command syntax to Python requests, Node.js, R, PHP, Strest, Go, JSON, and Rust code
此網站可以將curl命令快速轉為python的requests請求(其他語言也可以),而curl命令可以通過瀏覽器開發者工具快速獲取。
- 獲取curl命令
- 轉換成python的requests
3.XPath Helper
此工具是chrome的擴展程序,用於輔助分析和調試xpath
- 獲取Xpath
- 利用XPath Helper調試
4.JavaScript Toggle On and Off
此工具為chrome擴展程序,用於檢測目標網站哪些元素是通過JS載入的。
- 使用方法
點擊圖標後會顯示帶紅色叉,表示網頁禁止載入js,可以直截了當的看到哪些元素是js載入生成的。再次點擊重新載入網頁,不會阻止js載入。
呈現結果:
5.代理ip檢測
官網:(此網站需要翻牆)
https://proxyhttp.net/check
做爬蟲時,很多時候需要用到代理ip,此網站可以查看代理是否可用,代理ip的匿名程度,地點等信息
6.EditThisCookie
官方文檔:
Getting Started with EditThisCookie
此工具為chrome擴展程序,可對目標網站的cookies進行任意的操作,具體詳細的用法可查看上面提供的官方文檔
7.Postman
官網:
Postman
官方推薦使用本地應用程序代替chrome的擴展程序,因此只需在官網下載安裝包即可。
Postman是一款web調試和測試的工具,請求參數完全由自己控制,可模擬幾乎所有類型的http請求。
8.抓包工具fiddler
fiddler專門用來捕獲http和https協議的抓包工具,一般用於windows系統。IOS常用Charles工具,若需要抓取更多協議的信息,可使用wireshark工具。
官網:
https://www.telerik.com/fiddler
9.Python爬蟲相關包
這些python爬蟲相關包來自github的awesome項目
官網:
lorien/awesome-web-scraping
網址(中文):
156個Python網路爬蟲資源,GitHub上awesome系列之Python爬蟲工具-雲棲社區-阿里雲
推薦閱讀: