一款你必須會用的 Chrome 爬蟲插件

作者： 憶蓉之心；
來源：Java面試那些事兒

最近，有同學問我。

我不想寫代碼，如何快速爬取幾個數據量不太大的網頁？

這個需求，估計大家很多時候都會遇到，比如，你想爬取秒殺頁面的商品信息進行對比；你想爬取國家統計局官網發佈的你感興趣的數據；等等。

既然說到這裏，我就簡單的介紹一下網絡爬蟲。網絡爬蟲的主要目的是爬取互聯網上的網頁。你可以把互聯網中的每一個網頁想象成一個點，那麼整個互聯網將是彼此連通的。是不是很像我們大學學過的圖論？如果從任何一個網頁出發，在時間資源允許的情況下，使用廣度優先算法（BFS）或者深度優先算法（DFS）是可以爬完整個互聯網的。對這兩種算法不太熟悉的同學可以去背書了。

下面以比較流行的 Scrapy 架構圖爲例，流線爲數據流向。

看了這幅圖，是不是對一般的爬蟲有了大致的瞭解了。

專業的網絡爬蟲（比如百度/谷歌的爬蟲）爲了節約資源和時間，因此，設計是相當複雜的。這些爬蟲一般是基於分佈式集羣構建的，有些機子負責調度，有些機子負責下載，有些機子專門基於網頁進行分析，等等。並非簡單的用 BFS/DFS 就能解決的，比如，我們以調度器爲例，它就需要來管理下載優先級，當引擎發送過來 Request 請求，就需要按照優先級進行整理排列，入隊，當引擎需要時，交還給引擎。

雖然關於各種語言的爬蟲框架很多，要是用這些框架來爬這點數據，確實有點大材小用了，而且還得要編碼調試，各種麻煩！！！

我發現 Chrome 商店裏面有一款爬蟲插件，剛好解決這個痛點，它的名字叫做 Web Scraper，目前有 22w 的用戶下載。