本次分享從抓取、解析、存儲、反爬、加速五個方面介紹了利用 Python 進行網路爬蟲開發的相關知識點和技巧,介紹了不同場景下如何採取不同措施高效地進行數據抓取的方法,包括 Web 抓取、App 抓取、數據存儲、代理選購、驗證碼破解、分散式抓取及管理、智能解析等多方面的內容,另外還結合了不同場景介紹了常用的一些工具包,全部內容是我在從事網路爬蟲研究過程以來的經驗精華總結。
爬取
對於爬取來說,我們需要學會使用不同的方法來應對不同情景下的數據抓取任務。
爬取的目標絕大多數情況下要麼是網頁,要麼是 App,所以這裡就分為這兩個大類別來進行了介紹。
對於網頁來說,我又將其劃分為了兩種類別,即服務端渲染和客戶端渲染,對於 App 來說,我又針對介面的形式進行了四種類別的劃分——普通介面、加密參數介面、加密內容介面、非常規協議介面。
所以整個大綱是這樣子的:
服務端渲染的意思就是頁面的結果是由伺服器渲染後返回的,有效信息包含在請求的 HTML 頁面裡面,比如貓眼電影這個站點。客戶端渲染的意思就是頁面的主要內容由 JavaScript 渲染而成,真實的數據是通過 Ajax 介面等形式獲取的,比如淘寶、微博手機版等等站點。
服務端渲染的情況就比較簡單了,用一些基本的 HTTP 請求庫就可以實現爬取,如 urllib、urllib3、pycurl、hyper、requests、grab 等框架,其中應用最多的可能就是 requests 了。
對於客戶端渲染,這裡我又劃分了四個處理方法:
對於 App 的爬取,這裡分了四個處理情況:
以上便是爬取流程的相關分類和對應的處理方法。
對於解析來說,對於 HTML 類型的頁面來說,常用的解析方法其實無非那麼幾種,正則、XPath、CSS Selector,另外對於某些介面,常見的可能就是 JSON、XML 類型,使用對應的庫進行處理即可。
這些規則和解析方法其實寫起來是很繁瑣的,如果我們要爬上萬個網站,如果每個網站都去寫對應的規則,那麼不就太累了嗎?所以智能解析便是一個需求。
智能解析意思就是說,如果能提供一個頁面,演算法可以自動來提取頁面的標題、正文、日期等內容,同時把無用的信息給刨除,例如上圖,這是 Safari 中自帶的閱讀模式自動解析的結果。
對於智能解析,下面分為四個方法進行了劃分:
如果能夠容忍一定的錯誤率,可以使用智能解析來大大節省時間。
目前這部分內容我也還在探索中,準確率有待繼續提高。
存儲,即選用合適的存儲媒介來存儲爬取到的結果,這裡還是分為四種存儲方式來進行介紹。
這部分的關鍵在於和實際業務相結合,看看選用哪種方式更可以應對業務需求。
反爬這部分是個重點,爬蟲現在已經越來越難了,非常多的網站已經添加了各種反爬措施,在這裡可以分為非瀏覽器檢測、封 IP、驗證碼、封賬號、字體反爬等。
下面主要從封 IP、驗證碼、封賬號三個方面來闡述反爬的處理手段。
對於封 IP 的情況,可以分為幾種情況來處理:
驗證碼分為非常多種,如普通圖形驗證碼、算術題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。
某些網站需要登錄才能爬取,但是一個賬號登錄之後請求過於頻繁會被封號,為了避免封號,可以採取如下措施:
當爬取的數據量非常大時,如何高效快速地進行數據抓取是關鍵。
常見的措施有多線程、多進程、非同步、分散式、細節優化等。
爬蟲是網路請求密集型任務,所以使用多進程和多線程可以大大提高抓取效率,如使用 threading、multiprocessing 等。
將爬取過程改成非阻塞形式,當有響應式再進行處理,否則在等待時間內可以運行其他任務,如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。
分散式的關鍵在於共享爬取隊列,可以使用 celery、huey、rq、rabbitmq、kafka 等來實現任務隊列的對接,也可以使用現成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。
可以採取某些優化措施來實現爬取的加速,如:
如果搭建了分散式,要實現高效的爬取和管理調度、監控等操作,我們可以使用兩種架構來維護我們的爬蟲項目。
以上便是我分享的全部內容,所有的內容幾乎都展開了
大家在學python的時候肯定會遇到很多難題,以及對於新技術的追求,這裡推薦一下我們的Python學習扣qun:784758214,這裡是python學習者聚集地!!同時,自己是一名高級python開發工程師,從基礎的python腳本到web開發、爬蟲、django、數據挖掘等,零基礎到項目實戰的資料都有整理。送給每一位python的小夥伴!每日分享一些學習的方法和需要注意的小細節
另外對於這部分內容,其實還有我製作的更豐富的思維導圖,預覽圖如下: