如何評價《精通Python網路爬蟲》這本書?
我特地下載了電子書,瀏覽了一遍。
如果10分滿分,此書3分以下,《網路數據採集》7.5分。
此書可稱標題黨,理由如下。
1:第一篇從1-2章理論基礎篇,口水湊字文。
2:第二篇核心技術篇從3-9章,講了點正則、Fiddler、http頭,也沒啥核心技術。
3:第三篇從第10-17章講scrapy框架,毫無價值,遠遠不如scrapy文檔。
4:第四篇項目實戰篇從18-20章,對於小白多少有點用,但我認為這樣項目練手純粹浪費時間。
那麼,網路爬蟲主要包含哪些內容呢?
這裡簡單列個提綱。
0:網路爬蟲的定義與道德規範。
1:http協議,重點http頭(包括Cookie)和http狀態碼。
2:html/css/JavaScript,重點在於網頁結構原理。
3:網頁數據預處理,編碼的轉換和數據的解壓解密。
4:網頁數據的提取,重點正則表達式、Lxml、BeautifulSoup。
5:數據的保存,sql和nosql資料庫的查改刪。
6:日誌和錯誤調試捕捉。
7:爬蟲框架,如scrapy,建議閱讀官方文檔,重點中間件middleware、爬蟲spider、queue隊列、dupefilter去重、設置setting。
8:搭建分散式爬蟲,重點redis組件即redis資料庫。
9:常見反爬與對策。重點JavaScript、ajax、代理伺服器、圖片驗證碼、selenium +phantomjs模擬瀏覽器。
10:分散式爬取類似頭條、知乎、微博、豆瓣等網站。
對照我列的提綱,這就是我為什麼對《精通Python網路爬蟲》評價很低的原因。
如果對您有幫助,請點贊支持。
推薦閱讀: