學習python的爬蟲用先學習html嗎?
編程小白,最近把python的基礎語法看完了,今天找了b站北理工老師教的爬蟲入門課,開始覺得還好,講到beautifulsoup那裡,就提到了標籤一些概念,之前都沒有學習過,我看彈幕說這是前端html的內容(不懂),請問一下大家,學習爬蟲是否需要先學習html?
要。
不要求自己能寫,但求能完全看懂。
作為一個有追求的程序員,不僅要會html,還要懂css,更要會js
說來你可能不信,但判斷一個爬蟲工程師的水平如何,可以用js來衡量
(資深爬蟲,不在乎js逆向,驗證碼。)
如果想爬蟲一條路走到黑,學好前端很重要
是的需要學習前端的東西,只是不用學得那麼深非要自己就能寫出網站的那種程度,但是至少得知道網頁是怎麼拿到後端的數據,怎麼顯示出來的。因為爬蟲絕大部分都是在爬網頁上的數據,如果你連網頁是怎麼展示數據的都不知道,你就不知道該怎麼去獲取你想要的數據了。
難道不是TCP/IP協議、HTTP協議,wireshark抓包等基礎知識么? 這些讓你知道怎麼通過認證,抓下來數據;
然後就是用re正則表達式匹配,過濾,找數據。。。
html完全不需要學啊,知道點大概就可以了
顯然。不理解html,怎麼爬數據呢?至少要了解。
你如果只是簡單的把網頁給弄下來,那不需要,如果你需要解析網頁的內容,結構化數據的話,多多少少都得懂點html和css或者xpath,要不然你都不知道咋定位到元素,雖然說一些瀏覽器插件可以獲取到元素的xpath,但是有時候還是有點問題的,需要自己有所了解。
當然需要學習,但是不是重點,幾個標籤,搞清楚規則就行了,差不多2天時間最多了,再多,說明你可能已經走偏了。其實很多時候為了反爬,要學習的東西才是更多的,JavaScript,代理,IP池,驗證碼,加密,HTTP協議細節等,另外還有分散式爬蟲,規則定義,這些東西才是要點。如果對這些方面不懂的話,可以私我,我可以提供一些力所能及的指導。
需要,不然扒下來的數據怎樣清洗?在爬的過程中,你會發現要學的越來越多
html標籤都不知道,怎麼定位呢,怎麼知道爬哪裡呢?
所以顯然答案是:是的。
是的,學習爬蟲需要先學習 HTML。但是不需要學得像前端工程師那麼深入。有人說過:
用最短時間刷得最核心的 20% 知識點,然後就直接來解決實際問題吧。
我最近發現了一個 X 分鐘速成 Y 的教材集合,你可以學學裡面的 HTML 速成。如果感覺還沒有頭緒再來學 W3School 裡面的 HTML 教程。在學習 HTML 的同時最好同時結合 XPath 來學。在開始學習 XPath 前可以先大概了解一下 Chrome 開發者工具,Chrome 是我的主力瀏覽器,如果你用其他瀏覽器,可能也有類似功能的。當你要定位元素時,在 Chrome 開發者工具中,右鍵 Copy XPath 你就能知道一個元素的 XPath 是怎麼表示的了。還要掌握的是 Console 里的 $x 命令,在 Console 中輸入 $x(你的表達式),回車就會返回能匹配輸入表達式的元素。
以上,對於初學爬蟲來說就夠了,畢竟你的主力是學爬蟲嘛。但並不是讓你停止學習,是解決實際問題時學,在做中學。
最後,貼出我在知乎想法中關於 Learn X in Y minutes 中的簡短介紹;和 W3School HTML 教程:
【強烈安利 Learn X in Y minutes】 Lear…?www.zhihu.comW3School HTML 教程?www.w3school.com.cn