學習python的爬蟲用先學習html嗎?

編程小白，最近把python的基礎語法看完了，今天找了b站北理工老師教的爬蟲入門課，開始覺得還好，講到beautifulsoup那裡，就提到了標籤一些概念，之前都沒有學習過，我看彈幕說這是前端html的內容（不懂），請問一下大家，學習爬蟲是否需要先學習html？

要。

不要求自己能寫，但求能完全看懂。

作為一個有追求的程序員，不僅要會html，還要懂css，更要會js

說來你可能不信，但判斷一個爬蟲工程師的水平如何，可以用js來衡量

（資深爬蟲，不在乎js逆向，驗證碼。）

如果想爬蟲一條路走到黑，學好前端很重要

是的需要學習前端的東西，只是不用學得那麼深非要自己就能寫出網站的那種程度，但是至少得知道網頁是怎麼拿到後端的數據，怎麼顯示出來的。因為爬蟲絕大部分都是在爬網頁上的數據，如果你連網頁是怎麼展示數據的都不知道，你就不知道該怎麼去獲取你想要的數據了。

難道不是TCP/IP協議、HTTP協議，wireshark抓包等基礎知識么？這些讓你知道怎麼通過認證，抓下來數據；

然後就是用re正則表達式匹配，過濾，找數據。。。

html完全不需要學啊，知道點大概就可以了

顯然。不理解html，怎麼爬數據呢？至少要了解。

你如果只是簡單的把網頁給弄下來，那不需要，如果你需要解析網頁的內容，結構化數據的話，多多少少都得懂點html和css或者xpath，要不然你都不知道咋定位到元素，雖然說一些瀏覽器插件可以獲取到元素的xpath，但是有時候還是有點問題的，需要自己有所了解。

當然需要學習，但是不是重點，幾個標籤，搞清楚規則就行了，差不多2天時間最多了，再多，說明你可能已經走偏了。其實很多時候為了反爬，要學習的東西才是更多的，JavaScript，代理，IP池，驗證碼，加密，HTTP協議細節等，另外還有分散式爬蟲，規則定義，這些東西才是要點。如果對這些方面不懂的話，可以私我，我可以提供一些力所能及的指導。

需要，不然扒下來的數據怎樣清洗？在爬的過程中，你會發現要學的越來越多

html標籤都不知道，怎麼定位呢，怎麼知道爬哪裡呢？

所以顯然答案是：是的。

是的，學習爬蟲需要先學習 HTML。但是不需要學得像前端工程師那麼深入。有人說過：

用最短時間刷得最核心的 20% 知識點，然後就直接來解決實際問題吧。

我最近發現了一個 X 分鐘速成 Y 的教材集合，你可以學學裡面的 HTML 速成。如果感覺還沒有頭緒再來學 W3School 裡面的 HTML 教程。在學習 HTML 的同時最好同時結合 XPath 來學。在開始學習 XPath 前可以先大概了解一下 Chrome 開發者工具，Chrome 是我的主力瀏覽器，如果你用其他瀏覽器，可能也有類似功能的。當你要定位元素時，在 Chrome 開發者工具中，右鍵 Copy XPath 你就能知道一個元素的 XPath 是怎麼表示的了。還要掌握的是 Console 里的 $x 命令，在 Console 中輸入 $x(你的表達式)，回車就會返回能匹配輸入表達式的元素。

以上，對於初學爬蟲來說就夠了，畢竟你的主力是學爬蟲嘛。但並不是讓你停止學習，是解決實際問題時學，在做中學。

最後，貼出我在知乎想法中關於 Learn X in Y minutes 中的簡短介紹；和 W3School HTML 教程：

【強烈安利 Learn X in Y minutes】 Lear…?

www.zhihu.com