python爬蟲一直報錯，怎麼辦？

python爬蟲一直報錯，不知道是使用框架還是自己利用request寫的。個人的經驗是碰到錯誤，根據錯誤的提示做相應的修改，下面是我在做爬蟲是碰到的幾種錯誤，分享給大家。

提取頁面數據時，數字越界之類的提醒

在我們利用xpath提取數據的時候，時常會碰到越界的提示，這裡歸結為一句話是對頁面的html結構了解的不夠，對xpath的語法掌握的不夠。比如xpath("./a/text()")和xpath("/a/text()")表達的意思是不一樣的。

頁面的問題，如果只是普通的頁面，你直接用url帶上相應的參數發送請求，對方伺服器就可以響應

我們經常碰到一個爬蟲爬某些頁面的時候正常工作，爬其它的頁面的時候頁面內容爬取不下來，為什麼？因為cookie，出於安全的考慮，現在的頁面都會在本地存儲一些cookie，在用戶下次訪問的時候直接根據cookie來判斷是否需要登錄之類的。這個時候，需要我們也偽裝成之前登錄過訪問過的樣子，因此，需要在正常的請求基礎上添加上一些頭部信息之類的。

robots.txt，爬蟲應該注意爬取網站的robots.txt文件，那些域名是允許爬取的，那些域名下是不允許的

在我們利用scrapy等爬蟲框架爬取的時候，要注意這些，默認情況下scrapy是嚴格遵守這些協議的。因此，需要我們在設置文件里將此項設置為false，這樣就可以不受robots的約束。

當然，問題不止上面列舉的幾個問題，還有很多其它。總的來說，碰到了問題通過百度搜索都可以幫助我們解決掉，所以碰到問題多搜索，搜索後多看，多研究。問題自然就會解決掉。關鍵是要用心去對待問題。

爬蟲報錯，有好多可能，從一個新手角度來看，大致有以下幾條：

1、ImportError 導入模塊/對象失敗

這類錯誤往往是在導入模塊的時候報錯，比如導入失敗或者沒有安裝對應的模塊

處理方式：安裝相應的模塊，或者檢查語法是否輸入錯誤等等

點此查看圖片摺疊原因