這兩天, 寫了個豆瓣電影爬蟲, 自己發明的BFS改良"演算法", 整了點小技巧, 繞過豆瓣反爬蟲機制. 一百個線程, 每秒200個http請求. 遠遠超過了豆瓣robots.txt:

User-agent: Slurp
User-agent: Sosospider
Crawl-delay: 5
Visit-time: 0100-1300
Request-rate: 40/1m 0100 - 0759
Request-rate: 12/1m 0800 - 1300

提示: 豆瓣電影不是以IP來把你關到小黑屋. 想問個問題, 偌大的公司, 為嘛不以IP來禁止? 靠HTTP header來判定, 跟沒有一樣. 順便說句, 我一哥們, 從0循環到30000000, 一次次地嘗試, 用的代理.

我承認我是來挑釁豆瓣的, User-Agent寫的是"I am a geekman! welcome to send mail. [email protected]", 就等他們來發郵件, 誰叫他們不鳥我簡歷.


首先,geek就行了。。不用geekman。。。其次。。。send email就好,mail還得知道你家住哪。。。也是醉了。

沖這英文,估計人家也是不會鳥你。

我想,豆瓣應該就是故意讓大家爬著玩玩的。不然那麼多爬取豆瓣的教程要怎麼辦?

=。=


無視你簡歷可能是你簡歷用英文寫的?
求指導,怎麼能避過豆瓣反爬蟲機制,我這才200個頁面,再發請求就返回403了
NAT!可能一個IP背後, 就是數十萬的寬頻用戶, 要是因為一個壞蛋封了IP,其他用戶都得403了。
沒代碼,你說個
沒法用IP吧。這東西又不是人手一個。無意看到這個問題,您的英語也是醉人。。。


大神,求知道


;求分享代碼

20年才看到這個問題,我有點想笑哈哈哈哈,多的就不說了,這麼多年過去了說明你也懂了


豆瓣採集(按小組)爬蟲


推薦閱讀:
相关文章