搜索引擎爬蟲是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本,按搜索引擎不同主要有Google爬蟲、百度爬蟲、好搜、搜狗、必應爬蟲等等,在互聯網世界裡,網站對待爬蟲的態度主要有兩種,一種是限制甚至屏蔽爬蟲,一種是不惜任何手段討好爬蟲。

一般來說,網站限不限制都要衡量爬蟲是否符合自己利益訴求,主要考慮以下幾點,

1、爬蟲作為一個程序,是否對網站伺服器資源負擔很重;沒有對比就沒有傷害,百度爬蟲對伺服器負擔比較大,如果抓取數據太多,對伺服器是個很大的負擔,谷歌爬蟲相對就沒那麼佔用伺服器資源了,反應速度也更快。

2、爬蟲抓取網站數據是否對用戶隱私信息造成影響;私密論壇,商業數據網站根本不想別人來爬東西,反之資訊站,博客站點等就沒這個擔心了。

3、網站對流量入口是否有控制權。這個就比較有意思了,誰都希望把流量入口拽在手裡,尤其是對一些有足夠籌碼的大站,屏蔽那是沒得說,典型的就是淘寶了,明面上你的說保護用戶隱私,屏蔽成交等敏感信息,其實大家都清楚,流量入口的爭奪戰從來都沒有停止,對淘寶來說這麼做更符合自己的利益。

那麼,不屏蔽搜索引擎爬蟲就很好理解了,一般都是希望通過搜索引擎帶來更多的流量,前提就是討好搜索引擎爬蟲,想方設法讓爬蟲過來抓取網頁數據,抓少了還得反省自查,當然不可能幹出屏蔽的事了,這一過程通常也是SEO的過程。


每個網站站長,他可以根據自己網站的行業情況來屏蔽搜索引擎的抓取。

一般情況下沒有寫屏蔽規則,意味著所有的酸情都可以來爬去收錄,但這樣的話,會導致網站的網路資源被過度佔用,對伺服器和訪客帶來訪問的延遲或者壓力。

所以要對一些國外的搜索引擎爬蟲排除進行屏蔽,只保留國內的知名的搜索引擎。一般懂優化的站長都會這麼做。

如果說網站沒有寫著robots規則,那意味著允許所有爬去進行抓取與收錄。

檢查一個網站是否有寫著robots規則的方法很簡單,網址後面跟著/robots.txt就可以了。

對這塊想了解詳情可以具體和我進行交流。??


您好!

不是一些網站不會屏蔽搜索引擎的爬蟲,而是絕大部分網站都不會屏蔽的。除非你是特定行業,像淘寶就屏蔽了搜索引擎抓取內頁,這個也很好理解,淘寶如果不屏蔽的話,就會造成商家的店鋪以及商品被抓取,那麼商家就會去做百度競價,而不會做淘寶聯盟的推廣,這樣淘寶豈不是得不償失?

一般的網站都不屏蔽搜索引擎的抓取,主要是因為需要搜索引擎帶來流量呀!!!!


推薦閱讀:
相关文章