搜索引擎爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,按搜索引擎不同主要有Google爬虫、百度爬虫、好搜、搜狗、必应爬虫等等,在互联网世界里,网站对待爬虫的态度主要有两种,一种是限制甚至屏蔽爬虫,一种是不惜任何手段讨好爬虫。

一般来说,网站限不限制都要衡量爬虫是否符合自己利益诉求,主要考虑以下几点,

1、爬虫作为一个程序,是否对网站伺服器资源负担很重;没有对比就没有伤害,百度爬虫对伺服器负担比较大,如果抓取数据太多,对伺服器是个很大的负担,谷歌爬虫相对就没那么占用伺服器资源了,反应速度也更快。

2、爬虫抓取网站数据是否对用户隐私信息造成影响;私密论坛,商业数据网站根本不想别人来爬东西,反之资讯站,博客站点等就没这个担心了。

3、网站对流量入口是否有控制权。这个就比较有意思了,谁都希望把流量入口拽在手里,尤其是对一些有足够筹码的大站,屏蔽那是没得说,典型的就是淘宝了,明面上你的说保护用户隐私,屏蔽成交等敏感信息,其实大家都清楚,流量入口的争夺战从来都没有停止,对淘宝来说这么做更符合自己的利益。

那么,不屏蔽搜索引擎爬虫就很好理解了,一般都是希望通过搜索引擎带来更多的流量,前提就是讨好搜索引擎爬虫,想方设法让爬虫过来抓取网页数据,抓少了还得反省自查,当然不可能干出屏蔽的事了,这一过程通常也是SEO的过程。


每个网站站长,他可以根据自己网站的行业情况来屏蔽搜索引擎的抓取。

一般情况下没有写屏蔽规则,意味著所有的酸情都可以来爬去收录,但这样的话,会导致网站的网路资源被过度占用,对伺服器和访客带来访问的延迟或者压力。

所以要对一些国外的搜索引擎爬虫排除进行屏蔽,只保留国内的知名的搜索引擎。一般懂优化的站长都会这么做。

如果说网站没有写著robots规则,那意味著允许所有爬去进行抓取与收录。

检查一个网站是否有写著robots规则的方法很简单,网址后面跟著/robots.txt就可以了。

对这块想了解详情可以具体和我进行交流。??


您好!

不是一些网站不会屏蔽搜索引擎的爬虫,而是绝大部分网站都不会屏蔽的。除非你是特定行业,像淘宝就屏蔽了搜索引擎抓取内页,这个也很好理解,淘宝如果不屏蔽的话,就会造成商家的店铺以及商品被抓取,那么商家就会去做百度竞价,而不会做淘宝联盟的推广,这样淘宝岂不是得不偿失?

一般的网站都不屏蔽搜索引擎的抓取,主要是因为需要搜索引擎带来流量呀!!!!


推荐阅读:
相关文章