为什么一些网站不会屏蔽搜索引擎的爬虫？

搜索引擎爬虫是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，按搜索引擎不同主要有Google爬虫、百度爬虫、好搜、搜狗、必应爬虫等等，在互联网世界里，网站对待爬虫的态度主要有两种，一种是限制甚至屏蔽爬虫，一种是不惜任何手段讨好爬虫。

一般来说，网站限不限制都要衡量爬虫是否符合自己利益诉求，主要考虑以下几点，

1、爬虫作为一个程序，是否对网站伺服器资源负担很重；没有对比就没有伤害，百度爬虫对伺服器负担比较大，如果抓取数据太多，对伺服器是个很大的负担，谷歌爬虫相对就没那么占用伺服器资源了，反应速度也更快。

2、爬虫抓取网站数据是否对用户隐私信息造成影响；私密论坛，商业数据网站根本不想别人来爬东西，反之资讯站，博客站点等就没这个担心了。

3、网站对流量入口是否有控制权。这个就比较有意思了，谁都希望把流量入口拽在手里，尤其是对一些有足够筹码的大站，屏蔽那是没得说，典型的就是淘宝了，明面上你的说保护用户隐私，屏蔽成交等敏感信息，其实大家都清楚，流量入口的争夺战从来都没有停止，对淘宝来说这么做更符合自己的利益。

那么，不屏蔽搜索引擎爬虫就很好理解了，一般都是希望通过搜索引擎带来更多的流量，前提就是讨好搜索引擎爬虫，想方设法让爬虫过来抓取网页数据，抓少了还得反省自查，当然不可能干出屏蔽的事了，这一过程通常也是SEO的过程。

每个网站站长，他可以根据自己网站的行业情况来屏蔽搜索引擎的抓取。

一般情况下没有写屏蔽规则，意味著所有的酸情都可以来爬去收录，但这样的话，会导致网站的网路资源被过度占用，对伺服器和访客带来访问的延迟或者压力。

所以要对一些国外的搜索引擎爬虫排除进行屏蔽，只保留国内的知名的搜索引擎。一般懂优化的站长都会这么做。

如果说网站没有写著robots规则，那意味著允许所有爬去进行抓取与收录。

检查一个网站是否有写著robots规则的方法很简单，网址后面跟著/robots.txt就可以了。

对这块想了解详情可以具体和我进行交流。??

您好！

不是一些网站不会屏蔽搜索引擎的爬虫，而是绝大部分网站都不会屏蔽的。除非你是特定行业，像淘宝就屏蔽了搜索引擎抓取内页，这个也很好理解，淘宝如果不屏蔽的话，就会造成商家的店铺以及商品被抓取，那么商家就会去做百度竞价，而不会做淘宝联盟的推广，这样淘宝岂不是得不偿失？

一般的网站都不屏蔽搜索引擎的抓取，主要是因为需要搜索引擎带来流量呀！！！！

通讯/无线电塔的辐射会影响附近的居民区吗？