使用https協議或用全flash建站。
在伺服器端判斷訪問來源,如果是蜘蛛直接404就可以了


第一種:robots.txt方法

站點根目錄中有個robots.txt,沒有的話可以新建一個上傳。User-agent: *Disallow: /

禁止所有搜索引擎訪問網站的所有部分

User-agent: *Disallow: /css/Disallow: /admin/禁止所有搜索引擎訪問css 和admin 目錄,將CSS或admin目錄修改為你指定的文件目錄或文件即可。

第二種:網頁代碼方法

&與&之間,加入&代碼,此標記禁止搜索引擎抓取網站並顯示網頁快照。註:已經加了禁止代碼,但是搜索引擎還可以搜索出來,因為搜索引擎索引資料庫的更新需要時間。雖然Baiduspider已經停止訪問您網站上的網頁,但百度搜索引擎資料庫中已經建立的網頁索引信息,可能需要數月時間才會清除。

對於正常的crawler你寫在robots.txt裏就可以了

對於流氓的crawler,只要還有用戶訪問你的網站,你就根本攔不住它

crawler完全可以模仿用戶的訪問行為

除非像 @鄧文博說的那樣
防止搜索引擎爬全站的話應該沒什麼意義吧。對於特定的頁面,可以配置robots,當然前提是爬蟲要遵循協議;一些流氓爬蟲,還是直接封了吧
使用robots.txt文件已經完全可以了吧,沒必要這麼絕對吧


你可以諮詢京東啊,噹噹啊,人家一淘抓取他們的東西的時候,怎麼乾的。哈哈
推薦閱讀:
相關文章