我在看到這個消息的時候,比起文章的內容,更讓我好奇的是:馬蜂窩究竟是如何把這麼多內容搬運到自己這裡的?

畢竟,按照作者的說法,馬蜂窩抄襲了1800萬條點評,那麼意味著,平均每天要搬運6600多條記錄,這還不算問答和攻略,而且是在全年無休的情況下才能實現。全靠人力的話,馬蜂窩整個公司啥都不用幹了,天天複製、粘貼就好了。所以,這肯定是工具化解決

今天,我們也立足於真實的業務場景,和大家談一個互聯網中非常重要,但又引發無數爭議的工具——爬蟲。

一、什麼是爬蟲?

所謂爬蟲,如果從技術原理上講,它就是一個高效的下載工具,能夠批量將網頁下載到本地,留作備份。如果結合一些其他工具和演算法,就能夠實現,收集同一類型的網頁,重複執行同一動作等行為。

簡單講,就是通過技術和演算法模擬一個人在網路上的行為,像人一樣點網頁,像人一樣下訂單,只不過,相比起真人,他的效率高的異常。

二、爬蟲的善與惡

爬蟲也分善惡。

爬蟲最為廣泛,也使人受益最大的應用就是搜索引擎。

現在,幾乎所有有一定體量的app,都會有一個搜索框,通過搜索框,你可以查找到各種你需要的信息和內容,這是爬蟲對人最大的價值。同時,也是支撐起谷歌近萬億美元市值的工具之

接下來,我們來展示一下那些惡意爬蟲應用,以及這些應用都是怎麼賺錢的?

1)刷票軟體

許多刷票軟體,通過加價,或者要求分享轉發的方式,幫助你買票,進而實現收入或者用戶的增長。

2)殭屍粉大軍

我們經常能夠看到一些微博名稱中帶著一長串數字,沒有頭像,卻瘋狂的轉發一些熱門評論,或者瘋狂對著一個微博點贊轉發,點開主頁卻一條微博都沒有。這些沒有頭像,以數字命名的微博粉絲,就是殭屍粉。

3)返利電商刷低價

利網站是將商品爬取出來, 聚合在一起展示出來,順道把不同網站的商品做一個比價。

4)社區批量抓取數據和內容

其實,許多社區產品中的內容,大多數都是爬蟲爬取而來,除了像馬蜂窩,許多問答、文庫或招聘網站都會通過爬蟲獲取內容。

三、我究竟應該如何看待爬蟲?

對於個人而言,爬蟲作為高效的信息和數據獲取工具,一定是互聯網人的必備技巧,他將大幅節省你的時間,極大程度提高你的工作效率。但是,技術雖然有價值,如何使用技術就成為新的問題。究竟該如何看待爬蟲這個問題留給大家,想看看大家對於此是如何考慮的?


推薦閱讀:
查看原文 >>
相關文章