我在看到这个消息的时候,比起文章的内容,更让我好奇的是:马蜂窝究竟是如何把这么多内容搬运到自己这里的?

毕竟,按照作者的说法,马蜂窝抄袭了1800万条点评,那么意味著,平均每天要搬运6600多条记录,这还不算问答和攻略,而且是在全年无休的情况下才能实现。全靠人力的话,马蜂窝整个公司啥都不用干了,天天复制、粘贴就好了。所以,这肯定是工具化解决

今天,我们也立足于真实的业务场景,和大家谈一个互联网中非常重要,但又引发无数争议的工具——爬虫。

一、什么是爬虫?

所谓爬虫,如果从技术原理上讲,它就是一个高效的下载工具,能够批量将网页下载到本地,留作备份。如果结合一些其他工具和演算法,就能够实现,收集同一类型的网页,重复执行同一动作等行为。

简单讲,就是通过技术和演算法模拟一个人在网路上的行为,像人一样点网页,像人一样下订单,只不过,相比起真人,他的效率高的异常。

二、爬虫的善与恶

爬虫也分善恶。

爬虫最为广泛,也使人受益最大的应用就是搜索引擎。

现在,几乎所有有一定体量的app,都会有一个搜索框,通过搜索框,你可以查找到各种你需要的信息和内容,这是爬虫对人最大的价值。同时,也是支撑起谷歌近万亿美元市值的工具之

接下来,我们来展示一下那些恶意爬虫应用,以及这些应用都是怎么赚钱的?

1)刷票软体

许多刷票软体,通过加价,或者要求分享转发的方式,帮助你买票,进而实现收入或者用户的增长。

2)僵尸粉大军

我们经常能够看到一些微博名称中带著一长串数字,没有头像,却疯狂的转发一些热门评论,或者疯狂对著一个微博点赞转发,点开主页却一条微博都没有。这些没有头像,以数字命名的微博粉丝,就是僵尸粉。

3)返利电商刷低价

利网站是将商品爬取出来, 聚合在一起展示出来,顺道把不同网站的商品做一个比价。

4)社区批量抓取数据和内容

其实,许多社区产品中的内容,大多数都是爬虫爬取而来,除了像马蜂窝,许多问答、文库或招聘网站都会通过爬虫获取内容。

三、我究竟应该如何看待爬虫?

对于个人而言,爬虫作为高效的信息和数据获取工具,一定是互联网人的必备技巧,他将大幅节省你的时间,极大程度提高你的工作效率。但是,技术虽然有价值,如何使用技术就成为新的问题。究竟该如何看待爬虫这个问题留给大家,想看看大家对于此是如何考虑的?


推荐阅读:
查看原文 >>
相关文章