如何用R做web scraping/抓取网页数据？

即将开始实习，工作内容主要是用R里面的package做Web scraping
就是将竞争对手的网站上的数据搞下来，本人实在是R的菜鸟，请问有哪些包裹可以做 web scraping ？然后怎么快速入门做web scraping? 到哪里去查相关信息？

谢谢啦！

为什么不用其他更主流的方式

要么用PYTHON

要么用我们八爪鱼吧，有很多做好的模板

就算你GOOGLE搜web scraping,web crawler，GG也是推荐我们家octoparse产品

rvest, RCurl多动手尝试，利用好谷歌（实在不行就百度）。

其实我觉得最快速的入门就是找一个成熟的网路爬虫软体。

把更多的精力放到挖掘竞争对手以及分析竞争对手的数据上，价值会更大一些。

利益相关：我们后羿采集器是一款面向小白用户的智能采集软体，导出数据到本地文件和资料库没有数量限制，不要钱不要积分

编辑于 2019-12-18继续浏览内容知乎发现更大的世界打开Chrome继续简数采集平台?

已认证的官方帐号

如果公司规范与计划的最终需求是想把竞争对手的网站上公开的数据采集下来的话，而没有设定使一定要使用什么方式的话，建议没有必要重复造轮子了，直接使用采集工具，效率更高，性价比更好。

自推荐一下简数采集平台，简数采集平台有免费版本，你可以快速体验测试一下，是否满足公司的需求。下面给提供一下快速入门教程及视频教程，一般来说半个钟左右就可以入门进行采集了。

采集入门教程(简化版) · 简数采集帮助中心?

doc.keydatas.com

采集入门教程(视频版) · 简数采集帮助中心?

doc.keydatas.com

发布于 01-06继续浏览内容

知乎发现更大的世界打开

Chrome继续

木头不做死也可以死1，Rcurl+XML包，百度R七种武器之Rcurl 可稍微入门;2，rvest+XML+httr 来网路爬取也不错;3，可读书籍 Automated Data Collection with R，不错;有翻译版《基于R语言的自动数据收集》4，静态页面数据 Rcurl+XML/rvest+XML+httr 均很方便;5，涉及到ajax,《基于R语言的自动数据收集》中有解决方案,个人因为selenium没有下载成功,未实验成功。6，关于多线程并行爬取,可用plyr包中的l_plyr系列函数,里面有并行参数,设置.parallel = TRUE,另外需要额外设置.paropts 参数,注：需要安装foreach,pararell并行包.

采集入门教程(简化版) · 简数采集帮助中心?

doc.keydatas.com

采集入门教程(视频版) · 简数采集帮助中心?

doc.keydatas.com

发布于 01-06继续浏览内容

知乎发现更大的世界打开

Chrome继续

木头不做死也可以死1，Rcurl+XML包，百度R七种武器之Rcurl 可稍微入门;

2，rvest+XML+httr 来网路爬取也不错;3，可读书籍 Automated Data Collection with R，不错;有翻译版《基于R语言的自动数据收集》4，静态页面数据 Rcurl+XML/rvest+XML+httr 均很方便;5，涉及到ajax,《基于R语言的自动数据收集》中有解决方案,个人因为selenium没有下载成功,未实验成功。6，关于多线程并行爬取,可用plyr包中的l_plyr系列函数,里面有并行参数,设置.parallel = TRUE,另外需要额外设置.paropts 参数,注：需要安装foreach,pararell并行包.

1，Rcurl+XML包，百度R七种武器之Rcurl 可稍微入门;2，rvest+XML+httr 来网路爬取也不错;3，可读书籍 Automated Data Collection with R，不错;有翻译版《基于R语言的自动数据收集》4，静态页面数据 Rcurl+XML/rvest+XML+httr 均很方便;

5，涉及到ajax,《基于R语言的自动数据收集》中有解决方案,个人因为selenium没有下载成功,未实验成功。

6，关于多线程并行爬取,可用plyr包中的l_plyr系列函数,里面有并行参数,设置.parallel = TRUE,另外需要额外设置.paropts 参数,注：需要安装foreach,pararell并行包.

我不知道你说的菜鸟是菜到哪个程度，有没有我菜。我反正医学出身你知道离coder有多远了。

我学R刚开始也就是跟著网上的资料打游击，跟著别人的教程、案例做，知识零散。

估计你现在还能搜到那个爬取豆瓣top250电影的教程，用的是RCurl，不过没有讲解。这是我学的第一个案例，照著代码改了改，去爬JAMA的文章，并不懂原理。后来用多几次才自己找到规律。

后来就遇到了rvest的教程，现在有挺多。R语言中文社区发过几篇案例。讲解有，但不会特别针对菜鸟解释一些很基础的概念。我也不记得我用了多少次才理解%&>%的意义。

接著听说python能模拟登录，那么R行不行啊？一找果然行，在stackoverflow上找到的，这个论坛也可以逛逛。模拟登录还是用rvest。

现在我最常用的就是rvest，有时候配合这httr和XML。感觉rvest会拆解网页结构，比RCurl好用一些（也可能是因为我太早抛弃RCurl以至于没怎么了解它）。而且它帮助文件也不长，比较容易读完有成就感。

其间还看过一些python的教程。听说python爬虫比较系统，但我嫌麻烦一直没能学起来，主要是去学习里面讲解的网页知识，仿佛打开新世界的大门。

还翻过文献，印象中RCrawler这个包发表的时候，文章盘点了好几个R的爬虫包，包括上面谈到的那些，以及它们的优劣，谈到RCrawler的优势是可以下载、抓取好几层等等。不过这个包我也没用起来。要下载图片等文件的时候我会配合downloader包。

再后来我就遇到这本书