开发python网路爬虫需要哪些第三方库?
这么多个库选择哪些好呢
import os
import json
import urllib.requestimport urllib.parse# import chardetimport socket
import timeimport gzipfrom io import BytesIObeautifulsoup.
urlib
json
还有好多好多
一站式博客 静觅
三方库的话,说一下自己常用的,自己觉得比较好用的库
像发起请求的话最喜欢用的还是requests这个三方库,构建请求特别方便
解析的话用beautifulsoup、lxml的etree都是比较不错的解析库
取数据的话,像正则表达式、xpath这些比较喜欢用
request、BeautifulSoup、Scrapy框架
可参考下面的博文进行入门:
python网路爬虫和信息提取_庸俗的情怀 共勉-CSDN博客?blog.csdn.netrequests库,这是请求URL的库,好用,之前用的urllib库,但不如requests库好用
BeautifulSoup或lxml,这是解析网页的库
re,正则表达式的库
如果需要处理或保存数据到Excel的话推荐pandas库
Python还有专门的爬虫框架,如Scrapy,PySpider,Crawley等
今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是:
- Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。
- Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。
- wxPython.Python的一个GUI(图形用户界面)工具。我主要用它替代tkinter。你一定会爱上它的。
- Pillow.它是PIL(Python图形库)的一个友好分支。对于用户比PIL更加友好,对于任何在图形领域工作的人是必备的库。
- SQLAlchemy.一个资料库的库。对它的评价褒贬参半。是否使用的决定权在你手里。
- BeautifulSoup.我知道它很慢,但这个xml和html的解析库对于新手非常有用。
- Twisted.对于网路应用开发者最重要的工具。它有非常优美的api,被很多Python开发大牛使用。
- NumPy.我们怎么能缺少这么重要的库?它为Python提供了很多高级的数学方法。
- SciPy.既然我们提了NumPy,那就不得不提一下SciPy。这是一个Python的演算法和数学工具库,它的功能把很多科学家从Ruby吸引到了Python。
- matplotlib.一个绘制数据图的库。对于数据科学家或分析师非常有用。
- Pygame.哪个程序员不喜欢玩游戏和写游戏?这个库会让你在开发2D游戏的时候如虎添翼。
- Pyglet.3D动画和游戏开发引擎。非常有名的Python版本Minecraft就是用这个引擎做的。
- pyQT.Python的GUI工具。这是我在给Python脚本开发用户界面时次于wxPython的选择。
- pyGtk.也是Python GUI库。很有名的Bittorrent客户端就是用它做的。
- Scapy.用Python写的数据包探测和分析库。
- pywin32.一个提供和windows交互的方法和类的Python库。
- nltk.自然语言工具包。我知道大多数人不会用它,但它通用性非常高。如果你需要处理字元串的话,它是非常好的库。但它的功能远远不止如此,自己摸索一下吧。
- nose.Python的测试框架。被成千上万的Python程序员使用。如果你做测试导向的开发,那么它是必不可少的。
- SymPy.SymPy可以做代数评测、差异化、扩展、复数等等。它封装在一个纯Python发行版本里。
- IPython.怎么称赞这个工具的功能都不为过。它把Python的提示信息做到了极致。包括完成信息、历史信息、shell功能,以及其他很多很多方面。一定要研究一下它。
requests,execjs,nodejs,lxml,scrapy等。
最常用的:
requests,
lxml,
re,
os,
time
推荐阅读: