開發python網路爬蟲需要哪些第三方庫?
這麼多個庫選擇哪些好呢
import os
import json
import urllib.requestimport urllib.parse# import chardetimport socket
import timeimport gzipfrom io import BytesIObeautifulsoup.
urlib
json
還有好多好多
一站式博客 靜覓
三方庫的話,說一下自己常用的,自己覺得比較好用的庫
像發起請求的話最喜歡用的還是requests這個三方庫,構建請求特別方便
解析的話用beautifulsoup、lxml的etree都是比較不錯的解析庫
取數據的話,像正則表達式、xpath這些比較喜歡用
request、BeautifulSoup、Scrapy框架
可參考下面的博文進行入門:
python網路爬蟲和信息提取_庸俗的情懷 共勉-CSDN博客?blog.csdn.netrequests庫,這是請求URL的庫,好用,之前用的urllib庫,但不如requests庫好用
BeautifulSoup或lxml,這是解析網頁的庫
re,正則表達式的庫
如果需要處理或保存數據到Excel的話推薦pandas庫
Python還有專門的爬蟲框架,如Scrapy,PySpider,Crawley等
今天我將介紹20個屬於我常用工具的Python庫,我相信你看完之後也會覺得離不開它們。他們是:
- Requests.Kenneth Reitz寫的最富盛名的http庫。每個Python程序員都應該有它。
- Scrapy.如果你從事爬蟲相關的工作,那麼這個庫也是必不可少的。用過它之後你就不會再想用別的同類庫了。
- wxPython.Python的一個GUI(圖形用戶界面)工具。我主要用它替代tkinter。你一定會愛上它的。
- Pillow.它是PIL(Python圖形庫)的一個友好分支。對於用戶比PIL更加友好,對於任何在圖形領域工作的人是必備的庫。
- SQLAlchemy.一個資料庫的庫。對它的評價褒貶參半。是否使用的決定權在你手裡。
- BeautifulSoup.我知道它很慢,但這個xml和html的解析庫對於新手非常有用。
- Twisted.對於網路應用開發者最重要的工具。它有非常優美的api,被很多Python開發大牛使用。
- NumPy.我們怎麼能缺少這麼重要的庫?它為Python提供了很多高級的數學方法。
- SciPy.既然我們提了NumPy,那就不得不提一下SciPy。這是一個Python的演算法和數學工具庫,它的功能把很多科學家從Ruby吸引到了Python。
- matplotlib.一個繪製數據圖的庫。對於數據科學家或分析師非常有用。
- Pygame.哪個程序員不喜歡玩遊戲和寫遊戲?這個庫會讓你在開發2D遊戲的時候如虎添翼。
- Pyglet.3D動畫和遊戲開發引擎。非常有名的Python版本Minecraft就是用這個引擎做的。
- pyQT.Python的GUI工具。這是我在給Python腳本開發用戶界面時次於wxPython的選擇。
- pyGtk.也是Python GUI庫。很有名的Bittorrent客戶端就是用它做的。
- Scapy.用Python寫的數據包探測和分析庫。
- pywin32.一個提供和windows交互的方法和類的Python庫。
- nltk.自然語言工具包。我知道大多數人不會用它,但它通用性非常高。如果你需要處理字元串的話,它是非常好的庫。但它的功能遠遠不止如此,自己摸索一下吧。
- nose.Python的測試框架。被成千上萬的Python程序員使用。如果你做測試導向的開發,那麼它是必不可少的。
- SymPy.SymPy可以做代數評測、差異化、擴展、複數等等。它封裝在一個純Python發行版本里。
- IPython.怎麼稱讚這個工具的功能都不為過。它把Python的提示信息做到了極致。包括完成信息、歷史信息、shell功能,以及其他很多很多方面。一定要研究一下它。
requests,execjs,nodejs,lxml,scrapy等。
最常用的:
requests,
lxml,
re,
os,
time
推薦閱讀: