python3.6爬蟲練習-爬取豆瓣《無雙》影評

代碼主要參考鏈接：https://segmentfault.com/a/1190000010473819

主要內容：使用的python版本是3.6.

抓取網頁數據
清理數據
用詞雲進行展示

一.抓取網頁數據：

第一步要對網頁進行訪問，python中使用的是urllib庫。代碼如下：

from urllib import request resp = request.urlopen(https://movie.douban.com/cinema/nowplaying/xian/) html_data = resp.read().decode(utf-8) print(html_data) 結果如下： D:applicationAnaconda3python.exe F:/test/venv/pachong_learning.py <!DOCTYPE html> <html lang="zh-cmn-Hans" class=""> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <meta name="renderer" content="webkit"> <meta name="referrer" content="always"> <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" /> <title> 豆瓣電影

其中https://movie.douban.com/是豆瓣最新上映的電影頁面，可以在瀏覽器中輸入該網址進行查看。html_data是字元串類型的變數，裡面存放了網頁的html代碼。

第二步，需要對得到的html代碼進行解析，得到裡面提取我們需要的數據。

在python中使用BeautifulSoup庫進行html代碼的解析。

BeautifulSoup使用的格式如下：

BeautifulSoup(html,"html.parser")

第一個參數為需要提取數據的html，第二個參數是指定解析器，然後使用find_all()讀取html標籤中的內容。

但是html中有這麼多的標籤，該讀取哪些標籤呢？其實，最簡單的辦法是我們可以打開我們爬取網頁的html代碼，然後查看我們需要的數據在哪個html標籤裡面，再進行讀取就可以了。如下圖所示：