大眾點評店鋪評論數據不是非同步載入的,你可以直接get獲取,然後解析數據就可以。如圖,這是網頁顯示的信息:

這個是源碼的信息:

可以看的出來,你看到的信息直接是在源碼上顯示的,所以不是非同步載入數據,你可以直接用BeautifulSoup或正則表達式進行匹配。

你應該需要爬取的是每個店鋪所有的評論信息,這個你只需要在原來的店鋪URL地址上review_all就行,這個是店鋪的URL地址,如圖:

而所有的評論如圖:

URL地址如下圖:

實現的化,就用python拼接一下字元串就行,每個店鋪的所有評論URL都是這樣的。至於翻頁的話,你也可以看出來,參數是p+頁碼,如圖:

這是我爬取的一部分信息,我爬了大概能有十幾萬條:

這裡有幾點建議,如下:

1.設置一個ip代理池,不然的話,爬一兩個店鋪ip就會被禁掉,得等好長時間才能爬。

2.如果要把數據存到mysql等資料庫中,注意設置好字元編碼,不然插入數據的時候會經常報錯,像表情符號、經文這些一般字元編碼根本就不行。

你可以參考一下這個代碼,我以前寫的,包含爬取分類、店鋪和評論三級頁面的代碼,http://download.csdn.net/download/xiaopang123__/10028066,希望你上內容對你能有所幫助。


推薦閱讀:
相关文章