10分鐘學會數據信息採集：實現無限翻頁採集。

在昨天的文章中，詳細地介紹了web scraper的安裝以及完整的採集流程，但是也只是侷限在一個頁面採集，那麼如果我要實現多頁面採集呢，這要如何實現呢？

首先我們先來看看有哪些多頁面形式呢？我們在採集多頁面的時候，首先要做的就是觀察頁面在翻頁的時候，頁面鏈接是否發生變化，這裡主要可以分為3種形式來討論：

1、URL 參數分頁(比較規整方式)，URL 中帶有分頁的 page 參數的，如知乎，知乎在很多頁面的page參數都是非常規律的，就拿上個頁面的鏈接來看，原始的鏈接是這樣的：

但是當我們點擊頁面底下下的翻頁的數字時：

鏈接就會發生這樣的變化，第一頁，第二頁、第三頁、第N頁：

我們會發現，當我們翻到第N頁的時候，page後面的參數也是N，都是呈現規律式的變化，像這種分頁模式的處理就很簡單了。主要採用的方法是：直接在創建sitemap時，Start URL中就可以帶上分頁參數，寫成這樣：

https://www.zhihu.com/people/zhang-jia-wei/followers?page=[1-73255]

1-73255，指的是起始頁是1，最後頁是73255，並且用中括弧[]來表示。這樣就創建了關於知乎的多頁面採集。

其實還有一種情況類似規律性頁面分佈，但是又有所不同，我們就以豆瓣為例，來看下豆瓣的鏈接，下面分別是第一頁、第二頁、第三頁、第四頁、第10頁的頁面鏈接：

我們可以看到第一頁時，start的參數是0，第二頁的start參數是25，第三頁的start參數是50，以此類推，發現每個頁面參數都是相差25的，而不是知乎的1，這個時候我們的分頁鏈接可以寫成：

https://movie.douban.com/top250?start=[0-225:25]5&filter=

start的參數依然是用中括弧括起來的，0表示起始頁的start值，225表示最終頁的start參數值，25表示每個頁面的start值的距離，並且用冒號：來鏈接起來，表示的就是採集start值為0-225，並且每個頁面距離為25的頁面的數據。

2、上面介紹的其實就是規律分頁的形式，有明顯的規律可循，這也是絕大多數網站採用的方式，但是這幾年越來越多的網站為提高安全性和加強閱讀體驗，採用了諸如「點擊閱讀更多」「下拉載入」等不規律的分頁方法，例如it桔子網（http://www.itjuzi.com）和麥淘網（www.maitao.com），那這種頁面要怎麼採集呢？

事實上這種頁面採集還是比較簡單的。先來看it桔子，就以在it桔子中搜索「親子」得到的結果為例，頁面鏈接如下。

（https://www.itjuzi.com/search?word=%E4%BA%B2%E5%AD%90）

在觀察頁面的時候，我們看到it桔子是以「點擊載入更多」來實現翻頁的：