我需要爬取文書網上文書的鏈接,用的request+beautifulsoup,但是鏈接數據是動態載入的,鏈接應該封裝在js中,但是沒找到,我現在比較急,想請教下各位,謝謝,列表頁 - 中國裁判文書網


碰到動態載入的頁面一般處理方法如下:

1、打開谷歌或者谷歌內核瀏覽器,打開頁面單擊右鍵審查元素或者鍵盤F12,依次選擇圖中的選項。

2.刷新頁面就能找到載入數據的介面了

3.構建數據介面請求數據,獲取文書id,構造具體文書頁面的url,訪問抓取


如果是JS的URL請查找關鍵詞:無頭瀏覽器

爬動態網頁我是用的selenium庫,比起分析js請求簡單多了。

selenium主要是模擬瀏覽器行為,寫好代碼以後會自動啟動瀏覽器,進行想要的操作,得到的page_source是請求之後的,然後再用beautifulsoup解析網址就好了。

具體操作可以看下【pthon爬蟲】為什麼在網頁檢查中找到的class關鍵字,在網頁源碼中不存在?


F12 看network 中,動態載入的數據是從哪兒來的,你直接從介面拿數據,更方便


推薦閱讀:
相關文章