最近在學習python爬蟲,想採集爬取抖音用戶信息,因為看到相關爬蟲崗位有這個需求,突發奇想,分享一下經驗,順便整理自己的思路。首先是看到b站不二小段的爬蟲視頻,頭腦王者的外掛,通過修改fidder函數把頭腦王者的json數據包保存本地,用python腳本循環讀取數據包,然後自動打開瀏覽器搜索題目。現在我就想把這個思路擴展一下到抖音這裡來。

首先安裝最新的fidder,抖音用戶的數據包傳輸協議是https。需要下載fidder的證書,安裝到手機或者安卓模擬器。我用的模擬器,然後設置安卓的模擬器的代{過}{濾}理IP設置為電腦的IP,現在模擬器所有的網路請求都被fidder獲取了,現在我們就是要抓取數據包,分析數據包,推薦一個分析json包的網址,能把很複雜難懂的數據節展現的很清晰,在模擬器刷抖音的時候json數據包,我就一個個的把它複製出來看下,網址在圖片中。

接下來就想辦法保存這個數據包,重點就是修改fidder函數,fidder這個工具在做爬蟲和外掛的時候經常使用,特地的學習了一下這個fidder的使用。修改fiiderscript,這個包含用戶信息的json數據包的請求網址和host都是一樣的,利用這個修改的函數,把它保存到本地某個文件夾。

fidder函數的保存到本地的數據只能覆蓋,不能添加,所以只能用腳本循環讀取了,所以用python寫個腳本吧,把讀出來的數據解析一下,保存到本地資料庫。

現在就差最後一步寫一個模擬人工劃抖音的腳本了,既然用模擬器的話,想要多開幾個,數據就會保存的更快那就用最小的解析度寫一個吧 320*480的解析度,節約資源,抓取用戶的信息要進入個人主頁。思路是在抖音裡面往上劃,識別是不是廣告或者直播,是廣告再往下話,不是點頭像,延時返回,然後循環。打包成apk安裝到模擬器實機測試!速度還不錯。還要繼續優化腳本,設置清除緩存的功能纔好,緩存太多了就會很卡。

其實抓包的過程中有好多有意思的東西,比如抓到了無水印的視頻鏈接,可以收集下來,哈哈。還有一些細節問題,沒有寫清楚,有問題不懂的可以留言我會仔細解答哈。

最後附件代碼打包百度雲鏈接:pan.baidu.com/s/13ygH81 密碼:hzn5。

這個帖子也發在吾愛破解了還有我的個人公眾號:pythontest,標題是一樣的,後期可能會同步的。

推薦閱讀:

相關文章