各位大神,假如有300個賬號,需要一個一個賬號登錄進去,然後提取指定位置的內容到excel表裡,這個可以用python實現嗎,登錄的時候是需要驗證碼的


可以看看我以前寫的一篇彈幕爬取的文章

https://zhuanlan.zhihu.com/p/115244399


新手的話,可以先去看看小甲魚的urllib3爬蟲教程,然後可以接著學request庫,beautifulsoup4,spicy(沒記錯的話好像是這個,太久沒搞爬蟲了)等爬蟲庫。

爬蟲的方法,其實就是用代碼來偽裝成瀏覽器,去訪問對應的url,然後獲取到返回到的內容,這部分內容可以是網頁源代碼,圖片,mp3,視頻等,其實歸根結底就是獲取到url指向的在伺服器里對應的文件內容,然後根據不同的文件類型來選擇不同編碼來解析。而在這基礎上,則會有很多其他補充內容和技巧,比如反爬蟲和規避反爬蟲,獲取驗證碼,獲取JS實時生成的內容,甚至模擬鍵鼠操作等。


不同賬號只是對應的cookies不同而已,另外驗證碼可以自己用深度學習框架Keras構建一個CNN網路模型來識別驗證碼。


這個需要爬蟲,python是當前寫爬蟲比較方便的一個語言。

根據你的需求,爬蟲系統需要,實現登錄,驗證碼識別,網頁內容解析,數據保存。

你需要了解是

1.通過flask實現登錄獲取登錄後的cookie,把cookie保存在redis資料庫,定期驗證cookie是否過期,裡面還包括訪問打碼平台進行驗證碼識別,通常是訪問平台的API介面,提交驗證碼圖片

2.靜態網頁訪問request,非同步訪問selenium,網頁解析beautifulsoup,pyquery,lmxl等等

3.數據結構化和保存就pandas就行


實現是可以實現的,但是驗證碼比較難搞,普通的驗證碼使用opencv配合Image模塊識別,比較複雜的就需要使用打碼平台了。


可以的。python有request庫,可以發送請求。去了解下python爬蟲,需要分析網頁具體情況才能看怎麼實現。


推薦閱讀:
相关文章