2.使用命令:activate 環境名,例如:
activate learn
3.進入想要存放 scrapy 項目的目錄下 【注意】
4.新建項目:scrapy startproject xxx項目名,例如:
scrapy startproject new_project
5.操作截圖:
6.在文件資源管理器打開該目錄,就會發現生成了好幾個文件
7.使用 Pycharm 打開項目所在目錄就可以了
這裡我們就把項目創建好了,分析一下自動生成的文件的作用
項目的開發的大致流程:
1.明確需要爬取的目標/產品:編寫 item.py
2.在 spider 目錄下載創建 python 文件製作爬蟲:
地址 spider/xxspider.py 負責分解,提取下載的數據
3.存儲內容:pipelines.py
Pipeline.py 文件
對應 pipelines 文件
爬蟲提取出數據存入 item 後,item 中保存的數據需要進一步處理,比如清洗,去蟲,存儲等
Pipeline 需要處理 process_item 函數
process_item
spider 提取出來的 item 作為參數傳入,同時傳入的還有 spider
此方法必須實現
必須返回一個 Item 對象,被丟棄的 item 不會被之後的 pipeline
_ init _:構造函數
進行一些必要的參數初始化
open_spider(spider):
spider 對象對開啟的時候調用
close_spider(spider):
當 spider 對象被關閉的時候調用
Spider 目錄
對應的是文件夾 spider 下的文件
_ init _:初始化爬蟲名稱,start _urls 列表
start_requests:生成 Requests 對象交給 Scrapy 下載並返回 response
parse:根據返回的 response 解析出相應的 item,item 自動進入 pipeline:如果需要,解析 url,url自動交給 requests 模塊,一直循環下去
start_requests:此方法盡能被調用一次,讀取 start _urls 內容並啟動循環過程
name:設置爬蟲名稱
start_urls:設置開始第一批爬取的 url
allow_domains:spider 允許去爬的域名列表
start_request(self):只被調用一次
parse:檢測編碼
log:日誌記錄
原文: