Scrapy爬蟲，數據存入MongoDB

一、開始

首次登陸MongoDB，由於沒有設置用戶管理許可權，會給出警告，「WARNING: Access control is not enabled for the database」。警告（warning）和錯誤（error）不一樣，你完全可以忽略警告，並不影響你使用MongoDB。

即使你沒有創建管理員許可權，在沒有賬號和密碼的情況下也可以對資料庫進行操作。但是從安全的角度考慮，最好是給要操作的資料庫設置賬號和密碼。

stackoverflow上關於這個問題，有詳細的解答，鏈接如下：

MongoDB: Server has startup warnings Access control is not enabled for the database?

stackoverflow.com

MongoDB: Server has startup warnings?

stackoverflow.com

案例主要是參考了崔慶才 Scrapy 爬蟲框架入門案例詳解。只是在最後連接MongoDB資料庫的時候，由於他的是沒有密碼的連接，我設置過密碼，所以在連接方式上，加入了user，password。其他沒有什麼區別。

寫這篇文章，也是為了理順自己的思路，順便動手實踐一下。畢竟看別人的代碼和自己寫代碼運行很不一樣，即使你完全照著別人的代碼寫，由於配置環境或者版本問題，都會或多或少出現一些問題。

學習前期都是「依葫蘆畫瓢」，看別人是怎麼做的，別人的思路是怎樣。後期積累多了，遇到不同的業務場景，才會加入一些自己的思考。

二、MongoDB創建用戶

創建userAdminAnyDatabase角色，用來管理用戶，可以通過這個角色來創建、刪除用戶。

> use admin switched to db admin > db.createUser( ... { ... user: "userAdmin",//用戶名 ... pwd: "123",//密碼 ... roles: [ { role: "userAdminAnyDatabase", db: "admin" } ] ... } ... ) Successfully added user: { "user" : "dba", "roles" : [ { "role" : "userAdminAnyDatabase", "db" : "admin" } ] }

創建一個資料庫 tutorial，並創建一個角色 simple，可以對tutuorial資料庫進行讀寫

> use tutorial switched to db tutorial > db.createUser({user:"simple",pwd:"test",roles:[{role:"readWrite",db:"tutorial"}]}) Successfully added user: { "user" : "simple", "roles" : [ { "role" : "readWrite", "db" : "tutorial" } ] }

補充role用戶角色知識：

Read：允許用戶讀取指定資料庫
readWrite：允許用戶讀寫指定資料庫
dbAdmin：允許用戶在指定資料庫中執行管理函數，如索引創建、刪除，查看統計或訪問system.profile
userAdmin：允許用戶向system.users集合寫入，可以找指定資料庫裏創建、刪除和管理用戶
clusterAdmin：只在admin資料庫中可用，賦予用戶所有分片和複製集相關函數的管理許可權。
readAnyDatabase：只在admin資料庫中可用，賦予用戶所有資料庫的讀許可權
readWriteAnyDatabase：只在admin資料庫中可用，賦予用戶所有資料庫的讀寫許可權
userAdminAnyDatabase：只在admin資料庫中可用，賦予用戶所有資料庫的userAdmin許可權
dbAdminAnyDatabase：只在admin資料庫中可用，賦予用戶所有資料庫的dbAdmin許可權。
root：只在admin資料庫中可用。超級賬號，超級許可權

三、Scrapy爬蟲

（1）新建項目

由於我把scrapy爬蟲項目，都放在了scrapy_example文件夾中，所以會先進入相應的文件及，再執行命令

C:Users enqing.song>cd E:Program Filesscrapy_example

C:Users
enqing.song>e:

E:Program Filesscrapy_example>python -m scrapy startproject tutorial

New Scrapy project tutorial, using template directory E:\Program Files\Python 3.6.3\lib\site-packages\scrapy-1.5.0-py3.6.egg\scrapy\templates\project, created in:
E:Program Filesscrapy_example utorial

You can start your first spider with:
cd tutorial
scrapy genspider example example.com