我將一個完整的數據分析過程分成以下幾步:

  1. 提出問題
  2. 獲得數據
  3. 數據清洗
  4. 數據分析
  5. 得出結論

下面針對每一步開展具體的分析工作

——————

提出問題

我想知道最近深圳各個區的平均租房價格如何,比較一下各區的房價高低。這是我進行數據分析的目的。

——————

獲得數據

有了問題,接下來就應該針對問題去尋找數據。我這裡選擇了鏈家網的租房信息。

鏈家網租房信息頁面

可以看到租房信息主要包括地區、面積、朝向、格局、租金這幾部分,基本上包括了我所需要的信息。熟悉爬蟲的可以自己用爬蟲爬取頁面上的相關信息,不熟悉爬蟲的也可以利用現有的爬蟲軟體獲取數據。

這裡我使用的是后羿採集器,需要下載客戶端,具體的用法可以點開鏈接在官網查看教程。輸入需要爬取的網址並根據自己的需要修改相關設置後,我將結果導出為Excel的.xlsx文件。

——————

數據清洗

獲得數據之後要對數據進行清洗,因為得到的數據結構可能比較亂,不適合之後的分析。比如我導出的.xlsx文件中,地區、面積、朝向、格局都在一個單元格內,而且是用換行符隔開的,無法直接通過分列將它們分開。這裡我利用Excel的clean函數,該函數可以刪除文本中所有不能列印的字元。然後利用空格將它們分開。

對於少部分缺少地區信息的行,我利用篩選功能將其選出然後刪除掉了。最後得到了如下的表格內容。

——————

數據分析

接下來是數據分析的內容。利用數據透視表,比較各地區的平均租金。可以看到,租金最高的地區是南山,最低的地區是龍崗,符合越發達地區租金越高的規律。但是為什麼每個地區的租金都在5000以上呢?

對格局項進行計數,原來最多的數據都是三室四室的大房子,這些大房子的高租金拉高了租金的平均值。

——————

得出結論

以上數據反映了在深圳租一套三室或者四室房子的月租金起碼都在5000元以上,越發達的區域房源越多,租金也越高。

但是這個數據分析過於簡單,只能算是初步了解了Excel數據分析的流程,還存在著很多問題。比如,我一共取了大概2000條數據,而鏈家網上深圳地區的租房信息總共是20000多條,數據不足導致了我取出來的數據分散性不好,大部分都是三室四室的大房子,不便於看出小面積房子的租金情況;平均值受極端值影響較大,用中位數計算可能更合理,但數據透視表沒有中位數選項,需要自己創建;通過更進一步的數據清洗,可以將缺少部分信息的行保留,而不是直接將其刪除;爬取數據時最好將每一條數據的鏈接也取出來,便於之後查看數據是否有錯誤……還有很多可以改進的地方。

用數據透視表進行數據分析時,篩選器用來選取部分數據進行分析。比如我只想看福田區的租房信息,將片區拖動到篩選器中,然後只選擇福田即可。


推薦閱讀:
相关文章