前言

數據清洗是數據分析的第一關。而Excel就是個很好的工具,處理在10萬條數據以內的數據不成問題。只需要一點騷操作。以下通過一個非常粗糙的Airbnb房屋出租數據以及猴子老師做的示意圖來演示。

1.步驟

這是個概念性的步驟。就數據分析而言,非常有意思的是有時人的判斷有非常重要的,所以在進行數據分析的時候應在腦中貫徹這樣的概念,使每個工作都make sense。以下的內容大致按照這個方向走,但以講騷操作為主,就不再提這個步驟。

原始數據

表格中有與愛彼迎房屋出租相關的近70個變數,包含對房屋位置、房屋配置、房東等情況的描述。希望通過數據清洗為製作房屋出租預測模型打好基礎。

調整格式

1)自動換行

單元格內容太長時,換行可調整是否內容全被顯示。

2)自動調整列寬

使得選中的行可以根據內容調整每個列寬,用在首行,列名得以完整顯示。

2.隱藏

可以避免刪除導致的操作不可逆,在需要複雜操作時很實用。案例中,一些不能直接用上的變數就可以先隱藏。

3.刪除重複值

4.缺失值處理

有缺失值的變數往往不能直接帶入模型,而缺失值在原始數據中非常常見。一般的填充方法會選擇置零,眾數或平均數。

定位之後所有缺失值會灰色顯示。此時一個非常實用的操作,在某灰色單元格輸入值,Ctrl+Eneter就能以此填充所有選中單元格。

5.查找替換

查找替換在文本編輯中很常用,在Excel中也是神技。

同樣是在查找與選擇的下拉菜單中,數據需要去除金錢符號才方便計算。

6.分列

很多數據類型並不能直接轉化為Excel表格的形式。比如用逗號隔開的形式就很常見。這裡需要用分列來轉化。注意在右側插入足夠的空白列,否則會覆蓋已有數據。

這裡是對房屋配置的這個變數的處理效果。

7.日期處理

數據中的日期儲存格式常常紊亂,Excel可以將其統一併運用。

通過分列:

通過單元格格式:

8.數據透視表

是個常用功能,內涵如圖所示。

在數據透視表中的日期:

9.描述統計分析

10.vlookup函數

多表關聯查詢,據說逼格較高。

如果熟悉SQL的話會很有感覺。Lookup_value相當於Foreign key也就是「鏈接點」,通過它我們可以找到另一個表中的對應點所在行。右圖例子的「鏈接點」即cleaning_fee的第一個50單元格。而它匹配到的,就是右側表格中的第二行。表格範圍即Table_array。Col_index_num是匹配行中需要被填寫的列,例子中就是「分組這一列」。最後注意不是所有cleaing fee直接能在右側表中找到相同的數字,所以要用近似。

$相當於「鎖定。,在直接拉動單元格時,公式的會複製,被鎖定的地方不會隨著位置改變而改變。例子中整個右側表的位置是鎖定的,而「鏈接點」就需要隨下拉改變。

結果

清洗完成後,缺失值、重複值已經消除;類別變數和數值變數都標準化了;vlookup的分組甚至能完成類別變數和數值變數的相互轉化(分組);而一些變數之間的聯繫也能通過數據透視表來顯示。之後就可以建立更複雜的模型來預測房屋出租率了。


推薦閱讀:
查看原文 >>
相關文章