做數據分析的各位應該知道,數據就是我們的武器,就像廚師做飯一樣,食材重要但是食材處理更重要。拿最簡單的炒土豆絲來說,拿到土豆後最先開始的就是洗土豆了。同樣作為數據分析師,既然我們已經有了數據,是不是就該清洗數據了,下面是我關於用excel進行數據清洗的一些總結。

做數據清洗主要包含以下這些點:

1、去掉不需要的重複數據

2、補足缺失數據

3、檢查數據的準確性

我們一波一波的操作。

1、去掉不需要的重複數據

想要去掉重複數據首先要能找出重複數據:

第一種呢函數法

如上圖所示,在B2中輸入=COUNTIF(A:A,A2),往下一次類推就可以得出這串數據中這個數據重複出現了幾次。

這次呢再B2中輸入=COUNTIF(A$2:A2,A2),往下一次類推就可以得出這個數據在這列數據中它之前的數據中重複出現了幾次。

實際應用中可以根據自己的需要選擇,統計出那些重複的數據讓後根據實際情況處理。

第二種呢就是用數據篩選的方法

選中需要篩選的數據 —— 數據選項卡——排序和篩選—— 高級篩選

第三種處理重複數據的方法呢就使用數據透視表,計算出重複的數據的頻次,然後根據實際情況對這些數據進行處理。這裡簡單介紹找出重複數據的幾種方法。

既然已經找到了重複的數據下面就可以開始刪除重複數據了,可以直接選中數據,使用數據中的「刪除重複項」刪除重複項。

另一種方法呢是針對第二次重複標記進行降序排序,然後刪除掉重複項就可以了。

2、補足缺失數據

處理完重複的數據就該處理缺失的數據了,如果說缺失值過多說明在數據採集的過程中出現了問題,那這個數據的準確性就不能保證,建議缺失值大於10% 的數據就放棄吧。

缺失的數據最常見的就是空值,這時候呢可以使用定位來查找。可以選擇開始——編輯——定位條件。或者直接使用快捷鍵Ctrl+G或者F5就會彈出以下對話框。

這樣就會直接定位到數據的缺失項。找到缺失項應該怎麼處理呢?處理缺失值一般有以下幾種方法:

一 用一個樣本統計量的值代替缺失值一般是用平均值代替缺失值。

二 用一個統計模型計算出來的量來代替缺失值

三 直接將缺失值刪除

這裡可以使用Ctrl+Enter快捷鍵來一次性填充數據

如上圖所示,先定位到缺失值,然後輸入 缺失,按下Ctrl+enter ,所有的缺失數據中就會填入缺失字樣。

當然例子中的C3列都是數字如果輸入缺失,是不對的,這時可以使用替換查找功能將 缺失替換為數字2

3、檢查數據的準確性

處理完了多餘的數據和缺失的數據,就該要檢查獲取的數據是否符合要求了,一般數據出現錯誤是出現的數據不符合要求,不如我們做農產品數據調查時,出現了蘋果手機這個數據,這肯定是不符合要求的,要麼是數據輸入時輸錯了,要麼是數據抓取時出現錯誤。

另外一種就是數據出現的格式不符合要求,比如我們在針對在職人員的收入情況做調查分析時,年齡中出現了14周歲,這肯定是不正確的是吧,企業禁止僱傭童工的。

這時候我們可以使用if函數來解決這些問題.


推薦閱讀:
相關文章