我們作了基本的查看,那麼接下來就要做一些具體的操作了。

在完成備份之後,我們檢查並刪除空值。


Python

1.過濾重複值

首先使用duplicated()函數確定每行是否存在重複值,將對每行進行判斷,如果存在重複值(之前已出現完全相同的行),則返回Ture:

any(df.duplicated())

2.刪除重複值

如果存在重複值,則使用drop_duplicates()函數進行捨去,將返回未重複部分,其中,如果設置參數inplace參數為True,則是在原數據上刪除;若不設置則返回一個去重後的視圖:

df.drop_duplicates(inplace=True)

如果只依據某些列捨去重複值,則向函數傳入列名數組:

df.drop_duplicates([列名],inplace=True)

另外默認保留第一個觀測值,如果要保留最後一個觀測值,對此函數可傳入keep=last參數。


Excel

1.過濾重複值

首先需要選擇數據框(先點擊數據框內某個單元格,使用快捷鍵Crtl+Shift+Space(空格)),之後使用:開始-樣式-條件格式-突出顯示單元格規則-重複值-默認填充淺紅色文本深紅色,則被填充的就是有重複值的記錄。

2.刪除重複值

數據-數據工具-刪除重複值-選擇根據列

可自動選擇數據框,非常給力。


SPSS

1.過濾重複值

數據-標識重複個案-選項(填入匹配依據變數,以及保留第一重複值還是最後一個重複值)-確定。此時輸出查看器中會顯示有幾個重複值,回到數據編輯器可以看到多了一個欄位名為【最後一個基本個案】,其值為0和1,標記為0的就是重複個案了。

一般都在文件開頭,如果不是,選中此變數右擊-升序排列,即可查看。

2.刪除重複值

在已經根據以上步驟標記出重複個案之後,執行:數據-選擇個案-選擇:如果條件滿足-如果-輸入最後一個基本個案=1-繼續-輸出:刪除未選擇的個案-確定,即可。


SQL

首先一個表應該設定主鍵,因為首先在設定了主鍵的表中,不可能出現主鍵相同的兩條記錄。

因此這裡的重複值最好是指某個欄位上的重複而非整體或者主鍵的重複。

1.過濾重複值

首先確定哪些欄位可能重複,然後需要按照此欄位聚合:

select count(*),可疑欄位
from 表名
group by 可疑欄位
having count(*)>1;

計數大於1的自然是重複記錄。

2.刪除重複值

最佳的方式是創建新表後拋棄舊錶:

create table 新表 as
select * from 舊錶
group by 重複欄位;
drop table 舊錶;
alter table 新表 rename to 舊錶;

推薦閱讀:

相關文章