Python/Excel/SPSS/SQL數據處理方法比較之3 - 重複值處理

我們作了基本的查看，那麼接下來就要做一些具體的操作了。

在完成備份之後，我們檢查並刪除空值。

Python

1.過濾重複值

首先使用duplicated()函數確定每行是否存在重複值，將對每行進行判斷，如果存在重複值（之前已出現完全相同的行），則返回Ture：

any(df.duplicated())

2.刪除重複值

如果存在重複值，則使用drop_duplicates()函數進行捨去，將返回未重複部分,其中，如果設置參數inplace參數為True，則是在原數據上刪除；若不設置則返回一個去重後的視圖：

df.drop_duplicates(inplace=True)

如果只依據某些列捨去重複值，則向函數傳入列名數組：

df.drop_duplicates([列名],inplace=True)

另外默認保留第一個觀測值，如果要保留最後一個觀測值，對此函數可傳入keep=last參數。

Excel

1.過濾重複值

首先需要選擇數據框（先點擊數據框內某個單元格，使用快捷鍵Crtl+Shift+Space(空格)），之後使用：開始-樣式-條件格式-突出顯示單元格規則-重複值-默認填充淺紅色文本深紅色，則被填充的就是有重複值的記錄。

2.刪除重複值

數據-數據工具-刪除重複值-選擇根據列

可自動選擇數據框，非常給力。

SPSS

1.過濾重複值

數據-標識重複個案-選項（填入匹配依據變數，以及保留第一重複值還是最後一個重複值）-確定。此時輸出查看器中會顯示有幾個重複值，回到數據編輯器可以看到多了一個欄位名為【最後一個基本個案】，其值為0和1，標記為0的就是重複個案了。

一般都在文件開頭，如果不是，選中此變數右擊-升序排列，即可查看。

2.刪除重複值

在已經根據以上步驟標記出重複個案之後，執行：數據-選擇個案-選擇：如果條件滿足-如果-輸入最後一個基本個案=1-繼續-輸出：刪除未選擇的個案-確定，即可。

SQL

首先一個表應該設定主鍵，因為首先在設定了主鍵的表中，不可能出現主鍵相同的兩條記錄。

因此這裡的重複值最好是指某個欄位上的重複而非整體或者主鍵的重複。

1.過濾重複值

首先確定哪些欄位可能重複，然後需要按照此欄位聚合：

select count(*),可疑欄位 from 表名 group by 可疑欄位 having count(*)>1;

計數大於1的自然是重複記錄。

2.刪除重複值

最佳的方式是創建新表後拋棄舊錶：

create table 新表 as select * from 舊錶 group by 重複欄位； drop table 舊錶; alter table 新表 rename to 舊錶;

Python/Excel/SPSS/SQL數據處理方法比較之3 - 重複值處理

Python

Excel

SPSS

SQL

熱門新聞

週熱門

Python/Excel/SPSS/SQL數據處理方法比較之3 - 重複值處理

Python

Excel

SPSS

SQL

有零基礎開始自學Python的小夥伴嗎？怎麼樣可以快速入門？

既然Python的庫能對大數據進行分析，那為何還要用Hadoop和Spark?

python web真的沒機會了嗎？

我想問python怎麼零基礎學習？

Python主要是用來做數據分析，爬蟲的嘛？

學習python是用Mac好還是win好?

python如何打包腳本（庫也一起打包），直接在linux環境運行，不需要安裝庫?

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

想從事量化金融方面的工作，主要需要掌握Python的那些本領?

怎樣學習遞歸？

最近迷上了python，有推薦的學習地址以及編譯器嗎？

為什麼python最強大的IDE是收費的PyCharm?

如何評價說PYTHON是最快的語言？

自學Python老是記不住那些內置函數怎麼辦？

IPFS 測試網上線能挖到FIL嗎？挖到的FIL有價值嗎？

熱門新聞

週熱門