如何在 Tableau Prep 中刪除重複記錄 - Josh Milligan 分享了另一個篇有用的帖子,講述了如何輕鬆刪除 Prep 中的重複項,並在最後介紹了 LOD 計算。

這裡有三種方法,可以去取重複的數據,當然,後一種總是更難一點。

一、完全重複的數據 Exact Duplicate Records in Tableau Prep

對於像上面的完全相同的兩行數據,可以直接通過聚合功能刪除——添加聚合步驟,然後全部添加到「分組欄位」,沒有「聚合欄位」,這樣完全相同的數據就會僅保留一條。

二、相似但並不完全相同的數據Similar, but not exactly, Duplicate Records

對於像上面部分數據一致,部分欄位不同的數據,我們僅要保留最近的數據(上面中最後一次被僱傭的數據),還是使用聚合功能,不過需要「聚合欄位」——把相同的欄位拖入「分組欄位」,而把想要去重的欄位拖到「聚合欄位」,並根據需要修改聚合的方式,在這裡,我們把默認的求和,改為求最大值(max),就會保留最後一次記錄。

三、相似的延伸重複數據 Extended Near Duplicate Records

Extended Near Duplicate Records

在這個數據中,我們知道不同的date hired是因為不同的職位position,我們依然想要保留最近的數據,上面的兩個方法就不行了。如果使用第二種方法,第三條和第四條數據都會被保留,因為position欄位是不同的,如何處理?先處理Date Hired,再關聯position。如下:

1、首先執行上面第二步,把employee ID和Name拖入「分組欄位」,把Date Hired拖入「聚合欄位」並改為max,這樣就會保留四行數據——不要拖入Position。Max Date步驟就是上面第二種方法。

2、把上面的結果,和原數據做聯結,把position數據聯結到上面的結果中。如下圖:

四、獎勵:Prep中的LOD計算

Bonus: LOD Calculation in Tableau Prep

在上面的Max Date,其實就是一個Lod操作,類似於我們在desktop中的 {FIXED [Employee ID] : MAX([Date Hired]}。

Prep不支持LOD操作,但是我們可以通過圖形化的方式,實現LOD的邏輯和結果。

英文原文:

  • How to remove duplicate records in Tableau Prep

2 Sep 2018 Healee


推薦閱讀:
相关文章