源數據常常包含各種差錯值,為了進行下一步的分析,我們必須先找出並更正這些差錯,做這些工作幾乎不會有什麼快樂感可言,但卻往往需要耗費很多精力。如果利用數據準備工具就能夠發現這些數據質量問題,我們就可以節省大量時間。

PowerQuery恰好有個功能就是做這個的:列分析,下面就來看看這個功能如何幫助我們進行數據清洗的。

首先更新到最新版的 PowerBI Desktop,在預覽功能中啟用列分析。

然後在 Power Query 編輯器中可以看到數據與之前稍微有點不同,標題下方多了一個綠色的條,

在 PQ 編輯器窗口,點擊【視圖】選項卡,看到數據預覽處多了兩個新功能:列分發和列質量,

列質量

隨便打開一個表,勾選"列質量",看看是什麼效果,

可以看出自動對該列的數據質量進行了統計,區分為有效、錯誤和空值,並用不同的顏色進行區分,分別統計所佔的比例,標題下方不同顏色的數據條長度也按不同類型的數據比例進行標示。

而一旦該列中含有錯誤值,顏色條直接用虛線標示,也許是因為錯誤值是不可容忍,必須進行相應處理。把滑鼠懸停在該區域,自動浮出提示窗口,提示在[類別]中有一處錯誤值,

可以直接點擊刪除錯誤,然後該錯誤行將被刪除。

同樣,在有空值的列懸停滑鼠,也會出現刪除空的窗口,直接點擊就可以將含有空值的行刪除。

列分發

勾選"列分發",

可以看到每列直接出來一個迷你的柱形圖,把該列數據非重複值的分佈,直觀的展現出來,並在下方統計該列該有多少個非重複值,多少個唯一值。滑鼠懸停在該區域,還可以直接點擊刪除重複項。

通過這個功能是不是可以方便的知道數據的質量,並進行快速的整理呢。

不過遺憾的是,目前列分析功能只能針對前1000行進行分析,並不能分析全部的數據。

如果對行進行翻轉,還可以分析最後1000行的數據質量,即使通過這種方式,也就僅僅能分析2000行而已,如果數據量較小還可以,而今天我們要面對的數據量,動輒可能都多出兩個數量級都不止,所以這2000行的數據幾乎可以忽略不計,但這個功能也絕不是擺設,我們同樣可以利用這樣的快速分析,對該數據質量有一個大致的預判,在數據清洗階段應該分配多少精力也有個預期。

當然該功能除了數據量上的不足,對於分析的質量,也僅停留在空值、錯誤值、重複值和唯一值等表面的數據元素上,無法進行更智能的異常排查,但畢竟走出了第一步,期待PowerBI在這方面儘快有更成熟的動作。

公眾號:PowerBI星球


推薦閱讀:
相關文章