雖然直方圖是柱狀圖的一種(畢竟乍眼看都是很多柱子的樣子),但是其實它倆一個喜歡數多少,一個喜歡比大小。

直方圖展示數據分布

直方圖(Histogram)是一種可視化在連續間隔,或者是特定時間段內數據分布情況的圖表,經常被用在統計學領域。簡單來說,直方圖描述的是一組數據的頻次分布,例如把年齡分成「0-5,5-10,……,80-85」17個組,統計一下中國人口年齡的分布情況。直方圖有助於我們知道數據的分布情況,諸如眾數、中位數的大致位置、數據是否存在缺口或者異常值

(註:眾數是指一組數據中出現次數最多的數據值,眾數可能是一個數,但也可能是多個數。中位數是指可將數值集合劃分為相等的上下兩部分的數。)

根據數據分布狀況不同,直方圖展示的數據有不同的模式,包括對稱單峰、偏左單峰、偏右單峰、雙峰、多峰以及對稱多峰。

直方圖的數據模式來源:Wikipedia

直方圖的百年歷史

一般認為,直方圖最早是由數理統計學家Karl Pearson引入的,1891年他在文章「Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material」中,運用直方圖展示了均質材料中的偏差。

Karl Pearson
Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material Karl Pearson

隨後,他也統計了歐洲250位君主的在位長度,以每3年為一個區間,發現在位時間在9-12年的君主數量最多(眾數)。除此之外,我們也能看到沒有人的在位時間是在51-54年,整體來說,在位時間長的君主很少。

圖片來源:Statistical Approaches to Length of Reign

直方、柱狀大不同

直方圖和柱狀圖最讓人迷惑的地方,就是它們長得非常相似。實際上,直方圖和柱狀圖無論是在圖表意義、適用數據上,還是圖表繪製上,都有很大的不同。

1.直方圖展示數據的分布,柱狀圖比較數據的大小。

這是直方圖與柱狀圖最根本的區別。舉個例子,有10個蘋果,每個蘋果重量不同。如果使用直方圖,就展示了重量在0-10g的蘋果有多少個,10-20g的蘋果有多少個;如果使用柱狀圖,則展示每個蘋果的具體重量。

所以直方圖展示的是一組數據中,在你劃分的區間里,這些數據的分布情況,但是我們不知道在一個區間里,單個數據的具體大小。下圖展現了遊客在博物館的遊覽時間,其中,將近40%的遊客僅逗留了0-10分鐘。但是我們無法知道這些遊客中,每個人具體的遊覽時間是多少。

圖片來源:A Histogram is NOT a Bar Chart

而在柱狀圖裡,我們能看到的是每個數據的大小,並且進行比較。下圖就比較了在12次展覽中,參觀者參觀時間的中位數,我們能夠知道參觀的具體用時。

圖片來源:A Histogram is NOT a Bar Chart

2.直方圖X軸為定量數據,柱狀圖X軸為分類數據。

由圖表的原理就決定了,X軸在直方圖與柱狀圖中的用法是不一樣的。在直方圖中,X軸上的變數是一個個連續的區間,這些區間通常表現為數字,例如代表蘋果重量的「0-10g,10-20g……」,代表時間長度的「0-10min,10-20min……」。而在柱狀圖中,X軸上的變數是一個個分類數據,例如不同的國家名稱、不同的遊戲類型。

圖片來源:www.mathsisfun.com

因此,直方圖上的每根柱子都是不可移動的,X軸上的區間是連續的、固定的。而柱狀圖上的每根柱子是可以隨意排序的,有的情況下需要按照分類數據的名稱排列,有的則需要按照數值的大小排列。

3.直方圖柱子無間隔,柱狀圖柱子有間隔

因為直方圖中的區間是連續的,因此柱子之間不存在間隙。而柱狀圖的柱子之間是存在間隔。還有一個值得注意的地方,在直方圖中,第一根柱子應該和Y軸有一定的間隔,即使都是從「0」這個值開始的。因為X軸與Y軸上「0」的意義不同,而且很多直方圖上的區間並不是從0開始的。

4.直方圖柱子寬度可不一,柱狀圖柱子寬度須一致

柱狀圖柱子的寬度因為沒有數值含義,所以寬度必須一致。但是在直方圖中,柱子的寬度代表了區間的長度,根據區間的不同,柱子的寬度可以不同,但理論上應為單位長度的倍數。

例如,美國人口普查局(The U.S. Census Bureau)調查了12.4億人的上班通勤時間,由於通勤時間在45-150分鐘的人數太少,因此區間改為45-60分鐘、60-90分鐘、90-150分鐘,其他組距則均為5。

通勤數據來源:Wikipedia

可以看到,Y軸的數據為「人數/組距」,在這種情況下,每個柱子的面積相加就等於調查的總人數,柱子的面積就有了意義。

通勤時間直方圖來源:Wikipedia

當上圖的Y軸表達的是「區間人數/總人數/組距」,這個直方圖就是我們初中學習的「頻率分布直方圖」,頻率指的是「區間數量/總數量」。在這樣的直方圖中,所有柱子的面積相加就等於1啦。

使用直方小竅門

1.注意組距

組距會影響直方圖呈現出來的數據分布,因此在繪製直方圖的時候需要多次嘗試改變組距。

組距較大的直方圖

組距較小的直方圖

2.X軸上為左閉右開區間

一般來說,X軸上的區間遵循「左閉右開」的原則,即在一個「a-b」的區間里,數據x應為「a≤x<b」。

3.注意Y軸所代表的變數

Y軸上的變數可以是頻次(數據出現了多少次)、頻率(頻次/總次數)、頻率/組距,不同的變數會讓直方圖描述的數據分布意義不同。

隱藏在身邊的直方圖

生活中,我們接觸比較多的的應該是RGB直方圖,這種直方圖常出現在在PS、相機等場景中。

來源:Thomas看看世界,知乎

在RGB模式下,圖片的顏色與紅(Red)綠(Green)藍(Blue)組成,各自的數值範圍均為0-255。其中,紅色直方圖就描述了0-255這個數值範圍內,像素的分布情況。但這種直方圖的X、Y軸沒有具體數值,我們只能數據分布模式大致判定照片情況。

從今往後,你就能一眼找到那個在柱狀圖海洋的直方圖啦!當然你也可以選擇登陸鏑數——中國首個數據查找與可視化平台,煉煉你的火眼金睛!如果你有遇到有趣的直方圖,歡迎在評論跟大家分享喔~

如果還想知道圖表的相關知識,可參看往期圖表家族:

小鏑同學:除了矩形樹圖、旭日圖、雙層環圖,層級數據可視化還有它!?

zhuanlan.zhihu.com
圖標
小鏑同學:排名話題最常用的圖表!它還適合高維和多變數數據?

zhuanlan.zhihu.com
圖標
小鏑同學:餅圖還有多種「變身」?這算是哪塊小餅乾!(文末附超詳細餅圖製作tips)?

zhuanlan.zhihu.com
圖標
小鏑同學:展現數據間的「對比」關係,除了柱狀圖之外還有它!?

zhuanlan.zhihu.com
圖標

或在我的公眾號Dydata鏑數(dydata)後台留言告訴我~


推薦閱讀:
相关文章