因為統一批次的硬碟,通常統計意義上的損壞時間也是趨於一致,所以會導致一壞就都壞。那麼是否可以在一個磁陣或NAS中插入不同品牌,或者同一品牌不同批次的磁碟來避免這種情況?


不如全插最好的。參數趨同不代表損壞時間相關。


這似乎是個數學問題?採購多個品牌、多個批次的硬碟,總的目的,是讓各個硬碟的故障概率互相獨立,服從不同的分布。這樣即使是某塊硬碟不幸中獎,並不(太)改變其他硬碟的故障率。

不過,我只贊同"多批次"至於"跨品牌",我並不認為能夠降低故障率。當然,我沒法去做對比實驗來直接證明這個觀點 (故障畢竟是小概率事件,實驗需要的樣本量太大)。

我想從側面說明這個觀點。面向RAID系統的硬碟,不可避免地會遇到下述問題 (只列舉一部分):

(1)響應超時導致的RAID系統崩潰

存儲設備先天存在「不可恢復的讀取錯誤 (Unrecoverable/Non-recoverable Read Errors)」的偶發性事件。"不可恢復"的含義是即使經過ECC也無法糾正,當錯誤導致的響應時間超出RAID系統的閾值時,RAID系統會認為此硬碟失效,將它踢下線,導致整個RAID系統故障。

對於「不可恢復的讀取錯誤」的補充說明:

一般情況下,該事件是很難遇到的,因為通常硬碟標稱的錯誤率只有 [公式] ,部分企業級硬碟可以做到 [公式] 甚至更低,可以忽略不計。但在RAID-5/6環境下,由於要做奇偶校驗,當更換硬碟重建陣列,需要讀取所有數據,這個現象就尤其突出了,試著計算一下理論概率:問題:不可恢復的讀取錯誤率設定為機械硬碟常見的 [公式] ,選用硬碟為8TB容量,在RAID-5系統中共有三塊這樣的硬碟。現在,假定某塊硬碟故障,更換了一塊相同的新硬碟,RAID-5系統需要重建陣列,計算不可恢復的讀取錯誤的發生率。計算:在重建RAID-5陣列的過程中,因為需要讀取剩餘兩塊硬碟的全盤數據,假設硬碟數據已填滿,則共有數據:[公式]

假定每次讀取操作的錯誤率服從獨立同分布,於是,總的錯誤發生率為:

[公式]72.17%,這是個概率很高的事件了。進一步地,如果將RAID-5系統中硬碟數增加到四塊,也就是需要讀取三塊硬碟,此時錯誤發生率增加到:[公式]需要指出的是,條件中給出的 [公式] 只是一個理論值,由此計算出的錯誤發生率僅供參考。

為了解決這個問題,需要在固件層面做一些文章。各大硬碟廠商分別提出了自己的解決方案,應用在NAS硬碟上:

  • 希捷「酷狼(Ironwolf)」系列有NAS-aware,使用CERC技術:Customized Error Recovery Controls;
  • 西數「紅盤(RED)」發布較早,NASware目前為3.0版,其中相關技術稱作TLER:Time-Limited Error Recovery;
  • HGST的「DESKSTAR NAS」系列則將該技術命名為CCTL:Command Completion Time Limit。

更詳細內容可以參考維基百科的介紹。有了「錯誤恢復控制 (Error Recovery Control)」,硬碟在出現不可恢復錯誤時,會主動報告RAID系統,表明自己並未失效,讓陣列能夠持續運行。

站在這個角度來說:

  • 使用不同批次,避免了某個批次可能存在的缺陷的集中爆發 (硬體層面或固件層面),從而在一定程度上降低了「不可恢復的讀取錯誤」這個偶發事件「同時發生」的可能性;
  • 但使用不同品牌的硬碟,RAID系統中會存在多種「錯誤恢復控制」的實現,各個硬碟的"習性"也不相同,很難相信這樣做可以降低故障率。

(2)多硬碟共振導致的物理性壞道

NAS的空間狹小,又安裝有數塊硬碟,在RAID系統運作時,所有硬碟會同時執行讀寫操作,「共振」是一個逃不開的話題,而嚴重的共振會導致災難性後果。面對這個問題,需要對硬碟的運行做平衡和補償,這在技術層面主要包括兩種思路:非主動和主動。

  • 「非主動」主要是指藉助硬碟的「雙平面平衡 (Dual-Plane Balance)」馬達,減小硬碟震動;
  • 「主動」是指在硬碟加裝「旋轉震動感測器 (Rotational Vibration Sensors)」,根據感測器所彙報的數據,由固件對硬碟進行實時調整。

具體來看:

  • 希捷在早期的NAS硬碟中只採用了雙平面平衡技術,而在酷狼系列中也加入了旋轉震動感測器,輔助進行多盤平衡;
  • 西數紅盤的相關技術包括:3D主動平衡增強技術 (3D Active Balance Plus)、二級驅動系統 (DSA,Dual Stage Actuation)、旋轉震動前向補償技術 (RAFF,Rotary Acceleration Feed Forward)等;
  • HGST則命名為旋轉震動保護 (RVS,Rotational Vibration Safeguard),聲明這是一種主動保護機制,即有後饋機制(Feedback)也有前饋機制(Feedforward)。

作為對比,HGST在其「DESKSTAR NAS」系列的媒體稿中指出,希捷和西數的都屬於非主動的雙平面平衡技術 (包括西數的3D主動平衡在內,但應該不包括希捷酷狼,因為「DESKSTAR NAS」系列在2015年就發布了)。當然,雖然HGST在媒體稿中吹的比較玄乎,在5盤以內的情況下,這幾種技術其實差距不算太大;而且,現在HGST畢竟歸於西數旗下,自己黑自己也不太合適;所以,在最新的版本的媒體稿中,HGST已經撤掉了上述表述。

與(1)的觀點類似,如果NAS中安裝有多個品牌的硬碟,意味著多種「多盤位平衡與補償機制」的並存。由於這幾種機制的原理各不相同,"並存時能降低故障率" —— 這個觀點目前沒有統計數據可以支持。

(3)總結

所以,說是"玄學"也好吧,個人還是傾向於選擇"相同品牌、不同批次"的硬碟來構建RAID系統。另外,為了儘可能避免某個型號的缺陷,可以考慮購買已經上市一段時間、口碑良好的型號,但也不必將目光集中在太老的型號 (停產的風險)。


沒聽過這種說法,就像另外一個答案說的,混差不如都用最好的。

個人用的話還是推薦你不要混插。商用的話,你要明白做存儲和做硬碟不是一個廠。具體插的誰家哪個批次的硬碟一點都不重要,存儲的vendor說能插就能插。至於存儲的vendor有沒有這種說法,這恐怕就人家的是商業機密了。實際用起來我覺得是沒有這種說法,因為來跑腿給換硬碟的員工一般都不是存儲vendor自己的人,都是外包的公司。操作簡便和高度可替換性也是存儲vendor重視的事情之一,因為外包公司可沒空給你挨個對批次,他們只知道拿個一樣型號的給你換上。再多說兩句,雖說統計上你說的不是沒有道理。但成千上萬塊硬碟哪有那功夫給你統計批次哩?還不如留出hotspare和做個replication靠譜不是?
我覺得跨批次說不定真的有用,跨品牌絕不可以,甚至不同型號混用都不可以。

個人建議不同批次,同品牌同型號。因為不同品牌/型號的硬碟技術有差別,比如你拿酷狼和紅盤混用雖然沒說不可以吧,但是搞不好會有意想不到的結果,沒證實,可能是玄學。你如果珍視你的數據,定期做冷備份是最簡單的。如果有錢的話配置2台NAS做故障轉移就最好不過了,盡量避免raid重構,尤其是這種千把塊一萬塊的NAS,都是軟陣列,很可能會在重構時有驚喜在等著你。


謝邀,商用存儲會避免非統一品牌磁碟,損壞時間也是一至不一致不太清楚,商用存儲會對磁碟狀態做檢測,很多時候磁碟壽命沒到就把數據熱遷移到熱備盤上,然後通知用戶更換硬碟,盡量避免raid重構


多個不同品牌硬碟,會出現兼容性問題,但不太明顯。一般不影響使用。
做raid後其實安全性差不多,不放心就再來個雲端或者異地備份。硬碟保修期內直接換新,怕的啥?

還不如多個NAS異地備份好。


推薦閱讀:
相关文章