實驗室有一筆三十萬左右的預算,現在想配兩到三臺深度學習伺服器,如何配?請分別說一下四卡的配置和八卡的配置(2019.03)和大概的預算?


這種專業應用,直接給你配置是不負責任的。按照現在的行業情況,建議初步開發完畢後,先短期租用雲伺服器做一個測試,記錄下應用需求和性能瓶頸後,有針對性的選擇配置。如果有必要的話,還需要針對不同的模型,不同的參數,不同的數據量分別做測試和記錄。

首先是多大的數據量,必須用單精度還是可以用半精度,對顯存容量要求如何。這個決定了你要選擇什麼樣的計算卡,是必須用專業的計算卡,還是可以用普通遊戲卡也能達到相同的性能。

其次是對CPU和內存容量的要求。雖然說一般的深度學習大概是一張GPU對應2個核心,內存容量不低於顯存容量。但這個不是100%適用的。有的可以通過調整IO策略,使用更低容量的內存,而有的因為數據相關性問題,需要使用更大容量的內存。與此相關的還需要考慮存儲系統的性能和容量問題。這個決定了是必須上昂貴的雙路系統,還是性價比更高的單路系統也能獲得相近的性能。

再次是既然是配置不止一臺,那麼還要考慮並行的效率以及互聯問題。模型並行度好的,可以考慮配多臺低性能的節點。數據交互頻繁的,則需要單個節點的性能儘可能的高。節點之間是千兆網路夠用還是需要上10G甚至40G網路,對於不同的模型,或者相同的模型只是參數不同/數據量不同可能都會有不同的最佳選擇。

所以,最後的最佳配置可能是完全不同的。單純算計算能力,可能是4~6臺Core X/Xeon-W搭配四張2080能獲得最高的整體性能。也可能因為顯存瓶頸、交互瓶頸,你只能配置雙路Xeon-5115/6126搭配8張大顯存的Tesla計算卡,單個節點就能把這三十萬預算花完。


大概兩個思路:

  1. 自己DIY
  2. 購買相對完整的解決方案

多卡的首選,現在應該還是RTX 2080Ti,按一張卡11000~13000來算,就能估算出大概是幾臺機器、每臺幾張卡。(除顯卡以外的部分,主板、CPU、內存、固態硬碟,1萬5千元大概就夠了)。

如果不選2080Ti而選擇Titan或計算用的專業顯卡,性價比會降低一半以上,但是也要看需求。具體可以諮詢用過專業卡的專業人士。

自己配的話,如果伺服器經驗不是特別豐富,可以買這種4顯卡主板。好處是裝機思路接近普通電腦,不需要太多特殊的經驗:

在淘寶搜索「深度學習 主板」能夠得到一些信息。瞭解個大概以後就可以去各種論壇取取經,多google。

如果單臺機器預算超過10萬,那就可以搞一搞8顯卡以上的機器,需要用到「超微」等品牌的專業伺服器主板,一般這種主板都是連帶安裝諮詢一起的,算是購買全套技術方案:

比如這個,不帶CPU、不帶GPU,光主板加電源就22499。一旦進入專業領域,價格就和普通裝機不同了。

我個人也沒有大型工作站的安裝經驗,這裡只是提供一些思路。坐等其它答主的回答。


實驗室,特別是高校的實驗室,上雲不現實(教育行業)。

實驗室,運維/技術支持能力普遍沒有專業的IT公司強,所以DIY也不現實(我超喜歡DIY,便宜還好用,還能鍛煉基礎知識,但是實驗室老闆和別的人可不一定有興趣)

以上兩點,一定要注意了。

下面開始教你花錢~~

這類型需求的重點實際上還是在於卡片的選擇,新一代的英偉達 GPU 使用了 12 納米製程的圖靈架構和 Tensor Core,在半精度訓練的場景下比上一代基本上能快到兩倍(FP32單精度、FP16半精度)。所以用來做深度學習訓練的話,GeForce是必須的,再結合預算,初步推薦RTX2080TI吧(我不知道你具體是哪方面的內容,上述為我們培訓老師的說法,歡迎大佬們批評指正)

到平臺這塊就簡單了,無非CPU、內存、硬碟、RAID卡(可選)、硬碟、電源、遠程管理(可選)。8路的話聲音比較大,而且多為機架式,需要機櫃和機房環境的支持,這塊一定要提前做好打算。以免影響心情和健康。4路的話可以選擇塔式平臺,「污染」相對要好得多,可以直接放在辦公環境下,具體可以根據實際環境來做打算。

另外現在GPU伺服器集羣也很成熟,是否考慮集羣?(或者是否需要為將來集羣做打算)

大致上就這些,花預算要多方面考慮,而不是直接拿到配置和價格就可以交差,要對老闆和其他同學負責.

server要有,service更要有。

千萬別嫌麻煩喲。


30萬預算,高校基本上需要走央採/省採,因此以下建議超微架構伺服器,如果想DIY的,建議淘寶找相應賣家處理。

廠商建議AMAX、思騰合力、容天、烽火超微等主流超微廠商。

三臺4卡機器:

機型:參考https://www.thinkmate.com/system/gpx-xt4-2160v4-4gpu

CPU:E5 2630 V4 兩顆 4卡機器,10核CPU足以,深度學習只需要關注核數,不需要管主頻。

內存:8*16G

硬碟:intel 545S/三星 860 EVO 480G 四塊。直接系統自帶raid卡做raid 0.

GPU:RTX 2080TI 4塊,目前走伺服器廠商12000一塊,直接走渠道商9200左右。

該配置跟伺服器廠商好好畫餅,10萬一臺應該可以拿下。

多說一句:建議扣一點預算,配一個機櫃(3000多)、一臺全千兆交換機(華為S1700 24口 2000以內或者 TP link弄一個企業級的)、配一個磁碟陣列(20000以內)羣暉NAS或者某一臺伺服器上上一個LSI的RAID卡,上8塊4T盤做RIAD,然後開個NFS共享,否則你們以後跑程序各種拷貝數據很麻煩的。


寫一個我自己現在用的,因為是我自己用的,所以東西收的主要是二手的。

我是去年收的,下面寫的價格是現在的市場價格,給你做一個參考。

伺服器平臺:華碩ESC G4000 2000塊左右

CPU:E5 2680V2 兩張 一張1050 一共2100塊

GPU:GTX1080ti 四張 一張4000 一共16000塊

內存:8gx16 128g 一條70 一共1120塊

硬碟:1T SSD 800塊

總計:22000左右

你的預算是30萬左右,可以買13臺這樣的機器,平常每人一個使用,大運算的時候可以用多機多卡的方案加速。


30萬 兩臺差不多 8卡的差不多 3臺可能不夠

supermicro /研華 4028GR-TR2 準系統 市場上大概3-3.5一臺

TITAN xp 16張 覺得XP不好的話 可以用RTX 系列 不過真的貴 。現在在8000-10000左右 看行情

CPU E5-2660V4 *4 兩臺的

內存 32*4 單臺

硬碟 因為是小盤 所以 2.5寸的 1.2TB*6 這個地方看你內容決定

Raid 卡一張 LSI的還不錯

總體下來 單臺在15左右 有可能超一些 但可以修改卡的數量 所以問題不大

至於四卡的方案 報歉 基本都是X系列配的 我不太善長操作。


GPU雲伺服器呢?可以按量付費,不用一次性投入太多,確定好用了再買包年包月的。瞭解一下。

GPU雲伺服器_GPU伺服器_GPU高性能運算伺服器價格_購買 - 阿里雲?

www.aliyun.com圖標

這麼說吧,預算不充足,GPU太貴。建議2臺3臺路伺服器,加中端GPU。


打電話給戴爾,聯繫當地總代,告知需求,要個主流配置,選個金牌cpu,64核心還是100朝上就看預算了,硬碟內存插滿,自己最多選個顯卡型號吧,這樣搞下來大概20萬一臺,搞三臺一般是搞冗餘保活,我覺得是沒必要了,又沒實際的對外商業需求,而且光搭一套存儲加光纖交換機就可以花光20萬預算。

還有就是租個私有雲吧。成本更高點,但是可以看實際需求隨時擴容或者隨時減少。錢也省下來了,性能也得到保障了。

公款花出去必須要有點對點的單一售後,一定要買個4000的硬碟質保。其它搞什麼diy都是坑自己。


推薦閱讀:
相關文章