1.哪些牌子的GPU伺服器值得推荐?(不是云伺服器)

2.还有买一个伺服器插一块好的GPU与插多块次一点的GPU哪个方案好?

3.多块GPU跑程序的时候指定了GPU_id就会沾满整个GPU吗?是不是没法再跑其他程序了


1.专业的GPU伺服器可以尝试下AMAX,英伟达授权的OEM厂商的也可以。

2.第二个问题的话,我有个建议,按照GPU伺服器的一般尿性,你可以按照:

双宽PCI-E(大的,比如说Tesla P100/GeForce GTX 1080 Ti这种,功耗300W差不多)

单宽PCI-E(稍微小点的,比如说Tesla P4 功耗不到100W)

还有传说中的NVLINK(Tesla P100/V100都有这种)

那么咱们拿最常见的我所谓的双宽PCI-E来举例说明,一般的2U伺服器应该都是2张(横向放置,据说戴尔的R740可以放三个,我们没有实际操作过),那么业内我所知道的可以放置这种卡的一般也就是8张了(比如我们实际操作过的超云R8420)。

言归正传,现在我来认真回答你的第二个问题;

我们来对比下GTX 1080 Ti和P100(参考标准:售价)

嘿嘿,你说哪个合适点?GTX 1080 Ti*2和P100性能哪个强点?

第三个问题留给应用层的大佬。

下面P个神器:

不就是堆嘛。。。。谁怕谁呀。


品牌伺服器的选择

一、品牌GPU伺服器首推的自然是NVIDIA DGX系列:DGX工作站、DGX-1、DGX-2;分别是是NV-LINK的Tesla V100 32GB的 4卡、8卡、16卡 机!价格也很美丽:50/100/300万吧!

反正这种机器不可能私人掏腰包,只要预算有,我个人还是推荐这个的!不光是性能强,关键是部署简单!

二、各OEM厂商的品牌伺服器里各路大神们都有专门的GPU伺服器:

1、1-3卡的:老三样中的惠普DL380/388系列、Dell R740系列、联想(您就当是还是IBM)SR650系列!都是2U2P的伺服器,当然国产品品牌H3C 4900、华为2288H等机型,都是可以上2-3块双宽的GPU的伺服器!

2、4卡的:2U上4卡的伺服器不多,一般四卡的多数以塔式伺服器为主:惠普ML350、dell T640、联想558(这个有点吃不准);机架式2U的四卡伺服器:联想SR670、浪潮NF5280,我记得是可以上4卡的!

3、8卡机器:推荐H3C R5300G3、惠普的阿波罗6500、联想的HG860X!其他,不熟啦!有空的您可以自己去看看!

关于GPU的选择:

以前的GPU型号不说了,截止现在来说,自己动手DIY GPU伺服器,选择的余地很小了:

官方推荐的卡:T4和V100

民间实践的卡:RTX2080Ti和TITAN RTX

官方推荐的源于Tesla卡的材料品质更好点,RTX2080Ti 嘛说到底还是游戏卡 消费类的嘛,差点也无所谓!TITAN系列虽说也是专业级别的卡,可人家老黄说了,TITAN系列是给台式机用的,Tesla 才是给伺服器用的!

所以怎么选?还得看用户是怎么用的?如果你双精度等科学计算的话自然首选V100!如果只是个简单训练,感受下深度学习那就RTX2080Ti、如果再严格苛刻点那就TITAN RTX了!入门级的做个推理或者视频类啥的,那就T4啦!如果做VDI+GPU虚拟化的GPU伺服器只能选Tesla T4/V100 和RTX6000/8000这四种卡(别给我扯K1/K2/M10/M60/P4/40!都停产了)!

先到这儿吧!有兴趣交流的和了解市场行情的可以百度下ITSTO这个网站!


先说下3吧, MIG(多实例 GPU) 已经诞生,打破了 GPU 虚拟化中资源分配的瓶颈,能够将基于安培架构的 GPU 伺服器 A100 切分成 7 个 GPU 实例,并且可以使每一个 GPU 实例都能够拥有各自的 SMs 和内存系统,让每个实例之间的内存空间访问互不干扰,保障每一个使用者的工作时延和吞吐量都是可预期的。

依前楼所说,在计算能力相当的情况下,优先选一块好的GPU,因为多块次一点的GPU会带来更大的主板供电压力。例如,Titan X Pascal几乎是GTX 980的三倍性能。

传统PCI-e汇流排的GPU伺服器分为两类:

一类是OEM伺服器,经过NVIDIA官方测试认证的厂商。比如我们宽泛科技不仅是NVIDIA的战略合作伙伴,同时已成为NVIDIA潜力AI公司加速计划成员

另一类是非OEM的伺服器,也包括很多种类。

选择GPU伺服器时首先要考虑业务需求来选择适合的GPU型号。在HPC高性能计算中还需要根据精度来选择,比如有的高性能计算需要双精度,这时如果使用P40或者P4就不合适,只能使用V100或者P100;同时也会对显存容量有要求,比如石油或石化勘探类的计算应用对显存要求比较高;还有些对汇流排标准有要求,因此选择GPU型号要先看业务需求。

GPU伺服器人工智慧领域的应用也比较多。在教学场景中,对GPU虚拟化的要求比较高。根据课堂人数,一个老师可能需要将GPU伺服器虚拟出30甚至60个虚拟GPU,因此批量Training对GPU要求比较高,通常用V100做GPU的训练。模型训练完之后需要进行推理,因此推理一般会使用P4或者T4,少部分情况也会用V100。

当GPU型号选定后,再考虑用什么样GPU的伺服器。这时我们需要考虑以下几种情况:

第一、 在边缘伺服器上需要根据量来选择T4或者P4等相应的伺服器,同时也要考虑伺服器的使用场景,比如火车站卡口、机场卡口或者公安卡口等;在中心端做Inference时可能需要V100的伺服器,需要考虑吞吐量以及使用场景、数量等。

第二、 需要考虑客户本身使用人群和IT运维能力,对于BAT这类大公司来说,他们自己的运营能力比较强,这时会选择通用的PCI-e伺服器;而对于一些IT运维能力不那么强的客户,他们更关注数字以及数据标注等,我们称这类人为数据科学家,选择GPU伺服器的标准也会有所不同。

第三、 需要考虑配套软体和服务的价值。

第四、 要考虑整体GPU集群系统的成熟程度以及工程效率,选择有非常成熟的从底端的操作系统驱动Docker到其他部分都是优化过的伺服器,这时效率就比较高。

综上所述,选择伺服器时不仅需要考虑业务需求,还要考虑性能指标,比如精度、显存类型、显存容量以及功耗等,同时也会有一些伺服器是需要水冷、降噪或者对温度、移动性等等方面有特殊的要求,就需要特殊定制的伺服器。

宽泛科技旗下Cloudhin?云轩支持Deep learning和高性能计算伺服器定制,针对主要深度学习框架(如TensorFlow、Caffe 2、Theano或Torch)进行了优化和设置,在桌面上即可提供强大的深度学习功能。

专业勤修,锐意进取。云轩技术工程师毕业于NVIDIA深度学习研究所,丰富经验,值得信赖。

欢迎了解更多:Kuanfans|宽泛科技 - 专注于计算机视觉和深度学习计算的信息化解决方案服务商


国内的话,还是比较推荐智星云,我们最近没法回实验,所以就在智星云租用的GPU伺服器,环境都是配置好的,而且种类可以选择的也比较多。


GPU伺服器属于异构计算伺服器,将并行计算负载放到协处理器(GPU)上来,欢迎联系思腾合力,作为英伟达精英级合作伙伴,在原厂技术资源、GPU技术上都有多年的积累。


国内的话,还是比较推荐智星云,我们最近没法回实验,所以就在智星云租用的GPU伺服器,环境都是配置好的,而且种类可以选择的也比较多。


英伟达GPU显卡最好,伺服器dell,华为都支持,就看你跑什么业务了,人工智慧或者是大数据那就p40显卡

根据你的业务需求来购买显卡


r8420是Dell的吗?


1.现在的GPU伺服器很多都是用台湾方案+nv官方的卡+Intel的CPU+其它攒的,性能上差别不大,多问几家,别被宰就好。如果是在北京的话,可以考虑一下容天,他们的服务还可以。

2.在计算能力相当的情况下,优先选一块好的GPU,因为多块次一点的GPU会带来更大的主板供电压力。

3.早期的cuda版本是会占满整个GPU的,现在没有这种情况了,不过据说cuda程序里面还是有办法实现GPU独占,没仔细研究过。


推荐阅读:
相关文章