3A平台上搭建机器学习平台（二）Benchmarks测试

在上一篇文章中，我初步搭建了软硬体平台：

拓荒犬：3A平台上搭建机器学习平台（一）硬体和软体平台的初步搭建?

zhuanlan.zhihu.com

平台搭建好了，由于想知道该平台的一个整体性能，所以想要跑些Benchmarks。由于TensorFlow使用的人群较多，打算集中在TensorFlow，也没有太多精力去折腾其他的framework。

了解到TensorFlow有自己的官方Benchmarks：tensorflow/benchmarks，里面的tf_cnn_benchmarks包含了resnet50, resnet152, inception3, vgg16, googlenet, alexnet等模型，只需要简单地提供一些参数，便可开始测试，然后给出该平台的性能。

由于是第一次使用TensorFlow，所以遇到不少坑，当然也有很多是因为自身经验不足的原因导致的，所以这里都会记录我踩坑的经历，如果想要看VEGA64具体的Benchmarks表现，直接拉到最后看结果即可。

首先遇到的问题是，从git上clone TensorFlow benchmarks后，执行以下指令，报错，说缺少相应的文件。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet50 --variable_update=parameter_server

然后发现git上的TensorFlow有gradients_util.py，于是就怀疑是AMD的tensorflow-rocm文件不全，所以就自己手动添加相应的文件。可是添加好一个文件后，又报另一个文件缺失的错误，连续这样好几次，我觉得也不是办法，所以就想能否安装tensorflow-gpu来补全缺失的文件。虽然我了解到tensorflow-gpu明确需要CUDA的支持，需要run在NVIDIA GPU上面，但是还是抱著试一试的心态。