3A平台上搭建機器學習平台（二）Benchmarks測試

在上一篇文章中，我初步搭建了軟硬體平台：

拓荒犬：3A平台上搭建機器學習平台（一）硬體和軟體平台的初步搭建?

zhuanlan.zhihu.com

平台搭建好了，由於想知道該平台的一個整體性能，所以想要跑些Benchmarks。由於TensorFlow使用的人群較多，打算集中在TensorFlow，也沒有太多精力去折騰其他的framework。

了解到TensorFlow有自己的官方Benchmarks：tensorflow/benchmarks，裡面的tf_cnn_benchmarks包含了resnet50, resnet152, inception3, vgg16, googlenet, alexnet等模型，只需要簡單地提供一些參數，便可開始測試，然後給出該平台的性能。

由於是第一次使用TensorFlow，所以遇到不少坑，當然也有很多是因為自身經驗不足的原因導致的，所以這裡都會記錄我踩坑的經歷，如果想要看VEGA64具體的Benchmarks表現，直接拉到最後看結果即可。

首先遇到的問題是，從git上clone TensorFlow benchmarks後，執行以下指令，報錯，說缺少相應的文件。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet50 --variable_update=parameter_server

然後發現git上的TensorFlow有gradients_util.py，於是就懷疑是AMD的tensorflow-rocm文件不全，所以就自己手動添加相應的文件。可是添加好一個文件後，又報另一個文件缺失的錯誤，連續這樣好幾次，我覺得也不是辦法，所以就想能否安裝tensorflow-gpu來補全缺失的文件。雖然我了解到tensorflow-gpu明確需要CUDA的支持，需要run在NVIDIA GPU上面，但是還是抱著試一試的心態。