有人问我,用一个性能还不错的 GPU 作为 tensorflow 的运算工具会比 CPU 快多少。这个的确具体看你的 CPU 和 GPU 性能到底如何,不过,通常意义上讲,GPU 的运算时间会远远小于 CPU,我在学校里面的深度学习作业,我用我的笔记本电脑 (Lenovo T470)的CPU,跑了10min,在 Google Compute Engine 上搭建的GPU虚拟机,跑了30s。这个差距是非常可怕的。

有人不知道为什么 GPU 在这种快速矩阵运算的性能上会比 CPU 强这么多,我的理解是这样,GPU就是为了进行简单的运算而设计出来的,它没有能力执行复杂的指令集,而 CPU 恰好反之。CPU 就像一个科学家,但是科学家也不能在 1min 中算10000道小学数学题,GPU 是一群小学生,他们可以在短时间内快速地计算小学数学题,但是难以完成复杂的科学任务。

好了,不多说,我把如何搭建的过程按步骤顺序摆在下面。

(1) 申请 Google 账号。额。。。国内的朋友你们。。。

(2) 去往 Google Compute Engine 主页搭建实例。

https://console.cloud.google.com/?

console.cloud.google.com

在这一步,你需要指定伺服器位置,申请GPU,选择操作系统。。。详细的教程请参见:

https://medium.com/@kstseng/%E5%9C%A8-google-cloud-platform-%E4%B8%8A%E4%BD%BF%E7%94%A8-gpu-%E5%92%8C%E5%AE%89%E8%A3%9D%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92%E7%9B%B8%E9%97%9C%E5%A5%97%E4%BB%B6-1b118e291015?

medium.com

(3) 下载 Google Cloud SDK

这个东西会让你访问 GCP 更加稳定。

下载链接:

https://cloud.google.com/sdk/?

cloud.google.com

注意,当你的 PC 安装了 Google SDK 的时候,你甚至可以用普通 cmd 访问云端,因为你在安装 GCSDK 的时候它已经帮你配置好了环境变数,但是,cmd 访问云端十分不稳定,经常出现连接异常中断的现象,请注意。

(4) 在GCP上安装cuda

4-7步详见第2步教程

(5) 在GCP上安装CUDNN

本步骤需要较繁琐的 linux 命令

常用命令:

ls 显示本文件夹下的文件,是的,linux 看文件也需要命令
cd 进入文件夹与退出文件夹
rm -r 移动文件夹
cuda 位置 /usr/local/cuda 可能有细微区别。(注:local文件夹的地位与 windows 里面 c://programs file的地位差不多,请记住这个关键文件夹的位置)

(6) 在GCP上安装 Anaconda 并激活深度学习环境

本步骤需要使用VIM,配置环境变数,请了解VIM的使用方法。

基本命令:

i 进入输入模式
esc 退出输入模式
:wq 保存退出

其实我觉得这三个基本够了,对了,这个也常用:

整页翻页 ctrl-f ctrl-b

(7) 在GCP上安装 linux 版本的tensorflow

本步骤很可能遇到版本不兼容之情况。根据实际经验,tensorflow 1.5 与 cuda 9.0 配合使用是比较稳定的版本。

(8) 为 jupyter notebook 设置远程访问许可

设置 jupyter notebook 可远程访问?

blog.csdn.net
图标

总体来说,还是有些复杂的,其中第5步需要用到许多繁琐的 Linux 命令,没有 linux 基础的朋友一定会非常吃力。(因为我有一个 linux 基础很强的同学他依然觉得有些吃力)第8步,配置 jupyter notebook 的时候需要你会使用 VIM。

看似简简单单搭建一个深度学习平台,其实还是非常考验个人能力的,祝你成功。


推荐阅读:
相关文章