GPU在在深度学习的哪部分计算速度优于CPU呢，GPU的主要优化方向又有哪些？

下面答主给出了原因，我觉得合理，因为predict一次的cpu矩阵运算相比于cpu和gpu的通信时间还是快的，因而出现cpu好像更快的情况
原问题：偶然一次只用训练好的rnn做predict的尝试让我很奇怪，用gpu的计算速度居然比cpu慢，时间是用python的time算的，连续算了5次都是cpu更快....设备的话，n卡是gtx1080，u是E5-2660 v4，框架是tf
这让我很好奇，对于深度网路任务，GPU在哪部分效率是比cpu高的，又是在哪些部分针对性优化的

1. 修改单元数量，观察速度比的变化，单元数目越大 GPU 越有优势

2. 关于数据拷贝，你真的需要从 CPU 拷贝到GPU 吗？如果所有计算的 Op 都有 GPU 版本，那其实没必要有拷贝的，数据拷贝可以在需要的时候做一次

3. 用 GPU 写整个 RNN，比如 cudnn 里提供的 RNN 就比 TF 里快一个数量级的样子

GPU比CPU快其实只是讲运算速度，忽略了数据通信。而且GPU本身比较擅长矩阵计算。

其实上，我曾经也因为这个问题看过许多在StackOverflow和Quora上的问题。

在训练的时候，由于数据量很庞大，计算的时间足够掩盖数据传递的时间，所以GPU会快一些。

但是如果做成serving，当然也要看serving怎么做，比如像某度AI那样，每次提交一个样本并且样本规模不大的情况下，至少我自己实测是CPU快。（比如说文本分析，相对的，分析高清视频可能又是另一回事了。）

大图片的话运算都是大型矩阵了，还是GPU快一些。

你统计时间的时候大概没办法把数据通信和计算完全分开，所以才有问题。

https://www.zhihu.com/question/283920697/answer/560782950

数据通过cpu从cpu拷贝到GPU，然后在GPU上进行计算，然后把计算结果从GPU拷贝回内存中。使用GPU计算增加的成本就是cpu和gpu之间数据通信的时间。然而真正开始计算的时候，GPU的计算速度比CPU计算快很多（足够cover掉数据拷贝时间）。所有GPU效率高的地方在并行计算部分。题主遇到的现象要么是时间统计错了要么就是代码用错了，不然就是硬体坏了又或者是数据太小，根本没必要用GPU计算。不然使用GPU肯定比CPU快。

我觉得你更应该好奇的的是GPU比CPU慢的问题出在哪里了

对于有深度学习训练需求的朋友还是很建议大家在智星云租用GPU，性价比非常高。

CPU由运算器（ALU）和控制器（CU）两大部件组成。此外，还有若干个寄存器和高速缓冲存储器及实现它们之间联系的数据、控制及状态汇流排。ALU用来执行算术运算、移位操作、地址运算和转换；寄存器件用于保存中间数据以及指令；CU负责对指令解码，并发出为完成每条指令所要执行的各个操作的控制信号（见图24-1）。