当batch_size为1时，为何模型测试的准确率会严重下降？

本人使用的是tensorflow框架，生成tfrecord的数据集进行训练，网路是mobile_netV1的卷积网路，训练的时候batch_size也是32,网路训练完时的准确率达到90%左右
但是当我将batchsize的大小改为1，然后用训练好的模型测试，准确率下降到了20%！而把batch_size回调到32,使用训练好的模型测试时，准确率就回升了
在这里，将m=1（batch_size=1）代入，最后的y=beta，输入x失效了。
但是实际上代码中会将mean/var记录下来。
def batchnorm_forward(x, gamma, beta, bn_param): """ Input: - x: (N, D)维输入数据 - gamma: (D,)维尺度变化参数 - beta: (D,)维尺度变化参数 - bn_param: Dictionary with the following keys: - mode: train 或者 test - eps: 一般取1e-8~1e-4 - momentum: 计算均值、方差的更新参数 - running_mean: (D,)动态变化array存储训练集的均值 - running_var：(D,)动态变化array存储训练集的方差

Returns a tuple of:
- out: 输出y_i（N，D）维
- cache: 存储反向传播所需数据
"""
mode = bn_param[mode]
eps = bn_param.get(eps, 1e-5)
momentum = bn_param.get(momentum, 0.9)

N, D = x.shape
# 动态变数，存储训练集的均值方差
running_mean = bn_param.get(running_mean, np.zeros(D, dtype=x.dtype))
running_var = bn_param.get(running_var, np.zeros(D, dtype=x.dtype))

out, cache = None, None
# TRAIN 对每个batch操作
if mode == train:
sample_mean = np.mean(x, axis = 0)
sample_var = np.var(x, axis = 0)
x_hat = (x - sample_mean) / np.sqrt(sample_var + eps)
out = gamma * x_hat + beta
cache = (x, gamma, beta, x_hat, sample_mean, sample_var, eps)
running_mean = momentum * running_mean + (1 - momentum) * sample_mean #&
希望能够帮助到楼主。
参考自：

【AlexeyAB DarkNet框架解析】十一，BN层代码详解(batchnorm_layer.c)?
cloud.tencent.com

昨天我也遇到这种问题，后来发现是训练好之后，你去「测试」训练集，如果你改了batch size的同时还是让is_training=True，BN层计算出来的mean和var肯定与训练时不同了，效果肯定会很差，所以要设置is_training=False，滑动平均的mean和var（这样得出来的在训练集的性能有可能也会比训练时差一点点）

batchnorm其实是需要使用全局数据的均值和方差，这样会更好的做归一化变换，当你的size=1时，均值和方差无法准确的计算，自然你的loss会很震荡，当你的loss值震荡时，会较大范围的影响各层的参数，使得性能下降，针对此在2017年2018年提出了很多分组归一化等改进方法，可以去参考下。

这种问题99%出在batchnorm层上。。。可以尝试把batchnorm层调到train/val的状态试试看

学习率怎么设置的？
你把训练集的loss 一起列印出来。。可能是过拟合了

最好把tensorboard 打开debug，然后把training loss for列印出来debug，一般很少有人会把batch size设为1，波动性太大很容易造成大的偏移，这样到达不了最优点

训练loss没问题的话，要么是过拟合，要么就是测试过程的网路结构和参数就有问题。

推荐阅读：

当batch_size为1时，为何模型测试的准确率会严重下降？

热门新闻

周热门

当batch_size为1时，为何模型测试的准确率会严重下降？

如何看待 2020 年 3 月 28 日华为开源的深度学习框架 MindSpore？

在2019年，使用AMD显卡是否相当于告别深度学习，未来CUDA在机器学习领域的垄断有可能被打破吗？

tensorflow2.0成了这样子，连placeholder都没了，你们用吗？

伺服器如何使用多显卡？

2019年11月，tensorflow已经发布2.0正式版本，tf 1.1x版本用户应该如何选择？

Tensorflow可以载入两个模型吗？

pytorch保存模型再载入比训练时低了两个点，这是为什么呢？

我在训练ResNet时，验证集打乱顺序和不打乱顺序得到的准确率不一样，为什么会有这种情况呢?

如何评价龙龙老师的《TensorFlow深度学习-深入理解人工智慧演算法设计》深度学习开源书本？

求通俗解释NLP里的perplexity是什么？

Python2.7 安装tensorflow-gpu后，import tensorflow出错？

关于使用keras、CNN实现文本多标签多分类的问题？

卷积神经网路中卷积核是如何学习到特征的？

为什么senet有很高的准确率，似乎仍然没有resnet常用？

如何看待商汤的Deformable DETR？能否取代Faster-RCNN范式？

热门新闻

周热门