Batch Normalization (BN层)-----批归一化

2024-12-01 来源：个人技术集锦

1.数据分布

在讲BN层之前，我们得先了解何为数据分布，数据分布跟网络训练又有什么关系。

（1）抛砖引玉

我曾经在做一个分类网络时，遇到一个问题，就是训练的时候，精度一直是0，百思不得其解。后来看了下数据的输入顺序，原来是这样的，数据共500张，顺序是100张苹果，然后100张香蕉，然后100张橘子，然后100张梨，然后100张桃子。我们的batch size是5。这时候会出现什么问题呢，就是每个batch的数据输入网络的数据，会一直是苹果，然后苹果数据没了，就会是一直是香蕉...如此类推。这样子网络是没法学到东西的，后来通过打乱数据集的数据，就是不让同一类水果的数据都堆在一起，这就解决了问题，网络能成功训练了。这背后的问题就是数据分布问题，在没打乱之前，数据分布明显是会变来变去的，要么都是苹果，要么都是其他水果，在打乱之后，数据大体的分布就趋向一致了。

（2）训练数据为什么要和测试数据同分布：

看下图，如果我们的网络是在左上角的数据上训练的，已经找到了两者的分隔面w，如果测试数据是右下角这样子，跟训练数据完全不在同一个分布上面，你觉得泛化能力能好吗？说到底，网络训练的时候学习的是训练数据的分布。

2.BN层的作用

1.加快网络训练和收敛的速度。（这是BN的主要作用）

2.控制梯度爆炸，防止梯度消失

3.防止过拟合

BN层：

BN全称是Batch Normalization，意思是批归一化。

提到归一化，先解释一下为什么要做归一化，神经网络在开始训练前，都会对数据做一个归一化处理，把数据变成均值为0，方差为1，这样要能让网络更好更快地收敛。（）。那么我们知道，网络学习的本质其实是学习数据的分布，训练数据与测试数据的分布一样，训练出来的网络才能在测试集中取得不错的效果，但另一方面，如果输入网络训练的每一批数据的分布都不一样的话，那么网络就要在每次训练迭代的过程中去适应不同的分布，这会大大降低网络的训练速度。这也是网络开始训练前要对数据做归一化预处理的一个原因。

而网络一旦训练起来，参数就要发生更新，除了输入层，其他层的数据分布都是不断变化的，因为在训练的时候，网络参数的变化就会导致后面输入数据的分布变化。而BN就是为了解决这个问题的。有人说，那对每一层的输出都做一次归一化(例如归一化到均值为0，方差为1)，然后再继续训练不就行了吗？但是事实上如果这样做的话会改变掉网络之前已经学习到的特征，例如某一层的网络的输出是大部分比较靠近0的右边的，经过ReLu激活函数后(大于0的会线性激活)，大部分都会被激活，但如果强行进行归一化，则大部分输出都无法激活了，这样的话，原来学习到的特征不就被破坏掉了吗？针对这个问题，BN对上面的方法做了一点改进：变换重构，引入可以学习的参数，这是BN算法的关键之处。因为：

BN就是对每一层输出进行归一化，然后通过BN中学习到的参数，来还原被归一化之前的数据特征。

3.BN核心公式和流程：

如下：

解释一下公式：

1. 输入的一批数据为B，可训练参数

2.BN的具体操作，先计算B的均值

3.然后用均值

4.最后将B中的每个输出(即x)乘再加上，目的是还原归一化后的特征。如下公式：（k为B中第k个x）

5.注意：BN是对每一个x做处理的，即B数据中每一个x都会有两个参数：和。

4. BN用于CNN中

上面讲到，对于批数据B中的每一个x，都有两个参数和。但这样在CNN上就很难搞，因为CNN参数很多，假如某一层卷积层有6个特征图，每个特征图的大小是100*100，这样就相当于这一层网络有6*100*100个神经元，那么每个神经元都有和的话，那么一个BN层就有 6*100*100*2个参数。这是相当恐怖的，所以其实卷积神经网络使用BN的时候，也做了权重共享的策略，把一张特征图当做一个神经元来处理。

如下图：

假设下图为CNN中某一层的特征图，其维度通常记为[N, H, W, C]，其中N是batch_size，H、W是行、列，C是通道数。那么上式中BN的输入集合B就是蓝色的部分。

那么均值怎么求呢？

为了方便说明，假设C=3的RGB图片，batch size = 10（即N=10），均值就等于上图蓝色的所有像素值都加起来，然后除H*W*10。再计G通道全部像素值总和除以H*W*10,再计算B通道全部像素值总和除以H*W*10。方差也是类似。

可训练参数和的维度等于通道数C，因为BN在CNN中，是一批次的数据(即蓝色部分)分配一对和的。

所以特征重构时，蓝色部分的每个元素用的都是相同的和。在上述例子中，RBG三个通道分别各自需要一个和。

5. BN测试时

在训练结束时，已经不存在batch的概念了。因为测试时，是一张张图片输入网络的。那么这个时候的BN层改如何计算均值和方差呢？在测试时候提到的均值和方差已经不是针对一个batch数据而言，而是针对整个数据集而言的，所以在训练过程中还会记录每一个Batch的均值和方差，以便训练完成之后按照下式计算整体的均值和方差：

意思是，此时的均值是整个数据集的均值(即基于所有批次的均值)，m为batch size的大小，即每个B中有m张图片。m-1表示训练时每个批次B的图片数不能是1，因为要是1的话，就没必要计算均值和方差做归一化了。