您的当前位置:首页正文

Batch Normalization (BN层)-----批归一化

2024-12-01 来源:个人技术集锦

 


1.数据分布

在讲BN层之前,我们得先了解何为数据分布,数据分布跟网络训练又有什么关系。

(1)抛砖引玉

我曾经在做一个分类网络时,遇到一个问题,就是训练的时候,精度一直是0,百思不得其解。后来看了下数据的输入顺序,原来是这样的,数据共500张,顺序是100张苹果,然后100张香蕉,然后100张橘子,然后100张梨,然后100张桃子。我们的batch size是5。这时候会出现什么问题呢,就是每个batch的数据输入网络的数据,会一直是苹果,然后苹果数据没了,就会是一直是香蕉...如此类推。这样子网络是没法学到东西的,后来通过打乱数据集的数据,就是不让同一类水果的数据都堆在一起,这就解决了问题,网络能成功训练了。这背后的问题就是数据分布问题,在没打乱之前,数据分布明显是会变来变去的,要么都是苹果,要么都是其他水果,在打乱之后,数据大体的分布就趋向一致了。

(2)训练数据为什么要和测试数据同分布:

看下图,如果我们的网络是在左上角的数据上训练的,已经找到了两者的分隔面w,如果测试数据是右下角这样子,跟训练数据完全不在同一个分布上面,你觉得泛化能力能好吗?说到底,网络训练的时候学习的是训练数据的分布。

2.BN层的作用

1.加快网络训练和收敛的速度。(这是BN的主要作用

2.控制梯度爆炸,防止梯度消失

3.防止过拟合

BN层:

BN全称是Batch Normalization,意思是批归一化。

提到归一化,先解释一下为什么要做归一化,神经网络在开始训练前,都会对数据做一个归一化处理,把数据变成均值为0,方差为1,这样要能让网络更好更快地收敛。()。那么我们知道,网络学习的本质其实是学习数据的分布,训练数据与测试数据的分布一样,训练出来的网络才能在测试集中取得不错的效果,但另一方面,如果输入网络训练的每一批数据的分布都不一样的话,那么网络就要在每次训练迭代的过程中去适应不同的分布,这会大大降低网络的训练速度。这也是网络开始训练前要对数据做归一化预处理的一个原因。

而网络一旦训练起来,参数就要发生更新,除了输入层,其他层的数据分布都是不断变化的,因为在训练的时候,网络参数的变化就会导致后面输入数据的分布变化。而BN就是为了解决这个问题的。有人说,那对每一层的输出都做一次归一化(例如归一化到均值为0,方差为1),然后再继续训练不就行了吗?但是事实上如果这样做的话会改变掉网络之前已经学习到的特征,例如某一层的网络的输出是大部分比较靠近0的右边的,经过ReLu激活函数后(大于0的会线性激活),大部分都会被激活,但如果强行进行归一化,则大部分输出都无法激活了,这样的话,原来学习到的特征不就被破坏掉了吗?针对这个问题,BN对上面的方法做了一点改进:变换重构,引入可以学习的参数,这是BN算法的关键之处。因为:

BN就是对每一层输出进行归一化,然后通过BN中学习到的参数,来还原被归一化之前的数据特征

 

3.BN核心公式和流程:

如下:

                                            

解释一下公式:

1. 输入的一批数据为B,可训练参数 

2.BN的具体操作,先计算B的均值

3.然后用均值

4.最后将B中的每个输出(即x)乘 再加上,目的是还原归一化后的特征。如下公式:(k为B中第k个x)

 

5.注意:BN是对每一个x做处理的,即B数据中每一个x都会有两个参数:和。

 

4. BN用于CNN中

上面讲到,对于批数据B中的每一个x,都有两个参数和。但这样在CNN上就很难搞,因为CNN参数很多,假如某一层卷积层有6个特征图,每个特征图的大小是100*100,这样就相当于这一层网络有6*100*100个神经元,那么每个神经元都有和的话,那么一个BN层就有 6*100*100*2个参数。这是相当恐怖的,所以其实卷积神经网络使用BN的时候,也做了权重共享的策略,把一张特征图当做一个神经元来处理。

如下图:

假设下图为CNN中某一层的特征图,其维度通常记为[N, H, W, C],其中N是batch_size,H、W是行、列,C是通道数。那么上式中BN的输入集合B就是蓝色的部分。

                                                   

那么均值怎么求呢?

为了方便说明,假设C=3的RGB图片,batch size = 10(即N=10),均值就等于上图蓝色的所有像素值都加起来,然后除H*W*10。再计G通道全部像素值总和除以H*W*10,再计算B通道全部像素值总和除以H*W*10。方差也是类似。

可训练参数和的维度等于通道数C,因为BN在CNN中,是一批次的数据(即蓝色部分)分配一对和的。

所以特征重构时,蓝色部分的每个元素用的都是相同的和。在上述例子中,RBG三个通道分别各自需要一个和。

 

5. BN测试时

在训练结束时,已经不存在batch的概念了。因为测试时,是一张张图片输入网络的。那么这个时候的BN层改如何计算均值和方差呢?在测试时候提到的均值和方差已经不是针对一个batch数据而言,而是针对整个数据集而言的,所以在训练过程中还会记录每一个Batch的均值和方差,以便训练完成之后按照下式计算整体的均值和方差:

                                                         

意思是,此时的均值是整个数据集的均值(即基于所有批次的均值),m为batch size的大小,即每个B中有m张图片。m-1表示训练时每个批次B的图片数不能是1,因为要是1的话,就没必要计算均值和方差做归一化了。

显示全文