2018年已经挂出来,2019年被CVPR接收。
提出了空间位置注意力机制和通道注意力机制。通过这空间注意力网络来学习特征的空间相关性,通过通道注意力网络来学习通道之间的相关性。对于场景分割效果很好。
如下图所示,论文的整体框架主要分为两部分。第一部分是基础网络结构,论文中使用的是ResNet,主要作用是用来提取通用特征。第二部分就是论文提出的空间位置注意力模型和通道注意力模型,两个注意力模型的结果通过加操作融合在一起,最后通过一个卷积层输出结果。
Position注意力模型网络结构如下图所示,网络结构的整体流程是:1. A经过一个卷积层得到B和C,特征图大小为(C*H*W),B经过rechape操作得到特征为C*N(N=H*W),B再经过transpose操作得到N*C的特征。C经过reshape操作得到特征为C*N。2. 然后将B和C进行乘操作得到N*N,再经过softmax层得到 N*N((H*W)*(H*W))大小的特征图。3. 将softmax得到的注意力图和D(C*N)进行相乘操作得到C*N大小的特征图,在通过reshape得到C*H*W大小的特征图。4 . 将得到的C*H*W的特征图与A进行加操作,最终得到E,从图中可以看出E的每个位置的最终特征是所有位置的特征与原始特征的加权和。
通道注意力模型和Position模型是一样的操作,不同之处主要有两点:1. 通道注意力网络开始的时候没有使用卷积层来处理,而是直接使用reshape操作。2. softmax层之后得到的矩阵是通道维度上的大小是C*C。