最近上海开始降温了,而且常常下雨,天气开始变得好冷啊!以前年轻的时候冬天经常穿的少,现在膝盖开始有点遭不住了,小伙伴们一定要保护好自己的膝盖啊!
表情识别任务存在数据偏差问题,现有的研究只使用标记的面部表情数据集来解决数据偏差问题。与现有的FER方法相反,我们提出利用大型的无标记人脸识别(FR)数据集来增强FER。
FR(Face Recognition)数据集如Webface260M、MS-Celeb-1M 和VGGFace2都是百万级FR数据集,它们包含具有良好综合多样性的人脸图像(即不同的姿态、身份、照明变化,和不同的表情)。相比之下,最大的公共FER数据集(Facial Expression Recognition)只包含440K张图像。然而,这不可避免地提出了另一个数据偏差问题,因为FER数据和FR 数据的分布不匹配,如图所示
2、我们提出了Meta-Face2Exp框架,通过元优化框架从辅助FR数据中提取去偏信息。
3、我们在广泛使用的FER基准上进行了广泛的实验,包括AffectNet和RAFDB ,以证明我们的Meta-Face2Exp框架的有效性。具体来说,Meta-face2exp使用仅10%的标记FER数据,获得了与最先进的FER方法相比较的结果。
首先,我们整体的来看一下这个网络。通过一个采样模块Smp(·)在FER数据集进行采样,以确保类平衡(具体来说就是在不同表情类别上采相同个数的图片)。接下来将这些数据送入基础网络(Base Network)进行训练。之后,使用基础网络在FR数据集上生成伪标签。自适应网络基于伪标签在无标签数据集FR上进行训练。
利用Meta-Face2Exp的去偏机制,根据有偏FR数据和去偏FER数据之间的认知差异,根据适应网络的反馈,逐步改进基础网络。
因此,基础网络可以产生更好的伪标签,用于训练下一代的自适应网络。
在训练过程中,A网络和B网络交替进行更新。在推理阶段,只将自适应模型A用于面部表情预测
我们估计了初始的自适应网络(即,用FER数据进行训练),并观察到一个严重倾斜的蓝色精度分布。之后,我们可以观察到越来越平坦的精度分布(即红色准确度分布)从训练步骤1到T的去偏置机制。.同时,基于对平衡的FER数据的反馈,将预测的FR标签一般从悲伤、中性表达校正为快乐表情。
Adaptation Network(A)
对于自适应网络,由于FR数据具有丰富和全面的多样性,因此利用大规模未标记的FR数据来增强FER。
自适应网络使用无标签的FR数据进行训练,使用基础网络生成的伪标签,希望自适应网络和基础网络可以有相似的预测条件分类分布。
伪标签在训练过程中会动态变化。
这里的Aug()指的就是数据增强
如图所示,,图像生成有三种类型的增强,包括左框上所有数据的常规变换(随机裁剪、旋转和水平翻转),右框上的FR数据的广泛图像变换(即旋转、移除和像素级图像处理),以及顶框上的表情增强。
考虑到面部表情与面部标志密切相关,我们通过覆盖与面部表情无关的区域来增强面部图像来纯化面部表情特征提取。具体的 最后,我们应用MTCNN 检测5个面部标志,并通过经验确定以标志为中心的斑块,即眼睛50×20像素,鼻子和嘴50×40像素,以及224×50像素 用于前额。
Feedback learning with FR data:
其中,f估计了FR和FER数据之间的认知差异的反馈,以帮助更新基础网络的参数。反馈系数f的定义可以表示为
其中,f表示为两项的点积。第一项:新的自适应网络在去偏置FER数据上的梯度。第二项:旧的自适应网络在偏FR数据上的梯度。如果两个项具有相同/不同的梯度符号,则根据当前梯度的相同/不利条件更新基础网络。点积的绝对值决定了梯度更新的强度。
Algorithm for Meta-Face2Exp
让我们来看一下完整的算法流程
首先,基础网络从类平衡的FER数据中学习先验表达知识,从而在伪标签生成过程中产生更多的无偏表情预测(B→A)。其次,自适应网络比较去偏FER数据上的认知差异(即更新参数前后),利用反馈损失来更新基础网络的学习,明确解决了FR和FER数据之间的类分布不匹配(A→B)。最后,即使没有标记,自适应网络也具备了去偏表达知识。