结合人脸识别元辅助学习的AU单元检测

作者 | 孙裕道

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

论文名称:Meta Auxiliary Learning for Facial Action Unit Detection
论文链接:arxiv.org/abs/2105.0662

1. 引言

该论文出自于南京理工大学和哈尔滨工业大学。当前AU单元检测的性能依赖于大量具有准确AU单元注释的训练图像,但问题是给AU单元打标签费时费力,而且极容易出错。在该论文中作者考虑到AU单元检测和人脸表情识别是两个高度相关的任务,而且人脸表情样本相对容易标注。

因此作者提出了一种结合人脸识别元辅助学习的AU单元检测方法,该方法通过以元学习的方式为训练的有限元样本学习自适应权重来自动选择高度相关的有限元样本。实验结果表明,该论文的方法显著的提高了AU检测性能。

2. 论文模型介绍

2.1 损失函数

假设在训练阶段有一个[公式]训练数据集[公式]和一个人脸表情数据集[公式]。作者保留了一个小的[公式]无偏验证数据集[公式],并且该验证集是排除[公式]训练集之后的剩余集合里采样得到的。

[公式]分别表示的是集合[公式] 的第[公式]张图像。[公式]分别表示的是集合[公式] 中元素的总个数,并且有[公式][公式]表示的是一个[公式] 编码,特指[公式]个面部表情类别上的类别。[公式]表示的是第[公式][公式] 单元。[公式]表示[公式]被激活,[公式]表示[公式] 单元没有被不激活。

作者利用多标签[公式]损失函数进行[公式] 单元检测,具体的表达式表示为:[公式]

其中[公式]表示的是[公式]单元的个数。[公式]表示的是输入[公式]样本的第[公式]个真实[公式]标签。[公式]表示是的预测的[公式]分数。

对于[公式],作者采用的是交叉熵损失函数,具体的表达式为[公式]

其中[公式]表示的是人脸表情类别。[公式][公式]分别表示的是真实标签和预测标签。

多任务训练的常规目标是最小化所有单个任务的组合损失:[公式]

其中[公式] 表示的是人脸表情识别任务的贡献平衡系数。手动调整损失权重是费时费力的,恰恰相反,元辅助学习方法[公式]旨在通过一个元优化目标,自动学习为每个[公式]样本和[公式]样本分配自适应权重[公式][公式] ,并且最小化损失:

[公式]

其中[公式]表示的是[公式]的尺寸。

2.2 元优化

下图表示了[公式]的网络结构和元优化过程。[公式] 的网络结构由基础网和元网组成。基础网络由主干网络和两个并行分类器组成。这两个分类器分别用于[公式]检测和[公式]检测。作者将主干网络表示为参数为[公式]的函数[公式],两个分类器的参数分别是[公式][公式][公式]表示与[公式]检测任务相关的参数,[公式]表示与[公式]任务相关的参数,因此基础网络中的参数被表示为[公式]。元网络接受图像特征[公式]作为特征,并将[公式]映射成标量权重[公式]。 作者将元网络表示为带有参数[公式]的函数[公式]

如下图所示,[公式]的元优化过程由三个阶段组成分别是:元学习,元测试和主干学习。在每次训练迭代中,[公式]依次执行以上三个步骤。

在元训练阶段,基础网络将一批[公式][公式]样本作为输入样本,并计算每个样本的损失。元网络中估计[公式][公式]样本的初始权重分别为[公式][公式]。这两个任务的损失通过它们各自的样本权重进行缩放,以多任务方式更新基础网络([公式])。在元测试阶段,[公式]从验证集中获取一批[公式]样本作为输入,并评估更新后的基础网络的性能。

然后,[公式]执行元梯度下降步骤来更新元网络[公式]。在基础学习步骤中,[公式]结合自适应样本权重[公式]学习这两个任务,以重新更新基础网络([公式])。

2.3 元训练阶段

给定一批[公式]样本[公式][公式],主干网络提取特征表示为[公式][公式]。利用编码的图像特征,[公式]通过元网络获得每个样本的权重表示为:

[公式]

[公式]

[公式]计算当前训练批次样本的平衡多任务损失:[公式]

通过最小化[公式][公式]重新更新基础网络的参数:[公式]

其中[公式]表示的是学习率,[公式][公式]表示的是下一次训练迭代中基础网络和元网络的初始参数。与用于多任务学习的普通随机梯度下降方法不同,[公式]交替更新基础网络参数[公式]和元网络参数[公式]

 

上述三个阶段的完整算法在如下算法中有所概述,主要通过深度学习框架[公式]来实现。

 

3. 实验结果

如下三张图片所示为BP4D,DISFA,GFT数据集上的[公式]分数。粗体表示最先进的多任务和元辅助学习方法中的最佳方法。由下图可以发现论文中的方法在这些数据集中绝大部分的AU单元检测中表现出色。

 

作者在下图中可视化了训练过程中的迭代损失和迭代权重曲线。对于每个输入批次的AU和FE样本,并计算了它们各自的平均权重,并可视化了每20次迭代的损失和平均权重。

从图(a)、(d)、(g)可以看出,随着在MTL训练的进行,FER损失的下降速度快于AU检测的损失,这表明FER任务相对容易优化,并主导了MTL的训练过程。从图(b)、(e)、(h)中可以观察到类似的现象。

随着训练迭代次数的增加,辅助FER任务的损失显著降低。这意味着辅助FER任务的好处将相当有限。为了缓解这个问题,作者提出的MAL增加了FE样本的平均权重,MAL中的元网自动平衡两个任务的权重,并根据迭代权重曲线的潜力自适应地增加FE样本的平均权重。MAL学习增强FER的贡献以提取更多的语义信息来增强AU检测任务。

 

 

下图显示了一些代表性图像的权重和一致性值。对于图中的每个面部图像,左上角的两个值意味着权重和一致性值。从实验结果可以看出论文中提出的MAL方法抑制了具有较大不确定性的有限元样本,并防止网络过度拟合不确定的有限元图像。

 

转载请注明:《结合人脸识别元辅助学习的AU单元检测