AWR：用于3D手部姿态估计的自适应加权学习方法 | AAAI2020论文解读

本文设计实现了一个可导的自适应加权模块(Adaptive Weighting Regression, AWR)对网络预测的稠密特征进行信息聚合，是一个参数少、精确且低时延的手部姿态估计方案。论文验证了AWR对于多种稠密特征类型、不同输入空间的有效性，并在多个数据集上领先。

1. 背景和研究动机

随着深度学习的发展和人机交互方式变革，手部3D姿态估计已经逐渐成为虚拟现实、增强现实等领域的关键技术。自从商用深度摄像头投入市场后，姿态估计的精度和速度有了大幅度提升，但是要想达到准确且鲁棒的估计效果，还需要解决深度图的深度缺失、手的自遮挡和指间的自相似性等问题。

手部3D姿态估计问题可以归类于关键点回归任务，目前主流的关键点回归方法可以分为两种：基于回归的方法和基于检测的方法。（1）基于回归的方法直接学习从深度图到输出关节点坐标的映射，可以端到端训练。这类方法通常在网络输出层用全连接层聚合特征图上每个像素点的信息，用于推导关节点坐标，这样可以捕捉全局信息，但是丢失了特征图上的空间信息；（2）基于检测的方法通常预测关节点的稠密特征，如高斯热图，其上每个像素点代表这个点是关节点的概率，然后用argmax找出峰值对应的索引即为关节点位置。这类方法一般采用全卷积的网络结构，能够保持手的空间结构，但是从高斯热图推导关节点坐标的argmax操作是不可导的，因此不能端到端训练，并且当高斯热图的尺寸小于输入尺寸时，存在量化误差。

针对以上两种方法存在的优缺点，我们设计了一个自适应加权模块（Adaptive Weighting Regression，简称AWR），通过一种可导的信息聚合方式，在权重图的指导下，自适应地选择聚合信息的范围，从稠密特征中恢复关节点位置。AWR模块将稠密特征和关节点位置结合在一起，在不增加额外参数和计算量的前提下，使网络可以端到端训练，同时具备高准确性和高鲁棒性。

2. AWR 自适应加权回归模块

常用的稠密特征有高斯热图（Heatmap）和偏置向量场（Offset field）两种，如下图所示。

AWR利用权重图对稠密特征的信息进行聚合，这个权重图可以是稠密特征里自带的，例如高斯热图本身和偏置向量场中的closeness热图。如下式，AWR首先对权重图进行归一化，再利用归一化后的权重图对稠密特征图上每个像素点恢复出的关节点坐标进行加权。对于高斯热图来说，每个像素值表示其为关节点的概率，这个概率描述了这个像素值对最终关节点位置推导的贡献，将高斯热图上每个像素点的贡献加权得到的即为关节点坐标；对于偏置向量场来说，每个像素值的坐标加其相对关节点的偏移向量就是关节点坐标，利用归一化后的权重图加权亦可得到关节点坐标。

网络训练时先用dense loss训练，使权重图收敛到对应的关节点附近，再用关节点joint loss进行finetune，使权重图在遇到关节点遮挡、关节点间存在自相似性等复杂情况时，权重可以发散到相邻的关节点，利用全局信息推导关节点坐标。这样使得网络对各类情况都具备鲁棒性。如下图所示食指指尖的权重图，当关节点正常可见时（第一行），AWR方法得到的权重图和传统基于检测的方法一致，但当关节点被遮挡（第二行）或附近有相似的关节点（第三行）时，权重能发散到相邻的关节点，预测的结果也更为准确。

3. 实验结果

1. AWR作用于不同稠密特征类型的效果

如下面的表格所示，Regress表示直接用Resnet回归关节点坐标，Pose是三通道的特征，每个通道重复关节点的x，y，z坐标，其监督实质上是关节点坐标，与Regress一致。Dense、Joint分别表示在网络训练过程中分别只使用dense loss或只使用joint loss。

从这个表格中我们可以归纳出以下几点结论：AWR方法能够提高网络的准确性和鲁棒性；由Joint一列可看出，加入中间层稠密特征和信息聚合步骤后，即便没有赋予稠密特征以实际意义（没有监督），其效果仍比直接回归关节点坐标（Regress）好；预测pixel-wise关节点坐标比直接回归关节点坐标效果差（Pose_Dense < Regress），但使用权重图进行信息聚合后，效果大幅度提升（Pose_Joint > Regress, Pose_Ours > Regress）；由于偏置向量场能充分利用深度图中的空间位置信息，编码手的几何结构，所以带offset的表征优于高斯热图表征。

2. AWR作用于不同输入模态的效果

将深度图分别转换成体元素（Voxels）和点云（Point clouds），可以看出AWR对于不同的输入空间均有效。

3. 其他实验设置

下面表格所示是AWR在不同网络深度（Resnet18、Resnet50、Resnet101）、不同网络结构（Resnet、Hourglass）以及输入、特征尺寸等实验设置下的效果，可以看出AWR能在不增加网络参数量的前提下提高估计结果的准确率。

4. 对比实验

我们在四个公开手部数据集（HANDS 2017、NYU、ICVL和MSRA）上与其他前沿方法做了对比，可以看出AWR无论在准确率（平均关节点误差）还是鲁棒性（最差关节点帧通过率）能达到state-of-the-art的效果。

4. 总结

我们提出了用于3D手部姿态估计的自适应加权回归方法（AWR），它兼具了基于回归和基于检测方法的优点，利用可导的信息聚合的方法统一了关节点的稠密特征和关节点坐标回归，梯度能从关节点坐标回传到稠密特征，使网络能够端到端训练。另外，自适应的权重图使得网络能应对关节点附近深度值缺失、关节点被遮挡或者指间自相似性等复杂问题，增强网络的鲁棒性。大量实验证明了AWR在不同表征形式、输入模态、网络结构等实验设置下的有效性与泛化性，并且在四个公开手部数据集上都达到了state-of-the-art的效果。

[Paper]
[Code]