自动摘要: 摘要本文主要研究人体姿态估计问题，重点是学习可靠的高分辨率表征方法。大多数现有的方法从由高到低分辨率网络产生的低分辨率表征中恢复高分辨率表征。相反，我们提议的网络在整个过程中保持高分辨率的表征 ……..

摘要

本文主要研究人体姿态估计问题，重点是学习可靠的高分辨率表征方法。大多数现有的方法从由高到低分辨率网络产生的低分辨率表征中恢复高分辨率表征。相反，我们提议的网络在整个过程中保持高分辨率的表征。

第一阶段从高分辨率子网开始，逐步增加高到低分辨率子网，形成多个阶段，并联多分辨率子网。我们进行重复的多尺度融合，使得每个高分辨率到低分辨率的表征一遍又一遍地接收来自其他并行表征的信息，从而产生丰富的高分辨率表征。因此，预测的关键点热图可能更准确，空间更精确。通过对 COCO 关键点检测数据集和 MPII 人体姿态数据集的优越姿态估计结果，验证了该网络的有效性。此外，我们还在 PoseTrack 数据集上展示了我们的网络在姿态跟踪方面的优越性。代码和模型已经在https://github.com/leoxiaobin/deep-high-resolution-net.pytorch。

HRNet网络流程图

1. 简介

在计算机视觉中，二维人体姿态估计一直是一个基本而又具有挑战性的问题。目标是定位人体解剖关键点(如肘部、手腕等)或部位。它有很多应用，包括人体动作识别、人机交互、动画等。本文主要研究单人姿态估计，这是多人姿态估计[6, 27, 33, 39, 47, 57, 41, 46, 17, 71] ，视频姿态估计和跟踪[49, 72]等相关问题的基础。

最近的发展表明，深卷积神经网络已经实现了最先进的性能。大多数现有的方法通过网络传递输入，通常由高分辨率到低分辨率的子网络串联组成，然后提高分辨率。例如，沙漏[40]通过一个对称的从低到高的过程来恢复高分辨率。SimpleBaseline [72]采用了几个转置的卷积层来生成高分辨率的表征。此外，扩张卷积还用于炸毁高到低分辨率网络(例如 VGGNet 或 ResNet)的后面几层[27, 77]。

我们提出了一种新的体系结构，即高分辨率网络(HRNet) ，它能够在整个过程中保持高分辨率的表征。首先从高分辨率子网开始，逐步增加高分辨率子网到低分辨率子网，形成多个阶段，并行连接多分辨率子网。通过在并行多分辨率子网上反复交换信息，实现多尺度融合。我们通过网络输出的高分辨率表征来估计关键点。得到的网络如图1所示。

图1. 说明拟议的人力资源网的结构。它由并行的高分辨率到低分辨率子网组成，在多分辨率子网之间进行重复的信息交换(多尺度融合)。水平方向和垂直方向分别对应于网络的深度和特征映射的比例尺。

我们的网络有两个好处相比现有的广泛使用的网络[40, 27, 77, 72]的姿态估计。(i)我们的方法并行连接高分辨率到低分辨率的子网络，而不是像大多数现有解决方案那样串联。因此，我们的方法能够保持高分辨率，而不是通过从低到高的过程恢复分辨率，因此预测的热图可能在空间上更精确。(ii)大多数现有的融合方案集合了低级别和高级别的表征。相反，我们执行重复的多尺度融合，以提高高分辨率表征的帮助下，相同深度和相似水平的低分辨率表征，反之亦然，导致高分辨率表征也为姿态估计丰富。因此，我们的预测热图可能更准确。

我们经验证明了优于两个基准数据集的关键点检测性能: COCO 关键点检测数据集[36]和 MPII Human Pose 数据集[2]。此外，我们在 PoseTrack 数据集上展示了我们的网络在视频姿态跟踪方面的优势[1]。

2. 相关工作

大多数传统的单人姿态估计解决方案采用概率图形模型或图形结构模型[79, 50] ，最近通过利用深度学习来更好地建模一元和成对能量[9, 65, 45]或模仿迭代推理过程[13]。如今，深卷积神经网络提供了主要的解决方案[20, 35, 62, 42, 43, 48, 58, 16]。有两种主流方法: 回归关键点的位置[66, 7] ，估计关键点热图[13, 14, 78] ，然后选择热值最高的位置作为关键点。

大多数用于关键点热图估计的卷积神经网络由一个类似于分类网络的干子网络组成，该子网络降低了分辨率，主体产生与其输入相同分辨率的表征，然后回归估计热图，估计关键点位置，然后转换为完全分辨率。主体部分主要采用从高到低和从低到高的框架结构，可能增加多尺度融合和中(深)监控。

从高到低，从低到高。高到低的过程旨在产生低分辨率和高级别的表征，而低到高的过程旨在产生高分辨率的表征[4, 11, 23, 72, 40, 62]。为了提高性能，这两个过程都可能重复几次[77, 40, 14]。

具有代表性的网络设计模式包括: (i)对称的从高到低和从低到高的过程。Hourglass及其后续[40, 14, 77, 31]设计了从低到高的过程，作为从高到低过程的一面镜子。(ii)由大至小及由小至大。高到低的过程是基于 ImageNet 分类网络的，例如[11, 72]中采用的 ResNet，而低到高的过程仅仅是几个双线性上采样[11]或转位卷积[72]层。(iii)与扩张卷积相结合。在[27, 51, 35]中，在 ResNet 或 VGGNet 的最后两个阶段采用扩张卷积来消除空间分辨率损失，然后进行轻微的低-高过程以进一步提高分辨率，避免仅使用扩张卷积的昂贵计算成本[11, 27, 51]。图2描述了四个代表性的姿态估计网络。

图2. 依赖于高到低和低到高框架的代表性姿态估计网络的说明。(a)Hourglass[40]；(b)层叠式金字塔网络[11]；(c) 简单基线 [72] : 用于低到高处理的转置卷积；(d)与扩张卷积相结合[27]。右下角的图例: reg. = 规则卷积， dilated = 扩张卷积， trans. = 移位卷积，strided = 跨步卷积，concat. = 连接。在(a)中，从高到低和从低到高的过程是对称的。在(b)、(c)和(d)中，从高到低的过程(分类网络(ResNet 或 VGGNet)的一部分)很重，从低到高的过程很轻。在(a)和(b)中，高到低和低到高过程的相同分辨率层之间的跳跃连接(虚线)主要旨在融合低级和高级特征。在(b)中，正确的部分，细分网络，结合了通过卷积处理的低级和高级特征。

多尺度融合。直接的方法是将多分辨率图像分别输入多个网络并聚合输出响应图[64]。Hourglass[40]及其扩展[77, 31]通过跳跃连接逐步将高到低过程中的低级特性结合到低到高过程中的相同分辨率的高级特性中。在级联金字塔网络[11]中，全球网络逐步将高到低过程中的低到高级特征结合到低到高过程中，然后精炼网络结合通过卷积处理的低到高级特征。我们的方法重复多尺度融合，其部分灵感来自深度融合及其扩展[67, 73, 59, 80, 82]。

中级监督。早期用于图像分类的中级监督或深度监督[34, 61]也被用于帮助深度网络培训和提高热图估计质量，例如[69, 40, 64, 3, 11]。沙漏方法[40]和卷积姿态机方法[69]处理中间热图作为剩余子网络的输入或输入的一部分。

我们的方法。我们的网络并行地连接高到低的子网络。它在整个过程中保持高分辨率的表征，以便进行空间精确的热图估计。它通过反复融合由高到低子网产生的表征，生成可靠的高分辨率表征。我们的方法不同于大多数现有的工作，它们需要一个单独的低到高的上抽样过程，并聚合低层和高层的表征。该方法不需要中间热图监控，在关键点检测精度和计算复杂度和参数方面具有优势。

有相关的多尺度网络用于分类和分割[5, 8, 74, 81, 30, 76, 55, 56, 24, 83, 55, 52, 18]。我们的工作部分地受到其中一些[56, 24, 83, 55]的启发，它们之间存在明显的差异，使它们不适用于我们的问题。由于每个子网络(深度，批量归一化)和多尺度融合缺乏适当的设计，卷积神经网络结构[56]和相互连接的 CNN [83]无法产生高质量的分割结果。网格网络[18]是许多权重共享的 U-Net 的组合，由跨多分辨率表征的两个独立的融合过程组成: 在第一阶段，信息只从高分辨率发送到低分辨率; 在第二阶段，信息只从低分辨率发送到高分辨率，因此竞争较小。多尺度密集集[24]不是目标，也不能产生可靠的高分辨率表征。

3. 方法

人体姿态估计，又称关键点检测，目的是从图像 I 的大小 W × H × 3中检测 K 关键点或部位(如肘部、手腕等)的位置。最先进的方法将这个问题转化为估计 W’ × H’，{
}的 K 热图，其中每个热图 HK 表征 kth 关键点的位置置信度。

我们遵循广泛采用的流水线[40, 72, 11] ，使用卷积网络来预测人类关键点，卷积网络由两个步进卷积组成，降低分辨率，主体输出与其输入特征映射相同分辨率的特征映射，回归估计热图关键点位置被选择并转换为完全分辨率。我们将重点放在主体的设计上，并介绍我们的高分辨率网络(HRNet) ，如图1所示。

有序多分辨率子网络。现有的姿态估计网络是通过串联高分辨率到低分辨率的子网建立起来的，其中每个子网构成一个阶段，由一系列卷积组成，相邻子网之间有一个下采样层，使分辨率降低一半。

设
为某阶段的子网，r 为分辨率指标(其分辨率为第一子网分辨率的
。具有 S (例如，4)阶段的从高到低的网络可以表示为:
(1)

并行多分辨率子网。第一阶段从高分辨率子网开始，逐步增加高到低分辨率子网，形成新的阶段，并行连接多分辨率子网。因此，后一阶段的并行子网的分辨率包括前一阶段的分辨率和后一阶段的分辨率。

给出了一个包含4个并行子网络的网络结构实例，
（2）

重复多尺度融合。我们在并行子网络之间引入交换单元，使每个子网络重复接收来自其他并行子网络的信息。下面是一个显示信息交换方案的示例。我们将第三阶段划分为几个交换块(例如，3)，每个块由3个平行卷积单元组成，每个平行卷积单元之间有一个交换单元，具体如下：
（3）其中
表示某阶段中第二个块的第 r 个分辨率的卷积单位，
表示相应的交换单位。

图3. 说明交换单元如何分别从左到右聚合高、中和低分辨率的信息。右图例: 跨步3 × 3 = 跨步3 × 3卷积，上采样。1 × 1 = 1 × 1卷积后的最近邻上采样。

我们在图3中说明了交换单元，并在下面给出了公式。为了方便讨论，我们删除了下标 s 和上标 b。输入是 s 响应映射: {
}。输出是 s 响应映射: {
} ，其分辨率和宽度与输入相同。每个输出是输入映射的一个聚合，
。跨阶段的交换单元有一个额外的输出映射
。

函数 a (
)由从分辨率 i 到分辨率 k 的上采样或下采样
组成。采用跨距3 × 3卷积进行下采样。例如，一个步长3 × 3卷积，步长2为 2 × 下采样，两个连续的步长3 × 3卷积，步长2为 4 × 下采样。对于上采样，我们采用1 × 1卷积后的简单最近邻采样来校准通道数。如果 i = k，则 a (· ，·)只是一个标识连接: a (
。

热图估计。我们简单地从最后一个交换单元的高分辨率表征输出回归热图，这在经验上是有效的。损失函数被定义为均方差，用于比较预测的热图和地面事实热图。地面真相热标准差是通过应用以每个关键点坐标为中心的1个像素的二维高斯分布生成的。 网络实例化。通过遵循 ResNet 的设计原则，实例化了关键点热图估计网络，将深度分布到每个阶段，通道数分布到每个分辨率。

主体，即我们的HRNet，包含四个阶段和四个并行的子网，其分辨率逐渐减少到一半，因此宽度(通道数目)增加到两倍。第一阶段包含4个剩余单元，其中每个单元与 ResNet-50相同，由宽度为64的bottleneck形成，然后是一个3 × 3卷积，将特征映射的宽度减少到 C。第2、第3、第4阶段分别包含1、4、3个交换块。一个交换块包含4个剩余单元，其中每个单元包含每个分辨率的两个3 × 3卷积和一个跨分辨率的交换单元。总共有8个交换单元，即进行了8次多尺度融合。

在我们的实验中，我们研究了一个小网络和一个大网络: HRNet-W32和 HRNet-W48，其中32和48分别代表最后三个阶段的高分辨率子网的宽度(C)。其他三个并行子网的宽度分别为 HRNet-W32的64, 128, 256和 HRNet-W48的96, 192, 384。

4. 实验

4.1 COCO关键点检测

数据集. COCO 数据集[36]包含超过200,000张图像和250,000个人实例，标有17个关键点。我们在 COCO train 2017数据集上训练我们的模型，包括57K 图像和150K 人实例。我们在 val2017集和 test-dev2017集上评估我们的方法，它们分别包含5000个图像和20K 个图像。

评估指标. 标准的评估度量基于对象关键点相似度(OKS) :
。这里的
是检测到的关键点和对应的地面真值之间的欧几里得度量，
是地面真值的可见性标志，s 是对象刻度，而
是控制衰减的每个关键点常数。我们报告了标准平均准确率召回率得分1: AP50(在 OKS = 0.50的 AP) AP75，AP (在10个位置的 AP 得分平均值，OKS = 0.50, 0.55，… ，0.90, 0.95) ; 中等物体APM，大物体APL，以及在 OKS = 0.50, 0.55，… ，0.90, 0.955的 AR。

训练. 我们将人类检测框的高度或宽度扩展到固定的长宽比: 高度: 宽度 = 4:3，然后从图像中裁剪盒子，将其调整为固定大小，256 × 192或384 × 288。数据增强包括随机旋转([ -45。，45。]) ，随机刻度([0.65，1.35])和翻转。在[68]之后，半身数据增加也包括在内。我们使用 Adam 优化器[32]。学习时间表遵循设置[72]。基础学习率设置为1e-3，在第170和200 epochs 分别下降到1e-4和1e-5。训练过程在210 epochs 内结束。

测试. 使用类似于[47,11,72]的两阶段自顶向下范例: 使用人检测器检测人实例，然后预测检测关键点。我们对验证集和 test-dev 集使用 SimpleBaseline2[72]提供的相同的人员检测器。按照通常的做法[72, 40, 11] ，我们通过平均原始图像和翻转图像的头图来计算热图。每个关键点位置通过调整最高热值位置来预测，从最高响应到第二高响应的方向有四分之一的偏移。

表1. COCO 验证集的比较。Pretrain = 对 ImageNet 分类任务的主干进行预训练。OHKM = 在线硬关键点挖掘[11]

验证集上的结果. 我们在表1中报告了我们的方法和其他最先进的方法的结果。我们的小型网络-HRNet-W32，从头开始训练，输入大小为256 × 192，获得73.4 AP 分数，优于其他同样输入大小的方法。(i)与Hourglass[40]相比，我们的小网络提高了6.5点 AP，我们网络的 GFLOP 低得多，不到一半，而参数数量相似，我们的略大。(ii)与 CPN [11] w/o 和 w/OHKM 相比，我们的网络模型规模稍大，复杂度稍高，分别获得了4.8和4.0点的增益。(iii)与之前表现最好的 SimpleBaseline [72]相比，我们的小网 HRNet-W32获得了显着的改善: 模型大小和 GFLOPs 相似的主干 ResNet-50增加了3.0分，模型大小(# Params)和 GLOP 是我们的两倍的主干 ResNet-152增加了1.4分。

我们的网络可以受益于(i)从为 ImageNet 分类问题预先训练的模型的训练：HRNet-W32的增益为1.0点；(ii)通过增加宽度来增加容量：我们的大网 HRNet-W48分别在输入大小256 × 192和384 × 288方面得到0.7和0.5的改进。

考虑到输入大小为384 × 288，我们的 HRNet-W32和 HRNet-W48分别得到了75.8和76.3 AP，比输入大小256 × 192分别提高了1.4和1.2个级别。与使用 ResNet-152作为骨干的 SimpleBaseline [72]相比，我们的 HRNet-W32和 HRNet-W48在 AP 方面分别以45% 和92.4% 的计算成本获得1.5和2.0分。

表2. COCO 测试开发集的比较。为姿态估计网络计算 #Params 和 FLOP，不包括用于人类检测和关键点分组的参数和 FLOP。

Test-dev 集上的结果. 表2报告了我们的方法和现有的最先进的方法的姿态估计性能。我们的方法明显优于自底向上的方法。另一方面，我们的小型网络 HRNet-W32实现了74.9的 AP。它优于所有其他自顶向下的方法，并且在模型大小(# Params)和计算复杂度(GFLOPs)方面更有效率。我们的大型模型，HRNet-W48，达到了最高的75.5 AP。与具有相同输入大小的 SimpleBaseline [72]相比，我们的小型和大型网络分别得到了1.2和1.8的改进。通过 AI 挑战赛[70]提供的额外训练数据，我们的单个大型网络可以获得77.0的 AP。

4.2 MPII 人体姿态估计

数据集. MPII 人体姿势数据集[2]包括从现实世界活动与全身姿势注释的广泛范围采取的图像。有大约25K 的图像与40K 的主题，其中有12K 的主题测试和其余的主题训练集。数据增强和训练策略与 MS COCO 相同，只是输入量被裁剪为256 × 256，以便与其他方法进行公平比较。

测试. 测试程序与 COCO 的测试程序基本相同，只是我们采用了标准的测试策略，使用提供的人员箱代替检测到的人员箱。在[14, 77, 62]之后，执行一个六级金字塔测试程序。

评估指标. 使用标准度量[2] ，即 PCKh (正确关键点的头部归一化概率)得分。联合是正确的，如果它落在地面真理位置的 αl 像素，其中 α 是一个常数，l 是头大小，相当于地面真理头边界盒对角线长度的60% 。报告 PCKh@0.5(α = 0.5)分数。

表3. MPII 测试集的性能比较(PCKh@0.5)。

表4. 表3中报告的一些顶级方法的#Params 和 GFLOP。该 GFLOP 计算的输入大小为256 × 256。

测试集的结果. 表3和表4显示了 PCKh@0.5的结果，模型大小和最高性能方法的 GFLOP。我们通过使用 ResNet-152作为输入大小为256 × 256的主干来重新实现 SimpleBaseline [72]。我们的 HRNet-W32达到92.3 PKCh@0.5分，并优于叠加沙漏方法[40]及其扩展[58,14,77,31,62]。我们的结果与20183年11月16日之前公布的排行榜上最好的结果相同[62]。

我们想指出的是，该方法[62] ，补充我们的方法，利用组合模型来学习人体的配置，并采用多层次的中间监督，我们的方法也可以从中受益。我们还测试了我们的大型网络 HRNetW48，得到了相同的结果92.3。原因可能是这个数据集中的性能趋于饱和。

4.3 姿势跟踪应用

数据集. PoseTrack[28]是一个用于人体姿态估计和视频关节跟踪的大规模基准。该数据集基于流行的 MPII Human Pose 数据集提供的原始视频，包含550个视频序列和66,374帧。视频序列分为292,50,208个视频，分别用于培训，验证和测试。训练视频的长度在41-151帧之间，视频中心的30帧被密集地注释。验证/测试视频中的帧数介于65 - 298帧之间。来自 MPII Pose 数据集的关键帧周围的30帧被密集注释，之后每四帧都被注释。总共有大约23,000个标签框架和153,615个姿势注释。

评估指标. 我们从两个方面评估结果: 帧式多人姿态估计和多人姿态跟踪。姿态估计是通过平均精度(mAP)来评估的，如[51, 28]中所做的。多人姿态跟踪是通过多目标跟踪精度(MOTA)来评估的[38, 28]。详情见[28]。

训练. 我们训练我们的 HRNet-W48在 PoseTrack2017训练集上进行单人姿态估计，其中网络是由在 COCO 数据集上预先训练的模型初始化的。我们从训练框架中的注释关键点中提取人盒作为网络的输入，方法是将所有关键点(对于一个人)的边界盒扩展15% 的长度。包括数据增强在内的训练设置几乎与 COCO 相同，只是学习时间表不同(就像现在的微调一样) : 学习率从1e-4开始，在第10 epochs 下降到1e-5，在第15 epochs 下降到1e-6; 迭代在20 epochs 内结束。

图4. MPII (顶部)和 COCO (底部)数据集中一些示例图像的定性结果：包含视点和外观变化，遮挡，多人和常见的成像伪影。

测试. 我们跟踪[72]，跟踪跨帧的姿势。它包括三个步骤: 人体盒检测和传播、人体姿态估计和交叉相邻帧的姿态关联。我们使用与 SimpleBaseline [72]中使用的相同的人盒检测器，并通过根据 FlowNet 2.0[26]4计算的光流传播预测的关键点将检测到的盒子传播到附近的帧中，然后对盒子移除进行非最大抑制。姿态关联方案是基于一帧中的关键点与相邻帧中根据光流传播的关键点之间的目标关键点相似性。然后利用贪婪匹配算法计算邻近帧中关键点之间的对应关系。更多的细节在[72]中给出。

表5. PoseTrack2017测试集的姿态跟踪结果。

PoseTrack 2017 测试集的结果. 表5报告了结果。我们的大型网络 -HRNet-W48取得了优异的成绩，74.9 mAP 得分和57.9 MOTA 得分。

与使用 ResNet-152作为骨干的第二个最佳方法 SimpleBaseline [72]中的 FlowTrack 相比，我们的方法在 mAP 和 MOTA 方面分别获得0.3和0.1点增益。相对于 FlowTrack [72]的优势与 COCO 关键点检测和 MPII 人体姿态估计数据集的优势一致。这进一步说明了我们的姿态估计网络的有效性。

4.4 消融实验

我们研究了该方法中每个组件对 COCO 关键点检测数据集的影响。除了对输入量影响的研究外，所有结果均在256 × 192的输入量范围内得到。

表6. 重复多尺度融合中交换单元的消融研究。 Int. exchange across = 跨阶段的中间交换，Int. exchange within = 阶段内中间交换。

重复多尺度融合. 我们对多尺度重复融合的效果进行了实证分析。我们研究我们网络的三种变体。(a) W/O 中间交换单元(1个融合) : 除最后一个交换单元外，多分辨率子网之间不存在交换。(b) 仅 W/跨级交换单元(3个融合) : 每个阶段内并行子网之间没有交换。(c) W/跨阶段和阶段内交换单元(共8个融合) : 这是我们提出的方法。所有的网络都是从头开始训练的。表6 中给出的 COCO 验证集的结果表明，多尺度融合是有益的，更多的融合导致更好的性能。

分辨率维护. 我们研究了人力资源网的一个变种的性能: 所有的四个高分辨率到低分辨率的子网都是在开始时加入的，而且深度是相同的，融合方案与我们的相同。我们的 HRNet-W32和变体(具有类似的 #Params 和 GFLOPs)都是从头开始训练的，并在 COCO 验证集上进行测试。该变体获得的 AP 为72.5，低于我们的小型网络 HRNet-W32的73.4 AP。我们认为这是因为从低分辨率子网的早期阶段提取的低层特征没有多大帮助。此外，参数相似、计算复杂度相似的简单高分辨率网络，如果没有低分辨率并行子网络，其性能会大大降低。

代表解决方案. 本文从两个方面研究了表征分辨率对姿态估计性能的影响: 从高到低检查每个分辨率的特征映射估计的热图的质量，以及输入大小对热图质量的影响。

图5. 高低表征的消融研究。1 × ，2 × ，4 × 分别对应于高、中、低分辨率的表征。

图6. 说明了 HRNet 和 SimpleBaseline [72]的性能如何受到输入大小的影响。

我们通过为 ImageNet 分类预先训练的模型来初始化我们的小型和大型网络。我们的网络从高到低的解决方案输出四个响应图。在最低分辨率响应图上的热图预测质量太低，AP 得分低于10分。图5中报告了其他三张地图上的 AP 得分。比较结果表明，分辨率对关键点预测质量有一定的影响。

图6显示了与 SimpleBaseline (ResNet-50)[72]相比，输入图像大小如何影响性能。我们可以发现，对于较小的输入规模的改善比较大的输入规模更显著，例如，改善是4.0分为256 × 192和6.3分为128 × 96。原因是我们在整个过程中保持了高分辨率。这意味着我们的方法更有利于实际应用中的计算成本也是一个重要因素。另一方面，我们的输入大小为256 × 192的方法优于 SimpleBaseline [72] ，输入大小为384 × 288。

5. 结论和未来工作

在本文中，我们提出了一个高分辨率的人类姿态估计网络，产生准确和空间精确的关键点热图。其成功有两个方面: (1)在整个过程中保持高分辨率而不需要恢复高分辨率; (2)反复融合多分辨率表征，提供可靠的高分辨率表征。

未来的工作包括应用于其他密集的预测任务，例如，语义分割，目标检测，人脸对齐，图像翻译，以及研究聚合多分辨率表征在一个不那么轻松的方式。所有这些都在 https://jingdongwang2017. github.io/Projects/HRNet/index.html.

MPII 验证集的附录结果

我们在 MPII 验证集[2]上提供结果。我们的模型在 MPII 训练集的子集上进行训练，并在2975幅图像的拒绝验证集上进行评估。训练过程与整个 MPII 训练集的训练过程相同。热图被计算为用于测试的原始图像和翻转图像的热图的平均值。在[77,62]之后，我们还执行了六尺度金字塔测试程序(多尺度测试)。结果如表7所示。

表7. MPII 验证集的性能比较(PCKh@0.5)。

关于 PoseTrack 数据集的更多结果

我们提供的结果，所有的关键点上的姿势跟踪数据集[1]。表8显示了 PoseTrack2017数据集上的多人姿态估计性能。我们的 HRNet-W48在验证和测试集上达到77.3和74.9分 mAP，并且比以前的最先进的方法[72]分别高出0.6分和0.3分。我们在 PoseTrack2017测试集中提供了更详细的多人姿态跟踪性能结果，作为本文报告结果的补充，如表9所示。

表8. PoseTrack2017数据集上的多人姿态估计性能(MAP)。“ *”指在训练 + 验证集上训练的模型。

表9. PoseTrack2017测试集上的多人姿态跟踪性能(MOTA)。“ *”指在训练 + 验证集上训练的模型。

ImageNet 验证集的结果

我们将网络应用于图像分类任务。这些模型是在 ImageNet 2013分类数据集上进行训练和评估的[54]。我们训练我们的模型为100个 epochs ，批量大小为256。初始学习率设置为0.1，并在第30、60和90 epochs 减少10倍。我们的模型可以达到与那些专门为图像分类而设计的网络相当的性能，例如 ResNet [22]。我们的 HRNet-W32单模型的前5位验证误差为6.5% ，单模型的前1位验证误差为22.7% 。我们的 HRNet-W48 性能更好: 前5位错误占6.1% ，前1位错误占22.1% 。我们使用在 ImageNet 数据集上训练的模型来初始化我们的姿态估计网络的参数。

参考文献：

[1] M. Andriluka, U. Iqbal, A. Milan, E. Insafutdinov, L. Pishchulin, J. Gall, and B. Schiele. Posetrack: A bench-mark for human pose estimation and tracking. In CVPR, pages 5167–5176, 2018. 2, 9[2] M. Andriluka, L. Pishchulin, P. V. Gehler, and B. Schiele. 2d human pose estimation: New benchmark and state of the art analysis. In CVPR, pages 3686–3693, 2014. 2, 6, 9[3] V. Belagiannis and A. Zisserman. Recurrent human pose estimgation. In FG, pages 468–475, 2017. 3[4] A. Bulat and G. Tzimiropoulos. Human pose estimation via convolutional part heatmap regression. In ECCV, volume 9911 of Lecture Notes in Computer Science, pages 717–732. Springer, 2016. 2, 6[5] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, pages 354–370, 2016. 3[6] Z. Cao, T. Simon, S. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR, pages 1302–1310, 2017. 1, 5[7] J. Carreira, P. Agrawal, K. Fragkiadaki, and J. Malik. Human pose estimation with iterative error feedback. In CVPR, pages 4733–4742, 2016. 2[8] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Trans. Pattern Anal. Mach. Intell., 40(4):834–848, 2018. 3[9] X. Chen and A. L. Yuille. Articulated pose estimation by a graphical model with image dependent pairwise relations. In NIPS, pages 1736–1744, 2014. 2[10] Y. Chen, C. Shen, X. Wei, L. Liu, and J. Yang. Adversarial posenet: A structure-aware convolutional network for human pose estimation. In ICCV, pages 1221–1230, 2017. 6[11] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun. Cascaded pyramid network for multi-person pose estimation. CoRR, abs/1711.07319, 2017. 2, 3, 5, 6[12] C. Chou, J. Chien, and H. Chen. Self adversarial training for human pose estimation. CoRR, abs/1707.02439, 2017. 6[13] X. Chu, W. Ouyang, H. Li, and X. Wang. Structured feature learning for pose estimation. In CVPR, pages 4715–4723,2016. 2[14] X. Chu, W. Yang, W. Ouyang, C. Ma, A. L. Yuille, and X. Wang. Multi-context attention for human pose estimation. In CVPR, pages 5669–5678, 2017. 2, 6[15] A. Doering, U. Iqbal, and J. Gall. Joint flow: Temporal flow fields for multi person tracking, 2018. 7[16] X. Fan, K. Zheng, Y. Lin, and S. Wang. Combining local appearance and holistic view: Dual-source deep neural networks for human pose estimation. In CVPR, pages 1347–1355, 2015. 2[17] H. Fang, S. Xie, Y. Tai, and C. Lu. RMPE: regional multiperson pose estimation. In ICCV, pages 2353–2362, 2017.1, 5[18] D. Fourure, R. Emonet, E. Fromont, D. Muselet, ´A. Tremeau, and C. Wolf. Residual conv-deconv grid net- ´work for semantic segmentation. In British Machine Vision Conference 2017, BMVC 2017, London, UK, September 4-7, 2017, 2017. 3[19] R. Girdhar, G. Gkioxari, L. Torresani, M. Paluri, and D. Tran. Detect-and-track: Efficient pose estimation in videos. In CVPR, pages 350–359, 2018. 7, 9[20] G. Gkioxari, A. Toshev, and N. Jaitly. Chained predictions using convolutional neural networks. In ECCV, pages 728–743, 2016. 2[21] K. He, G. Gkioxari, P. Dollar, and R. B. Girshick. Mask ´R-CNN. In ICCV, pages 2980–2988, 2017. 5[22] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016. 9[23] P. Hu and D. Ramanan. Bottom-up and top-down reasoning with hierarchical rectified gaussians. In CVPR, pages 5600–5609, 2016. 2[24] G. Huang, D. Chen, T. Li, F. Wu, L. van der Maaten, and K. Q. Weinberger. Multi-scale dense convolutional networks for efficient prediction. CoRR, abs/1703.09844, 2017. 3[25] S. Huang, M. Gong, and D. Tao. A coarse-fine network for keypoint localization. In ICCV, pages 3047–3056. IEEE Computer Society, 2017. 5[26] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, and T. Brox. Flownet 2.0: Evolution of optical flow estimation with deep networks. In CVPR, pages 1647–1655, 2017. 7[27] E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka, and B. Schiele. Deepercut: A deeper, stronger, and faster multi-person pose estimation model. In ECCV, pages 34–50, 2016.1, 2, 3, 6, 7[28] U. Iqbal, A. Milan, and J. Gall. Posetrack: Joint multi-person pose estimation and tracking. In CVPR, pages 4654–4663,2017. 6, 7[29] S. Jin, X. Ma, Z. Han, Y. Wu, W. Yang, W. Liu, C. Qian, and W. Ouyang. Towards multi-person pose tracking: Bottom-up and top-down methods. In ICCV PoseTrack Workshop, 2017.7[30] A. Kanazawa, A. Sharma, and D. W. Jacobs. Locally scale-invariant convolutional neural networks. CoRR, abs/1412.5104, 2014. 3[31] L. Ke, M. Chang, H. Qi, and S. Lyu. Multi-scale structure-aware network for human pose estimation. CoRR, abs/1803.09894, 2018. 2, 3, 6[32] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. CoRR, abs/1412.6980, 2014. 5[33] M. Kocabas, S. Karagoz, and E. Akbas. Multiposenet: Fast multi-person pose estimation using pose residual network. In ECCV, volume 11215 of Lecture Notes in Computer Science, pages 437–453. Springer, 2018. 1, 5[34] C. Lee, S. Xie, P. W. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. In AISTATS, 2015. 3[35] I. Lifshitz, E. Fetaya, and S. Ullman. Human pose estimation using deep consensus voting. In ECCV, pages 246–260,2016. 2, 3[36] T. Lin, M. Maire, S. J. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft COCO: com- ´mon objects in context. In ECCV, pages 740–755, 2014. 2,4[37] D. C. Luvizon, H. Tabia, and D. Picard. Human pose regression by combining indirect part detection and contextual information. CoRR, abs/1710.02322, 2017. 6[38] A. Milan, L. Leal-Taixe, I. D. Reid, S. Roth, and ´K. Schindler. MOT16: A benchmark for multi-object tracking. CoRR, abs/1603.00831, 2016. 7[39] A. Newell, Z. Huang, and J. Deng. Associative embedding: End-to-end learning for joint detection and grouping. In NIPS, pages 2274–2284, 2017. 1, 5[40] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, pages 483–499,2016. 1, 2, 3, 5, 6, 7, 9[41] X. Nie, J. Feng, J. Xing, and S. Yan. Pose partition networks for multi-person pose estimation. In ECCV, September 2018.1[42] X. Nie, J. Feng, and S. Yan. Mutual learning to adapt for joint human parsing and pose estimation. In ECCV, September. 2[43] X. Nie, J. Feng, Y. Zuo, and S. Yan. Human pose estimation with parsing induced learner. In CVPR, June 2018. 2[44] G. Ning, Z. Zhang, and Z. He. Knowledge-guided deep fractal neural networks for human pose estimation. IEEE Trans. Multimedia, 20(5):1246–1259, 2018. 6[45] W. Ouyang, X. Chu, and X. Wang. Multi-source deep learning for human pose estimation. In CVPR, pages 2337–2344, 2014. 2[46] G. Papandreou, T. Zhu, L.-C. Chen, S. Gidaris, J. Tompson, and K. Murphy. Personlab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. In ECCV, September 2018. 1, 5[47] G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multiperson pose estimation in the wild. In CVPR, pages 3711– 3719, 2017. 1, 5[48] X. Peng, Z. Tang, F. Yang, R. S. Feris, and D. Metaxas. Jointly optimize data augmentation and network training: Adversarial data augmentation in human pose estimation. In CVPR, June 2018. 2[49] T. Pfister, J. Charles, and A. Zisserman. Flowing convnets for human pose estimation in videos. In ICCV, pages 1913– 1921, 2015. 1[50] L. Pishchulin, M. Andriluka, P. V. Gehler, and B. Schiele. Poselet conditioned pictorial structures. In CVPR, pages 588–595, 2013. 2[51] L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. V. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. In CVPR, pages 4929–4937, 2016. 3, 7[52] T. Pohlen, A. Hermans, M. Mathias, and B. Leibe. Fullresolution residual networks for semantic segmentation in street scenes. In CVPR, 2017. 3[53] PoseTrack. PoseTrack Leader Board. https://posetrack.net/leaderboard.php. 7[54] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. S. Bernstein, A. C. Berg, and F. Li. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015. 9[55] M. Samy, K. Amer, K. Eissa, M. Shaker, and M. ElHelw. Nunet: Deep residual wide field of view convolutional neural network for semantic segmentation. In CVPRW, June 2018.3[56] S. Saxena and J. Verbeek. Convolutional neural fabrics. In NIPS, pages 4053–4061, 2016. 3[57] T. Sekii. Pose proposal networks. In ECCV, September 2018. 1[58] K. Sun, C. Lan, J. Xing, W. Zeng, D. Liu, and J. Wang. Human pose estimation using global and local normalization. In ICCV, pages 5600–5608, 2017. 2, 6[59] K. Sun, M. Li, D. Liu, and J. Wang. IGCV3: interleaved lowrank group convolutions for efficient deep neural networks. In BMVC, page 101. BMVA Press, 2018. 3[60] X. Sun, B. Xiao, F. Wei, S. Liang, and Y. Wei. Integral human pose regression. In ECCV, pages 536–553, 2018. 5[61] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. E. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, pages 1–9, 2015. 3[62] W. Tang, P. Yu, and Y. Wu. Deeply learned compositional models for human pose estimation. In ECCV, September 2018. 2, 6, 7, 9[63] Z. Tang, X. Peng, S. Geng, L. Wu, S. Zhang, and D. N. Metaxas. Quantized densely connected u-nets for efficient landmark localization. In ECCV, pages 348–364, 2018. 6[64] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler. Efficient object localization using convolutional networks. In CVPR, pages 648–656, 2015. 3[65] J. J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, pages 1799–1807, 2014. 2[66] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In CVPR, pages 1653–1660, 2014. 2[67] J. Wang, Z. Wei, T. Zhang, and W. Zeng. Deeply-fused nets. CoRR, abs/1605.07716, 2016. 3[68] Z. Wang, W. Li, B. Yin, Q. Peng, T. Xiao, Y. Du, Z. Li, X. Zhang, G. Yu, and J. Sun. Mscoco keypoints challenge 2018. In Joint Recognition Challenge Workshop at ECCV 2018, 2018. 4[69] S. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, pages 4724–4732, 2016. 3, 6[70] J. Wu, H. Zheng, B. Zhao, Y. Li, B. Yan, R. Liang, W. Wang, S. Zhou, G. Lin, Y. Fu, et al. Ai challenger: A largescale dataset for going deeper in image understanding. arXiv preprint arXiv:1711.06475, 2017. 6[71] F. Xia, P. Wang, X. Chen, and A. L. Yuille. Joint multiperson pose estimation and semantic part segmentation. In CVPR, pages 6080–6089, 2017. 1[72] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In ECCV, pages 472–487, 2018. 1, 2, 3, 5, 6, 7, 8, 9[73] G. Xie, J. Wang, T. Zhang, J. Lai, R. Hong, and G. Qi. Interleaved structured sparse convolutional neural networks. In CVPR, pages 8847–8856. IEEE Computer Society, 2018. 3[74] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015. 3[75] Y. Xiu, J. Li, H. Wang, Y. Fang, and C. Lu. Pose flow: Efficient online pose tracking. In BMVC, page 53, 2018. 9[76] Y. Xu, T. Xiao, J. Zhang, K. Yang, and Z. Zhang. Scale-invariant convolutional neural networks. CoRR,abs/1411.6369, 2014. 3[77] W. Yang, S. Li, W. Ouyang, H. Li, and X. Wang. Learning feature pyramids for human pose estimation. In ICCV, pages 1290–1299, 2017. 1, 2, 3, 5, 6, 7, 9[78] W. Yang, W. Ouyang, H. Li, and X. Wang. End-to-end learning of deformable mixture of parts and deep convolutional neural networks for human pose estimation. In CVPR, pages3073–3082, 2016. 2[79] Y. Yang and D. Ramanan. Articulated pose estimation with flexible mixtures-of-parts. In CVPR, pages 1385–1392, 2011. 2[80] T. Zhang, G. Qi, B. Xiao, and J. Wang. Interleaved group convolutions. In ICCV, pages 4383–4392, 2017. 3[81] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, pages 6230–6239, 2017. 3[82] L. Zhao, M. Li, D. Meng, X. Li, Z. Zhang, Y. Zhuang, Z. Tu, and J. Wang. Deep convolutional neural networks with merge-and-run mappings. In IJCAI, pages 3170–3176, 2018. 3[83] Y. Zhou, X. Hu, and B. Zhang. Interlinked convolutional neural networks for face parsing. In ISNN, pages 222–231, 2015. 3[84] X. Zhu, Y. Jiang, and Z. Luo. Multi-person pose estimation for posetrack with enhanced part affinity fields. In ICCV PoseTrack Workshop, 2017.7

落叶无痕

用于人体姿态估计的深度高分辨率表征学习

摘要