提高长尾识别的概率校准：Improving Calibration for Long-Tailed Recognition--机器视觉网

背景介绍

通常来说，数据类别不均衡会严重影响机器学习常用模型的性能。而在现实生活中，我们所获得的数据往往也是不均匀的，或者是长尾（long-tailed）的。同时，很多应用中我们会关心稀有类别（tail class）的性能指标。因此，近几年来，基于长尾（long-tailed）分布数据的研究也迎来了热潮：在识别、检测和分割任务上都百花齐放。本文主要关注于长尾数据的识别任务。

在2019年，长尾识别模型由单阶段训练向双阶段训练发展: DRW/DRS-LDAM [1] 和Decoupling model [2] 取得了卓越的成绩。与单阶段模型相比，双阶段模型在识别准确率上有很大提升，同时训练并没有增加太多的计算量。在2020年，许多学者基于双阶段模型的成功，重新设计单阶段模型，BBN [3], Causal Norm [4] 还有Balanced Softmax [5] 达到了和双阶段模型差不多甚至更好的结果，简化了模型整体训练过程。

Confidence Calibration

概率校准(confidence calibration)是指机器学习模型的预测概率和真实的概率似然存在着偏差。在无人车、工业检测、医疗诊断等实际应用中，尽可能地减小偏差具有重要的意义。比较常用的概率校准偏差衡量指标有Expected Calibration Error（ECE）、Brier Score和Negative Log Likelihood。本文主要采用ECE指标来衡量概率校准的偏差，具体的计算公式如下：

在论文[6]中，作者提出近年来的深度网络，尽管识别的准确率很高，但是概率校准偏差会更大，往往呈现过度自信（over-confidence）的现象：平均的预测概率（Avg. confidence）落在了模型真实识别准确率（Accuracy）的右侧（越右侧偏差越大）。同时图1下方统计直方图表现为输出的预测概率（深蓝色块）普遍落在y=x直线的下方（红色块），ECE指标就是计算两个统计直方图的平均偏差。同样地，如果平均的预测概率落在了模型真实识别准确率的左侧，同时统计直方图表现为输出的预测概率普遍落在直线y=x的上方则为欠自信（under-confidence）。

图1：概率校准示例

在本文中，我们发现，由于数据类别的严重不均衡，导致模型的概率校准偏差会比在均衡数据集下的偏差更大，双阶段模型cRT [2] 和LWS [2]，乃至2020年重新设计单阶段模型Causal Norm [4]、Balanced Softmax [5] 和CVPR2021的新工作LDAE [7] 也依然存在更大的概率校准偏差。

图2：CE模型在原始CIFAR-100、CIFAR-100-LT,IF=50，cRT和LWS在ECE下的概率偏差示例

图3：Causal Norm [4]、Balanced Softmax [5] 和LDAE [7] 在ECE下的概率偏差示例，引自论文[7]

以上是基于CIFAR-100的实验，不均衡样本的过度自信现象在其他数据集上，例如CIFAR-10、ImageNet，也同样出现：

微信图片_20210517110628.png

图4：CE模型在原始CIFAR-10、CIFAR-10-LT,IF=100，cRT和LWS在ECE下的概率偏差示例

图4：CE模型在原始ImageNet、ImageNet-LT，cRT和LWS在ECE下的概率偏差示例

为了解决在长尾分布训练模型有较大的概率校准偏差的问题，我们基于decoupling model，采用了软化标签（soften label）和偏移学习（shift learning）的方式去同时提升模型的概率校准和识别性能。

Revisit mixup strategy

在mixup策略中，有一步很关键的操作是混合标签：

通过对标签进行soften操作，可以明显提高模型的概率校准指标。在ImageNet-LT数据集上，我们在decoupling model的特征表示学习阶段（Stage-1）和分类学习阶段（Stage-2）分别加入mixup操作，最终准确率和概率校准指标如下表所示：

表1：plain CE、cRT和LWS模型在各个阶段增加mixup操作下的Top-1准确率 / ECE指标

根据表1，我们能发现mixup能减小模型的ECE，改善概率校准的偏差。同时，对于双阶段decoupling model，mixup对特征表示学习阶段（Stage-1）增益很大，但是对分类学习阶段（Stage-2）没有太好的效果。所以在Stage-2，我们打算采用一种新的方式而非mixup去提高模型的概率校准和识别性能。

Label-aware smoothing

我们先来看下第二阶段head类别、medium类别还有tail类别的模型预测概率分布（上部，浅蓝色）：

图6：在Stage-2中，CE和label-aware smoothing预测概率分布的Violin plot

从图6我们可以发现，经过第二阶段的训练，Head类别和Medium类别，预测的概率会普遍较大，而Tail类别的预测概率会普遍较小。能不能适当减小Head类别和Medium类别的预测概率，增大Tail类别的预测概率，从而减小模型的过自信现象呢？为了实现这个目的，我们提出了label-aware smoothing，去应对不同类的过自信或者欠自信现象。具体表达形式如下：

对于label-aware smoothing，其理论最优值如下：

相比于CE，label-aware smoothing有更好的抗过拟合（overfit）特性，相比于label smoothing， label-aware smoothing对每个类别的收敛值不一样，有更好的灵活性，在长尾数据上也有更强的适用性。通过设计合适的relation函数f，能达到提升概率校准和识别准确率的效果。最终label-aware smoothing所得到的预测概率分布如图6下半部（深蓝色）。

Shift learning on classifier

对于cRT模型，在第二阶段会重新学习一个分类器权重W。对于LWS模型，第二阶段只会重新学习每个类别的模长s。一般来说cRT模型表达能力更强，能涵盖LWS模型。但是在大数据集上，LWS模型性能通常会比cRT好一些，表明cRT模型过拟合比较严重。为了结合cRT和LWS模型的优点，我们提出分类器的Shift learning：

新的分类器有两个可学习的参数：1是分类器权重W的残差学习变量，2是每个类别的模长s。相比于cRT模型，我们用更小的学习率去残差变量来避免过拟合现象。相比于LWS模型，我们的模型不仅可以改变原始分类权重W的大小，同时也可以改变W的角度，有更好的表达能力。

Shift learning on Batch normalization

同样，在双阶段模型中，由于第二阶段采用了新的采样数据的方法（class-balanced resampling），两个阶段的数据并不一致。我们可以将这个过程看作是迁移学习的过程。很明显，由于批规范化层有基于数据的统计值，两个阶段的数据不一致必定在统计值上也有偏差，具体而言，第一阶段在正常数据上，BN统计的均值和方差为：

而第二阶段在类别重采样的数据上，BN统计的均值和方差为：

为了让模型在均衡的测试集上表现更好，我们应该在第二阶段的数据上更新BN中的统计均值和方差。

实验结果

通过上述一系列的设计，我们在五个长尾数据集上验证所提出模型MiSLAS的能力：

微信图片_20210517111112.png

表2：MiSLAS模型在五个常用长尾数据集上的Top-1准确率 / ECE指标

MiSLAS在五个数据集上的概率校准方面都达到了和在均衡数据集上训练的模型差不多甚至更好的效果，提升巨大。相比2020年新设计单阶段模型Causal Norm（48.1% / 15.0%）、Balanced Softmax（49.9% / 16.8%）和CVPR2021的新工作LDAE（50.5% / 14.7%），概率校准偏差指标ECE也明显小了接近一个数量级（52.3% / 2.25%）。不仅如此，MiSLAS也显著提升了识别准确率。

微信图片_20210517111147.png

图7：MiSLAS模型在五个常用长尾数据集上的reliability diagrams (15 bins)