Annealing-based Label-Transfer Learning for Open World Object Detection(论文解析)

Annealing-based Label-Transfer Learning for Open World Object Detection

- 摘要
- 2 相关工作

摘要

“开放世界目标检测（Open World Object Detection，OWOD）因其在现实世界中的实用性而引起了广泛关注。以往的OWOD研究通常采用手动设计未知发现策略来从背景中选择未知提议，但由于缺乏适当的先验知识，存在不确定性。在本文中，我们提出目标检测可以被看作是一个目标级特征纠缠过程，其中未知特征通过卷积操作传播到已知提议，可以被提炼以增强未知目标的识别，而无需手动选择。因此，我们提出了一种简单而有效的基于退火的标签传递框架，充分探索已知提议以减轻不确定性。具体来说，引入了标签传递学习范式来解耦已知和未知特征，同时进一步采用锯齿退火调度策略来重建已知和未知类别的决策边界，从而促进已知和未知目标的识别。此外，以往的OWOD研究忽视了已知和未知性能之间的权衡，因此我们引入了一个称为"Equilibrium Index"的度量来全面评估OWOD模型的有效性。据我们所知，这是第一个不需要手动选择未知目标的OWOD工作。我们在常用基准数据集上进行了大量实验证明，与其他最新方法相比，我们的模型实现了卓越的检测性能（未知目标平均精度提高了200%，已知目标检测性能更高）。我们的代码可以在https://github.com/DIG-Beihang/ALLOW.git上找到。”

2 相关工作

深度学习的发展[3, 5, 9, 13, 15, 21, 22, 24, 47]推动了多个对象在图像内进行识别和定位的目标检测研究。传统的目标检测模型基于一个理想的封闭世界假设，这意味着要检测的类别必须在训练阶段进行标记和给定。然而，很可能会出现目标检测系统在训练阶段未出现的未知对象。为了解决这个问题，先前的方法已经探索了开放集和开放世界的设置。

开放集分类和检测
在开放集设置中，通过训练集获得的知识是不完整的，因此在推理过程中分类器可能会遇到在训练集中没有出现过的类别。为了应对这一挑战，一些研究[8, 14, 18, 29, 33, 36]在一些假设下探索了这个任务。开放集分类问题首次在[31]中被定义为一个受限制的最小化问题，并在后续研究中扩展为多类分类器[16, 32]。Bendale和Boult [2]提出了一种方法，用于在模型的特征空间中识别未知类别，并使用OpenMax分类器来估计整体风险。Liu等人[23]开发了一个度量学习框架，通过长尾识别设置来将不可见类别标识为未知类别，以处理类别共存情况。PROSER [46]鼓励区分已知和未知类别，但忽略了已知和未知实例之间的动态平衡。此外，自监督学习[28]和重建的无监督学习方法[43]已被用于开放集中的识别问题。

Dhamija等人[4]研究了开放集目标检测任务，并提出了开放集目标检测协议。随后的研究[11, 26, 27]通过测量不确定性来提高检测性能。OpenDet [12]也从特征密度的角度学习已知提议，但它手动设计了一个未知发现策略，选择了一些高不确定性的已知提议来帮助改善未知目标的识别。

开放世界分类和检测
不同于仅关注未知类别识别的开放集任务，开放世界任务还会基于新获得的类别数据进行增量学习。Bendale等人[1]提出了第一个开放世界图像识别模型，并提出了一种用于评估开放世界识别系统的协议。Xu等人提出了一种元学习方法[41]，用于将新样本与已知类别的动态集合进行匹配，并在新样本与所有已知类别的相似性较低时将其识别为未知类别。一些最近的研究[25, 25, 38]尝试分别使用长尾分布[44]、少样本学习[37]和零样本学习[40]来应对开放世界分类问题，以探索更复杂的场景。

对于开放世界检测，Joseph等人[17]提出了ORE方法，其中设计了一个未知对象感知的RPN（Region Proposal Network），赋予模型检测未知对象的能力。SA方法[42]利用语义拓扑，为每个类别在特征空间中定义一个语义质心，并在学习过程中将物体实例靠近它们所属的质心。OWDETR [10]提出了一个端到端的框架，包括伪标签、新颖性分类和目标评分。Wu等人[39]定义了未知分类开放世界目标检测（Unknown-Classified OWOD）问题，并设计了一个基于相似性和聚类的两阶段检测器，用于区分多个不同的未知类别。Zhao等人[45]进一步提出了一个辅助提案顾问和一个类别特定的排除分类器，以改善未知目标检测性能。

先前的方法[10, 17, 39, 42, 45]通常采用复杂的未知发现策略来处理未知目标检测问题，但并不总能准确选择未知提议，因此引入了过多的不确定性，损害了对未知目标的学习并影响了已知分类。相比之下，我们的方法只通过一个合理的解耦过程从已知提议中探索未知信息，这在提高未知目标检测性能的同时保持了已知目标检测性能。

未完待续。。