Pu, Yifan, et al. "Rank-DETR for high quality object detection." Advances in Neural Information Processing Systems 36 (2023): 16100-16113.

Rank-DETR for High Quality Object Detection

Abstract

최신 detection Transformer (DETR) 모델들은 객체 쿼리(object queries) 세트를 사용하여 바운딩 박스(bounding box) 목록을 예측하고, 이를 분류 신뢰도 점수(classification confidence scores)에 따라 정렬한 후, 가장 높은 순위의 예측들을 주어진 입력 이미지에 대한 최종 탐지 결과로 선택한다.
고성능 객체 탐지기는 바운딩 박스 예측에 대한 **정확한 순위 매김(ranking)**을 요구한다.
DETR 기반 탐지기의 경우, 분류 점수와 localization 정확도 간의 불일치로 인해 상위 순위 바운딩 박스의 localization 품질이 떨어지는 문제가 발생하며, 이는 고품질 탐지기 구축을 저해한다.
본 연구에서는 **일련의 순위 지향적 설계(rank-oriented designs)**를 제안하여, 이를 Rank-DETR이라고 명명하며, 간단하면서도 고성능의 DETR 기반 객체 탐지기를 소개한다.
우리의 주요 기여는 다음과 같다:
(i) 긍정적인 예측을 유도하고 부정적인 예측을 억제하여 낮은 오탐률(false positive rates)을 보장하는 순위 지향적 아키텍처 설계.
(ii) 순위 매김 과정에서 더 정확한 localization 정확도를 가진 예측에 우선순위를 부여하여 높은 IoU 임계값(thresholds)에서 AP를 향상시키는 순위 지향적 손실 함수(loss function) 및 매칭 비용(matching cost) 설계.
우리는 이 방법을 최근의 SOTA 방법들(예: H-DETR 및 DINO-DETR)을 개선하는 데 적용했으며, ResNet-50, Swin-T, Swin-L과 같은 다양한 backbone을 사용할 때 강력한 COCO 객체 탐지 결과를 보고하여 우리 접근 방식의 효과를 입증한다.
코드는 https://github.com/LeapLabTHU/Rank-DETR 에서 확인할 수 있다.

1 Introduction

최신 객체 탐지 시스템의 환경은 선구적인 연구인 DEtection TRansformer (DETR) [3] 이후 상당한 변화를 겪었다. DETR이 객체 탐지에서 인상적인 결과를 보여준 이래로, Deformable-DETR [78], DINO [75], H-DETR [30]과 같은 수많은 후속 연구들이 이 분야를 더욱 발전시켰다. 더욱이, 이러한 DETR 기반 접근 방식은 instance/panoptic segmentation [6, 38, 61, 69, 71, 35, 9, 8, 70], pose estimation [57, 36, 56], multi-object tracking [5, 47, 58]을 포함한 다양한 핵심 시각 인식 task를 해결하는 데 성공적으로 확장되었다. 이러한 분야의 주목할 만한 발전은 향상된 객체 탐지 성능을 위한 DETR 기반 프레임워크의 지속적인 개선 덕분이다.

DETR 기반 방법의 성능을 다양한 관점에서 향상시키기 위해 상당한 노력이 기울여졌다. 이러한 노력에는 Transformer encoder 및 decoder 아키텍처 개선 [48, 74, 78, 2, 12, 78, 11, 40, 43]과 query 공식 재설계 [63, 44, 34, 75]가 포함된다. FCOS [59] 또는 ATSS [77]와 같은 dense one-stage 객체 탐지기를 위한 정확한 랭킹 메커니즘 개발에 상당한 연구가 집중되었지만, DETR 기반의 최신 객체 탐지기에 대한 이 측면을 구체적으로 조사한 연구는 거의 없었다. 그러나 랭킹 메커니즘은 평균 정밀도(average precision) 성능을 향상시키는 데, 특히 높은 IoU 임계값에서 매우 중요하다.

본 연구의 주요 초점은 상대적으로 높은 IoU 임계값에서 강력한 성능을 보이는 고품질 DETR 기반 객체 탐지기를 구축하는 데 있다. 우리는 이러한 탐지기를 구축하는 데 있어 bounding box 예측에 대한 정확한 랭킹 순서를 설정하는 것의 중요성을 인식한다. 이를 달성하기 위해, 우리는 정확한 랭킹 정보의 이점을 효과적으로 활용하는 두 가지 랭크 지향(rank-oriented) 설계를 도입한다. 첫째, 우리는 각 Transformer decoder layer 이후에 rank-adaptive classification head와 query rank layer를 제안한다. Rank-adaptive classification head는 랭크를 인식하는 학습 가능한 logit bias 벡터를 사용하여 분류 점수를 조정하는 반면, query rank layer는 추가적인 랭킹 임베딩을 객체 query에 융합한다. 둘째, 우리는 두 가지 랭크 지향 최적화 기술을 제안한다: 손실 함수 수정과 매칭 비용 설계. 이러한 함수는 모델의 랭킹 절차를 용이하게 하고, ground truth와 비교했을 때 더 높은 IoU 점수를 가진 더 정확한 bounding box 예측에 우선순위를 부여한다. 요약하자면, 우리의 랭크 지향 설계는 객체 탐지 성능, 특히 높은 IoU 임계값에서의 AP 점수를 일관되게 향상시킨다.

우리의 접근 방식의 효능을 검증하기 위해, 우리는 H-DETR 및 DINO-DETR과 같은 최근의 강력한 DETR 기반 방법들에서 일관된 성능 향상을 보여주는 포괄적인 실험을 수행했다. 예를 들어, H-DETR을 기반으로 할 때, 우리의 방법은 ResNet-50 및 Swin-T backbone을 각각 활용할 때 $\mathrm{AP}_{75}$ 에서 $+2.1\% (52.9\% \text{ vs. } 55.0\%)$ 및 $+2.7\% (55.1\% \text{ vs. } 57.8\%)$ 의 주목할 만한 증가를 보여준다. 우리의 접근 방식이 COCO val 데이터셋에서 $1 \times$ 학습 스케줄에서 $50.2\% \mathrm{AP}$ 에 도달하는 경쟁력 있는 성능을 달성한다는 점을 강조할 가치가 있다. 이러한 결과는 우리가 제안한 방법론의 효과성과 신뢰성에 대한 설득력 있는 증거가 된다.

객체 탐지를 위한 DETR (DETR for Object Detection)
선구적인 연구인 **DETR [3]**이 2D 객체 탐지에 Transformer를 도입한 이래로, 수많은 후속 연구들 [48, 11, 7, 63, 46]이 DETR을 기반으로 다양하고 발전된 확장 모델들을 개발해왔다. 이는 주로 DETR이 **NMS(non-maximum suppression)**와 같은 수작업으로 설계된 구성 요소의 필요성을 제거했기 때문이다.
초기 핵심 개발 중 하나인 **Deformable-DETR [78]**은 multi-scale deformable self/cross-attention 방식을 도입하여, 참조 바운딩 박스 내의 소수의 핵심 샘플링 지점에 선택적으로 attention을 집중했다. 이 접근 방식은 특히 작은 객체에 대해 DETR보다 향상된 성능을 보였다.
나아가 **DAB-DETR [44]**와 **DN-DETR [34]**는 새로운 query 공식화 방식 또한 성능을 향상시킬 수 있음을 입증했다.
이후 연구인 **DINO-DETR [75]**는 one-to-one matching 방식으로 인한 비효율성을 해결함으로써 DETR 설계의 장점을 보여주며 객체 탐지 task에서 state-of-the-art 결과를 달성했다.
이러한 연구들과 달리, 우리의 초점은 DETR을 위한 rank-oriented 메커니즘 설계에 있다. 우리는 경쟁력 있는 $\mathrm{AP}_{75}$ 결과를 가진 고성능 DETR 기반 객체 탐지기를 구축하기 위해 rank-oriented 아키텍처 설계와 rank-oriented matching cost 및 loss function 설계를 제안한다.

객체 탐지를 위한 랭킹 (Ranking for Object Detection)
객체 탐지 task에서 랭킹을 개선하기 위한 많은 연구 노력이 존재한다. 예를 들어, **IoU-Net [31]**은 추가적인 IoU 예측기와 추론 시 분류 점수와 localization 점수를 모두 고려하는 IoU-guided NMS 방식을 구축했다. **Generalized focal loss [37]**는 IoU 점수와 분류 점수의 공동 표현으로 작용하는 quality focal loss를 제안했다. **VarifocalNet [76]**은 후보 탐지 결과의 더 정확한 랭킹을 달성하기 위해 IoU-aware classification score를 도입했다. **TOOD [10]**는 분류 점수와 IoU 점수의 고차 조합을 anchor alignment metric으로 정의하여, 객체 탐지기가 고품질 anchor에 동적으로 집중하도록 유도했다.
또한, ranking-based loss function [53, 4, 49, 50, 32]은 예측된 바운딩 박스를 품질에 따라 랭킹하고 잘못된 랭킹에 페널티를 부과하도록 설계되었다.
최근 동시 진행된 연구인 **Stable-DINO [45]**와 Align-DETR [1] 또한 DINO-DETR [75]의 loss 및 matching 설계를 개선하기 위해 IoU-aware classification score 아이디어를 적용했다.
앞서 언급된 노력들과 달리, 우리는 false positive rate를 줄이는 것을 목표로 하는 query rank 방식을 추가로 도입한다.

동적 신경망 (Dynamic Neural Networks)
추론 단계에서 고정된 연산 그래프와 파라미터를 가지는 정적 모델과 달리, **동적 신경망 [15, 65]**은 다양한 입력에 따라 구조나 파라미터를 조정할 수 있으며, 이는 성능, 적응성 [68, 13], 연산 효율성 [72, 73, 67, 60], 그리고 표현력 [52] 측면에서 주목할 만한 장점을 제공한다.
동적 네트워크는 일반적으로 세 가지 유형으로 분류된다: sample-wise [27, 66, 18, 14, 51], spatial-wise [62, 28, 19, 17, 16], 그리고 temporal-wise [20, 64].
본 연구에서는 새로운 query-wise 동적 접근 방식을 도입한다. 이 방식은 객체 query에 랭킹 정보를 동적으로 통합하며, 이는 바운딩 박스 품질 랭킹에 기반하여 이루어진다. 이를 통해 객체 query에 더 나은 표현 능력을 부여한다.

3 Approach

무엇보다도, 우리는 Section 3.1에서 최신 DETR 기반 방법들 [30, 75]의 전체 파이프라인을 다시 살펴본다. 제안하는 방법의 상세한 설계는 rank-oriented 아키텍처 설계와 최적화 설계를 포함하여 Section 3.2와 Section 3.3에서 이어서 설명한다. 마지막으로, Section 3.4에서는 우리 접근 방식과 관련 연구들 간의 연결성 및 차이점을 논의한다.

3.1 Preliminary

파이프라인 (Pipeline)
Detection Transformer (DETR)는 입력 이미지 $\mathcal{I}$ 를 처리하기 위해 먼저 backbone 네트워크와 Transformer encoder를 통과시켜 강화된 픽셀 임베딩 시퀀스 $\mathcal{X}=\left\{\mathbf{x}_{1}, \mathbf{x}_{2}, \cdots, \mathbf{x}_{\mathrm{N}}\right\}$ 를 얻는다. 이 강화된 픽셀 임베딩은 기본 객체 쿼리 임베딩 세트 $\mathcal{Q}^{0}=\left\{\mathbf{q}_{1}^{0}, \mathbf{q}_{2}^{0}, \cdots, \mathbf{q}_{n}^{0}\right\}$ 와 함께 Transformer decoder에 입력된다. 각 Transformer decoder layer 이후, 업데이트된 객체 쿼리 임베딩에 task-specific prediction head가 적용되어 분류 예측 $\mathcal{P}^{l}=\left\{\mathbf{p}_{1}^{l}, \mathbf{p}_{2}^{l}, \cdots, \mathbf{p}_{n}^{l}\right\}$ 과 바운딩 박스 예측 $\mathcal{B}^{l}=\left\{\mathbf{b}_{1}^{l}, \mathbf{b}_{2}^{l}, \cdots, \mathbf{b}_{n}^{l}\right\}$ 을 각각 생성한다. 여기서 $l \in\{1,2, \cdots, L\}$ 은 Transformer decoder의 layer 인덱스를 나타낸다. 마지막으로, DETR은 예측 결과와 ground-truth 바운딩 박스 및 레이블 $\mathcal{G}=\left\{\mathbf{g}_{1}, \mathbf{g}_{2}, \cdots, \mathbf{g}_{m}\right\}$ 간에 일대일 이분 매칭(one-to-one bipartite matching)을 수행한다. 이는 각 ground truth를 최소 매칭 비용을 갖는 예측과 연결하고 해당 supervision을 적용하는 방식이다.

객체 쿼리 (Object Query)
각 Transformer decoder layer 이후 객체 쿼리 $\mathcal{Q}^{0}$ 를 업데이트하기 위해, 일반적으로 DETR은 $L$ 개의 Transformer decoder layer에 대해 총 $L$ 개의 부분집합, 즉 $\left\{\mathcal{Q}^{1}, \mathcal{Q}^{2}, \cdots, \mathcal{Q}^{L}\right\}$ 을 형성한다. 초기 객체 쿼리 $\mathcal{Q}^{0}$ 와 각 layer 이후 업데이트된 쿼리 모두에서, 각 $\mathcal{Q}^{l}$ 은 두 부분의 합으로 구성된다: content query $\mathcal{Q}_{c}^{l}=\left\{\mathbf{q}_{c, 1}^{l}, \mathbf{q}_{c, 2}^{l}, \cdots, \mathbf{q}_{c, n}^{l}\right\}$ 와 position query $\mathcal{Q}_{p}^{l}=\left\{\mathbf{q}_{p, 1}^{l}, \mathbf{p}_{p, 2}^{l}, \cdots, \mathbf{q}_{p, n}^{l}\right\}$ 이다. content query는 의미론적 카테고리 정보를 포착하는 반면, position query는 바운딩 박스 중심 및 크기의 분포와 같은 사전 위치 정보를 인코딩한다.

DETR에서의 랭킹 (Ranking in DETR)
랭킹 지향(rank-oriented) 설계는 현대 객체 검출기에서 중요한 역할을 하며, 특히 높은 Intersection over Union (IoU) 임계값에서 우수한 평균 정밀도(AP) 점수를 달성하는 데 기여한다. H-DETR 및 DINO-DETR과 같은 state-of-the-art 검출기의 성공은 간단한 랭킹 지향 설계, 특히 two-stage scheme과 mixed query selection을 사용하는 데 있다. 이들 검출기는 Transformer encoder feature map에서 출력된 조밀한(dense) coarse 바운딩 박스 예측을 랭킹하여 상위 약 300개의 confident한 예측을 선택함으로써 초기 positional query $\mathcal{Q}_{p}^{0}$ 를 생성한다. 평가 시에는 최종 Transformer decoder layer에서 생성된 객체 쿼리 임베딩 $\mathcal{Q}^{L}$ 을 기반으로 $n \times K$ 개의 바운딩 박스 예측을 수집하고( $\mathcal{Q}^{L}$ 내의 각 쿼리는 각 카테고리와 관련된 $K$ 개의 예측을 생성), 이를 분류 confidence 점수 내림차순으로 정렬한 후, 상위 약 100개의 가장 confident한 예측만을 반환한다.
본 연구에서는 랭킹 지향 설계가 가져오는 이점을 더욱 추출하는 데 중점을 두며, 고품질 객체 검출 성능의 한계를 뛰어넘기 위한 일련의 개선된 설계를 소개한다. 이어지는 논의에서는 이러한 세부 사항에 대해 더 자세히 설명한다.

3.2 Rank-oriented Architecture Design: ensure lower FP and FN

원래의 rank-oriented 디자인은 초기 positional query $\mathcal{Q}_{p}^{0}$ 에만 rank 정보를 통합하지만, 우리는 전체 Transformer decoder 과정에서 sorting의 이점을 활용하는 향상된 접근 방식을 제안한다. 구체적으로, 우리는 각 Transformer decoder layer 뒤에 rank-adaptive classification head를, 그리고 마지막 $L-1$ 개의 Transformer decoder layer 각각 앞에 query rank layer를 도입한다. 이 새로운 디자인은 true positive의 탐지를 향상시키면서 false positive를 억제하고 false negative를 수정하여, false positive rate와 false negative rate를 낮추는 것을 목표로 한다. Figure 1은 우리의 rank-oriented 아키텍처 디자인의 상세한 파이프라인을 보여준다.

Rank-adaptive Classification Head.
우리는 각 object query와 독립적으로 연관된 classification score $\mathcal{T}^{l}=\left\{\mathbf{t}_{1}^{l}, \mathbf{t}_{2}^{l}, \cdots, \mathbf{t}_{n}^{l}\right\}$ 에 학습 가능한 logit bias vector 집합 $\mathcal{S}^{l}=\left\{\mathbf{s}_{1}^{l}, \mathbf{s}_{2}^{l}, \cdots, \mathbf{s}_{n}^{l}\right\}$ 을 추가하여 원래의 classification head를 수정한다 (Sigmoid( $\cdot$ ) 함수 적용 전). $l$ -번째 decoder layer의 classification prediction $\mathcal{P}^{l}=\left\{\mathbf{p}_{1}^{l}, \mathbf{p}_{2}^{l}, \cdots, \mathbf{p}_{n}^{l}\right\}$ 은 다음과 같이 공식화될 수 있다:

\mathbf{p}_{i}^{l}=\operatorname{Sigmoid}\left(\mathbf{t}_{i}^{l}+\mathbf{s}_{i}^{l}\right), \quad \mathbf{t}_{i}^{l}=\operatorname{MLP}_{\mathrm{cls}}\left(\mathbf{q}_{i}^{l}\right),

여기서 $\mathcal{Q}^{l}=\left\{\mathbf{q}_{1}^{l}, \mathbf{q}_{2}^{l}, \cdots, \mathbf{q}_{n}^{l}\right\}$ 는 $l$ -번째 Transformer decoder layer 이후의 출력 embedding을 나타낸다. $\mathbf{t}_{i}^{l}$ 와 $\mathbf{s}_{i}^{l}$ 의 hidden dimension은 모두 카테고리 수, 즉 $K$ 이다. 전체

Figure 1: rank-oriented 아키텍처 디자인을 설명한다. (a) rank-oriented 아키텍처는 마지막 $L-1$ 개의 Transformer decoder layer 각각 앞에 query rank layer와 각 Transformer decoder layer 뒤에 rank-adaptive classification head로 구성된다. (b) rank-adaptive classification head는 classification score를 적절하게 조정하도록 학습한다. (c) query rank layer는 최신 랭킹 정보를 활용하여 다음 Transformer decoder layer의 입력으로 사용되는 content query와 position query를 재구성한다.

파이프라인은 Figure 1(b)에 나와 있다. 학습 가능한 embedding 집합 $\mathcal{S}^{l}$ 을 classification score $\mathcal{T}^{l}$ 에 직접 통합할 수 있다는 점은 주목할 만하다. 이는 아래에서 설명하듯이, 연관된 $\mathcal{Q}^{l}$ 이 query rank layer에서 이미 정렬되었기 때문에 가능하다.

Query Rank Layer.
우리는 마지막 $L-1$ 개의 Transformer decoder layer 각각 앞에 query rank layer를 추가하여 정렬된 positional query와 content query를 적절하게 재생성한다.

먼저, rank-aware content query를 구성하는 방법을 설명한다:

\overline{\mathcal{Q}}_{c}^{l}=\operatorname{MLP}_{\text {fuse }}\left(\hat{\mathcal{Q}}_{c}^{l-1} \| \mathcal{C}^{l}\right), \quad \hat{\mathcal{Q}}_{c}^{l-1}=\operatorname{Sort}\left(\mathcal{Q}_{c}^{l-1} ; \hat{\mathcal{P}}^{l-1}\right),

여기서 우리는 먼저 $(l-1)$ -번째 Transformer decoder layer의 출력 $\mathcal{Q}_{c}^{l-1}$ 을 $\hat{\mathcal{P}}^{l-1}=\operatorname{MLP}_{\text {cls }}\left(\mathcal{Q}_{c}^{l-1}\right)$ 의 내림차순으로 정렬한다. $\hat{\mathcal{P}}^{l-1}$ 의 각 요소는 $K$ -차원 벡터이므로, 우리는 $K$ 개 카테고리(classification confidence)에 대한 최대값을 랭킹 기준으로 사용한다. 연산 기호 $\operatorname{Sort}(A ; B)$ 는 $B$ 의 요소들의 내림차순을 기반으로 $A$ 내의 요소들을 정렬한다. 그런 다음, 정렬된 object content query $\hat{\mathcal{Q}}_{c}^{l-1}$ 를 무작위로 초기화된 content query $\mathcal{C}^{l}$ 집합과 feature dimension에서 연결하며 $(\|)$ , 여기서 $l \in\{2, \cdots, L\}$ 이다. 이 content query $\mathcal{C}^{l}$ 집합은 end-to-end 방식으로 최적화된다. 이어서, 우리는 완전 연결 레이어(MLP $_{\text {fuse}}$ )를 사용하여 이들을 원래 차원으로 다시 융합한다. 즉, 각 Transformer decoder layer에 대해 우리는 다른 샘플들 간에 공유되는 rank-aware static content embedding 집합을 유지한다. 이러한 embedding은 가장 빈번한 semantic 정보의 분포를 효과적으로 모델링하고 활용한다 [26].

다음으로, rank-aware positional query를 계산하기 위한 수학적 공식을 제시한다. positional query의 순서를 rank가 매겨진 content query와 정렬하기 위해, 우리는 다른 DETR 기반 detector에 대한 positional query의 초기화 방법에 따라 positional query를 정렬하거나 재구성한다. Deformable DETR을 계승하고 모든 $L$ 개의 Transformer decoder layer에 대해 동일한 positional query를 사용하는 H-DETR의 경우, 우리는 이전 layer의 positional query를 단순히 정렬한다:

\overline{\mathcal{Q}}_{p}^{l}=\operatorname{Sort}\left(\bar{Q}_{p}^{l-1} ; \hat{\mathcal{P}}^{l-1}\right),

각 Transformer decoder layer에서 bounding box prediction으로부터 새로운 positional query를 생성하는 DINO-DETR의 경우, 우리는 각 object query의 bounding box prediction을 정렬하고 정렬된 box로부터 positional query embedding을 재구성한다:

\overline{\mathcal{Q}}_{p}^{l}=\operatorname{PE}\left(\overline{\mathcal{B}}^{l-1}\right), \quad \overline{\mathcal{B}}^{l-1}=\operatorname{Sort}\left(\mathcal{B}^{l-1} ; \hat{\mathcal{P}}^{l-1}\right),

여기서 $\mathcal{B}^{l-1}$ 와 $\hat{\mathcal{P}}^{l-1}$ 는 $(l-1)$ -번째 Transformer decoder layer의 출력, 즉 $\mathcal{Q}^{l-1}$ 을 기반으로 한 bounding box prediction과 classification prediction을 나타낸다. $\mathrm{PE}(\cdot)$ 는 sine position encoding 함수와 작은 multilayer perceptron을 포함하여 positional query embedding $\overline{\mathcal{Q}}_{p}^{l}$ 를 재구성한다. 즉, $\overline{\mathcal{Q}}_{p}^{l}$ 의 각 요소는 $\overline{\mathbf{q}}_{p, i}^{l}=\operatorname{PE}\left(\overline{\mathbf{b}}_{i}^{l-1}\right)$ 에 의해 추정된다. Figure 1(c)에서는 H-DETR에 대한 positional query 업데이트 프로세스(Equation (3))를 설명하고 DINO-DETR에 대한 프로세스(Equation (4))는 생략한다. 이는 우리가 주로 H-DETR에 대한 실험을 수행했기 때문이다.

마지막으로, 재생성된 rank-aware positional query embedding과 content query embedding을 다음 Transformer decoder layer로 전송한다.

Figure 2: rank-oriented matching cost 및 loss 디자인을 설명한다. (a) 원래의 DETR 및 그 변형들은 classification head와 bounding box regression head를 사용하여 예측을 수행한다. matching cost 함수는 classification score와 bounding box overlap score의 선형 조합이다. (b) rank-oriented matching cost 및 loss scheme은 GIoU-aware classification head와 high-order matching cost 함수를 사용하여 더 정확한 localization accuracy의 예측에 우선순위를 부여한다.

분석 (Analysis).
이 두 가지 rank-oriented 아키텍처 디자인의 핵심 동기는 object query의 classification score를 랭킹 정보에 따라 조정하는 것이다. 각 Transformer decoder layer 내에서 우리는 두 가지 학습 가능한 표현 집합을 통합한다: logit bias vector $\mathcal{S}^{l}$ 와 content query vector $\mathcal{C}^{l}$ . 이 두 가지 rank-aware 표현을 활용함으로써, 우리는 false positive ( $oLRP_{FP}$ : $24.5 \% \rightarrow 24.1 \%$ )를 효과적으로 처리하고 false negative ( $oLRP_{FN}: 39.5 \% \rightarrow 38.6 \%$ )를 완화하는 우리 접근 방식의 능력을 경험적으로 입증했다. 우리의 발견에 대한 더 포괄적인 이해를 위해 실험 섹션을 참조하라.

3.3 Rank-oriented Matching Cost and Loss: boost the AP under high IoU thresholds

기존의 DETR 및 그 파생 모델들은 **Hungarian matching cost function $\mathcal{L}_{\text {Hungarian }}$ **과 **학습 손실 함수 $\mathcal{L}$ **을 다음과 같이 동일한 방식으로 정의한다:

-\lambda_{1} \operatorname{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+\lambda_{2} \ell_{1}(\hat{\mathbf{b}}, \mathbf{b})+\lambda_{3} \operatorname{FL}(\hat{\mathbf{p}}[c]),

여기서 $\hat{\mathbf{b}}, \hat{\mathbf{p}}$ (또는 $\mathbf{b}, c$ )는 각각 예측된 (또는 ground-truth) bounding box와 분류 점수를 나타낸다. $c$ 는 $\mathbf{b}$ 의 ground-truth semantic category에 해당한다. 또한, $\mathrm{FL}(\cdot)$ 은 semantic classification focal loss [41]를 나타낸다. 우리는 **GIoU-aware classification head (제안된 GIoU-aware classification loss에 의해 감독됨)**와 다음과 같은 고차(high-order) matching cost function scheme를 도입하여 rank-oriented 설계를 강화할 것을 제안한다.

GIoU-aware Classification Loss.
분류 head를 감독하기 위해 이진(binary) target을 적용하는 대신, 정규화된 GIoU 점수를 사용하여 분류 예측을 감독할 것을 제안한다:

\operatorname{FL}^{\operatorname{GIoU}}(\hat{\mathbf{p}}[c])=-|t-\hat{\mathbf{p}}[c]|^{\gamma} \cdot[t \cdot \log (\hat{\mathbf{p}}[c])+(1-t) \cdot \log (1-\hat{\mathbf{p}}[c])],

여기서 $t=(\operatorname{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+1) / 2$ 로 설정하며, GIoU-aware classification loss를 $\mathrm{FL}^{\mathrm{GIoU}}(\cdot)$ 로 표기한다. semantic classification과 localization accuracy를 모두 통합하기 위해, 우리는 원래의 classification head를 위의 손실 함수에 의해 감독되는 GIoU-aware classification head로 수정한다. $t=1$ 일 때, $\mathrm{FL}^{\mathrm{GIoU}}(\cdot)$ 는 원래의 focal loss인 $\mathrm{FL}(\cdot)$ 로 단순화된다. 또한, 우리는 varifocal loss [76]와 결과를 비교하며, 그 수학적 공식은 다음과 같다:

\operatorname{VFL}(\hat{\mathbf{p}}[c])=-t \cdot[t \cdot \log (\hat{\mathbf{p}}[c])+(1-t) \cdot \log (1-\hat{\mathbf{p}}[c])] .

High-order Matching Cost.
분류 비용, $\ell_1$ loss, GIoU loss의 가중합으로 정의된 matching cost를 사용하는 Hungarian algorithm과 달리, 우리는 분류 점수와 IoU 점수의 더 복잡한 조합을 포착하는 고차(high-order) matching cost function을 사용할 것을 제안한다:

\mathcal{L}_{\text {Hungarian }}^{\text {high-order }}=\hat{\mathbf{p}}[c] \cdot \operatorname{IoU}^{\alpha},

여기서 IoU는 예측된 bounding box와 ground truth bounding box 사이의 intersection over union 점수를 나타낸다. 우리는 localization accuracy의 중요성을 우선시하기 위해 더 큰 $\alpha$ 값(예: $>2$ )을 채택하여, 더 정확한 bounding box 예측을 촉진하고 부정확한 예측의 중요도를 낮춘다. 대부분의 예측이 초기 학습 단계에서 낮은 localization 품질을 보이기 때문에, 중간 학습 단계부터 고차 matching cost를 사용한다는 점에 주목할 필요가 있다.

분석 (Analysis).
rank-oriented loss function과 matching cost는 높은 IoU 임계값에서 객체 감지 성능을 향상시키도록 설계되었다. GIoU-aware classification loss는 분류 점수에 GIoU-awareness를 부여하여 ranking 절차를 용이하게 하며, 이는 query ranking layer에서 더 정확한 ranking으로 이어진다. 한편, 고차 matching cost는 높은 분류 신뢰도와 우수한 IoU 점수를 모두 가진 query를 positive sample로 선택하여, 높은 분류 점수를 가지지만 낮은 localization IoU 점수를 가진 어려운 negative 예측을 효과적으로 억제한다. 이는 $\gamma^{\alpha}$ 를 사용하여 더 정확한 localization 점수의 이점을 확대함으로써 달성되며, 여기서 $\gamma$ 는 정확한 localization 점수와 덜 정확한 점수의 비율이다. 경험적 결과는 GIoU-aware classification loss ( $52.9\% \rightarrow 54.1\%$ ) 또는 고차 matching cost 설계 ( $52.9\% \rightarrow 54.0\%$ )를 통해 $\mathrm{AP}_{75}$ 에서 상당한 향상을 보여준다. 자세한 비교는 실험 섹션에서 제공된다.

3.4 Discussion

GIoU-aware classification loss 개념은 DETR 시대 이전의 여러 선행 연구들 [31, 37, 76, 10]에서 탐구되었다. 이 연구들은 분류 점수(classification scores)와 localization 정확도 간의 불일치(discrepancy)를 해결하는 것을 목표로 했다.
최근의 동시 연구들 [1, 45]과 마찬가지로, 우리 방법론도 rank-oriented matching cost 및 loss function 설계에 있어 동일한 통찰을 공유한다.
그러나 우리 접근 방식은 ranking 측면을 강조하고, rank-adaptive classification head 및 query rank layer를 포함하는 추가적인 rank-oriented 아키텍처 설계를 도입한다는 점에서 차별화된다.
더 나아가, 우리의 실험 결과는 **rank-oriented 아키텍처 설계와 rank-oriented matching cost 및 loss 설계 간의 상호 보완성(complementarity)**을 입증한다.

4 Experiment

4.1 Experiment Setting

우리는 detrex [54] 툴박스를 사용하여 **COCO object detection 벤치마크 [42]**로 object detection 실험을 수행한다. 우리 모델은 train set으로 학습되고 val set으로 평가된다. 우리는 H-DETR [30] 및 DINO-DETR [75]의 원본 논문과 동일한 실험 설정을 따른다.

4.2 Main Results

경쟁 방법들과의 비교
Table 1은 COCO object detection val 데이터셋에서 Rank-DETR와 다른 고성능 DETR 기반 방법들을 비교한 결과이다. 평가 결과, Rank-DETR는 단 12 epoch의 학습만으로 50.2%의 AP 점수를 달성하며 뛰어난 성능을 보여주었다. 이 성능은 H-DETR [30]보다 +1.5% 높고, 최근 state-of-the-art 방법인 DINO-DETR [75]보다도 +1.2% AP 높은 수치이다. 특히, $\mathrm{AP}_{75}$ 에서 상당한 개선을 보였는데, 이는 더 높은 IoU 임계값에서 우리 접근 방식의 이점을 강조한다.

Method	Backbone	#query	#epochs	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
Deformable-DETR [78]	R50	300	50	46.9	65.6	51.0	29.6	50.1	61.6
DN-DETR [34]	R50	300	12	43.4	61.9	47.2	24.8	46.8	59.4
DINO-DETR [75]	R50	900	12	49.0	66.6	53.5	32.0	52.3	63.0
H-DETR [30]	R50	300	12	48.7	66.4	52.9	31.2	51.5	63.5
Rank-DETR	R50	300	12	50.2	67.7	55.0	34.1	53.6	64.0

Table 1: R50 기반 COCO val2017 데이터셋에서 기존 고성능 DETR 기반 detector들과의 비교.

H-DETR [30] 개선
Table 2는 우리가 제안한 접근 방식과 경쟁력 있는 H-DETR [30] 간의 상세한 비교를 보여준다. 실험 평가는 다양한 backbone 네트워크와 학습 스케줄에 걸쳐 object detection 성능의 일관된 향상을 입증한다. 예를 들어, 12 epoch 학습 스케줄에서 우리 방법은 ResNet-50, Swin-Tiny, Swin-Large backbone 네트워크에서 각각 50.2%, 52.7%, 57.3%의 우수한 AP 점수를 달성했다. 이러한 결과는 baseline 방법들보다 각각 +1.5%, +2.1%, +1.4% 높은 수치이다. 학습 스케줄을 36 epoch로 확장하면 AP 점수가 일관되게 향상되어, ResNet-50에서 +1.2%, Swin-Tiny에서 +1.5%, Swin-Large에서 +1.1%의 개선을 가져왔다. 특히 높은 IoU 임계값에서는 AP 성능 향상이 더욱 두드러지는데, ResNet-50, Swin-Tiny, Swin-Large에서 $\mathrm{AP}_{75}$ 가 baseline보다 각각 +2.1%, +2.7%, +1.9% 향상되었다. 이러한 결과는 다양한 설정과 다른 backbone 네트워크에서, 특히 높은 IoU 임계값에서, 우리가 제안한 메커니즘이 일관되고 상당한 성능 향상을 가져옴을 입증한다. 또한 Figure 3a에서 다양한 IoU 임계값에서의 PR curve를 제공하여 성능 향상을 검증한다.

Method	Backbone	#epochs	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
H-Deformable-DETR	R50	12	48.7	66.4	52.9	31.2	51.5	63.5
Ours	R50	12	50.2	67.7	55.0	34.1	53.6	64.0
H-Deformable-DETR	Swin-T	12	50.6	68.9	55.1	33.4	53.7	65.9
Ours	Swin-T	12	52.7	70.6	57.8	35.3	55.8	67.5
H-Deformable-DETR	Swin-L	12	55.9	75.2	61.0	39.1	59.9	72.2
Ours	Swin-L	12	57.3	75.9	62.9	40.8	61.3	73.2
H-Deformable-DETR	R50	36	50.0	68.3	54.4	32.9	52.7	65.3
Ours	R50	36	51.2	68.9	56.2	34.5	54.9	64.9
H-Deformable-DETR	Swin-T	36	53.2	71.5	58.2	35.9	56.4	68.2
Ours	Swin-T	36	54.7	72.5	60.0	37.7	58.5	69.5
H-Deformable-DETR	Swin-L	36	57.1	76.2	62.5	39.7	61.4	73.4
Ours	Swin-L	36	58.2	76.7	63.9	42.4	62.2	73.6

Table 2: H-DETR 기반 object detection 결과 개선.

Method	Backbone	#epochs	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
DINO-DETR	R50	12	49.0	66.6	53.5	32.0	52.3	63.0
Ours	R50	12	50.4	67.9	55.2	33.6	53.8	64.2
DINO-DETR	Swin-L	12	56.8	75.4	62.3	41.1	60.6	73.5
Ours	Swin-L	12	57.6	76.0	63.4	41.6	61.4	73.8

Table 3: DINO-DETR 기반 object detection 결과 개선.

DINO-DETR [75] 개선
Table 3은 **DINO-DETR [75]**를 개선하기 위해 우리 접근 방식을 적용한 결과를 보여준다. 주목할 점은, 우리 방법이 ResNet-50 backbone에서 +1.4%, Swin-Large backbone에서 +0.8%의 AP 증가를 달성했다는 것이다. 더 높은 IoU 설정에서는 우리 방법이 ResNet-50에서 +1.8% $\mathrm{AP}_{75}$ 개선을, Swin-Large에서 +1.1% 개선을 추가로 얻었다. 이러한 결과는 다양한 DETR 기반 모델에 걸쳐 우리 접근 방식의 일반화 능력을 입증한다.

4.3 Ablation Study and Analysis

우리는 제안된 각 구성 요소가 우리 방법론 내에서 미치는 영향을 평가하기 위해 체계적인 분석을 수행했다. 우리는 단계별 접근 방식을 따랐는데, (a) baseline 위에 모듈을 점진적으로 추가하고 (Table 4a), (b) 각 모듈을 baseline에 통합하며 (Table 4b), (c) 우리 방법론에서 각 모듈을 제거하는 방식 (Table 4c)으로 진행했다. 이러한 절차를 통해 우리는 각 개별 구성 요소가 최종 성능에 기여하는 바를 이해할 수 있었다. 또한, 각 구성 요소의 기능을 포괄적으로 평가하기 위해 통계적 및 정성적 분석을 수행했다. 각 테이블의 각 열에서 가장 좋은 성능을 보인 숫자는 색상으로 표시했다.

각 구성 요소를 점진적으로 추가했을 때의 효과
우리는 ResNet-50 backbone을 사용하는 H-DETR을 baseline 방법으로 선택했다. baseline 모델 위에 제안된 메커니즘들을 점진적으로 추가한 결과, 성능이 꾸준히 증가했으며, 모든 제안된 구성 요소를 사용했을 때 가장 좋은 성능을 달성했다 (Table 4a). 또한, rank-oriented 아키텍처 디자인만 사용했을 때 가장 낮은 false negative rate ( $\mathrm{oLRP}_{\mathrm{FN}}$ )가 달성되는 것을 확인했다.

Rank-adaptive Classification Head (RCH)
Table 4b와 4c는 rank-adaptive classification head가 AP를 약간 향상시킬 수 있음을 보여준다. (RCH를 H-DETR baseline에 추가했을 때 +0.2%, Table 4b의 row1과 row2 비교; RCH를 우리 방법론에 추가했을 때 +0.4%, Table 4c의 row1과 row2 비교). 또한, RCH는 AP보다 $\mathrm{AP}_{75}$ 를 더 많이 향상시킨다.

Query Ranking Layer (QRL)
제안된 QRL 메커니즘은 ranking 정보를 DETR 아키텍처에 효과적으로 통합하여, attention layer에서 쿼리의 순차적 처리 부재를 보완한다. QRL을 활용함으로써 detector의 성능도 지속적으로 향상된다. (QRL을 H-DETR baseline에 추가했을 때 +0.3%; 우리 방법론에 추가했을 때 +0.7%). 우리는 또한 positive 및 negative 쿼리의 분류 점수에 대한 누적 확률 분포를 계산했다. QRL은 매칭된 positive 쿼리에 대해 향상된 분류 신뢰도를 제공하며 (Figure 3b),

RCH	QRL	GCL	HMC	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$	$\mathrm{AR}_{1}$	$\mathrm{AR}_{10}$	$\mathrm{AR}_{100}$	$\mathrm{AR}_{S}$	$\mathrm{AR}_{M}$	$\mathrm{AR}_{L}$	oLRP	olRP ${ }_{\text {Loc }}$	oLRP $_{\text {FP }}$	oLRP $_{\text {FN }}$
$\times$	$\times$	$\times$	$\times$	48.7	66.4	52.9	31.2	51.5	63.5	37.2	63.4	68.4	49.7	72.5	85.9	61.0	13.3	24.5	39.5
$\checkmark$	$\times$	$\times$	$\times$	48.9	66.9	53.3	31.2	52.4	63.7	37.5	64.4	71.2	53.5	75.5	87.1	61.2	13.3	24.0	39.2
$\checkmark$	$\checkmark$	$\times$	$\times$	49.3	67.3	53.7	32.4	52.2	63.4	37.8	65.0	71.7	54.6	75.7	88.4	60.8	13.3	24.1	38.6
$\checkmark$	$\checkmark$	$\checkmark$	$\times$	49.8	67.5	54.3	33.3	53.4	63.7	37.9	65.1	71.8	54.8	76.1	87.8	60.7	13.0	23.5	39.3
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	50.2	67.7	55.0	34.1	53.6	64.0	38.1	64.9	71.6	56.5	75.8	86.4	60.4	12.9	22.4	39.3

(a) baseline에 모듈을 점진적으로 추가했을 때의 효과.

RCH	QRL	GCL	HMC	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$	$\mathrm{AR}_{1}$	$\mathrm{AR}_{10}$	$\mathrm{AR}_{100}$	$\mathrm{AR}_{S}$	$\mathrm{AR}_{M}$	$\mathrm{AR}_{L}$	oLRP	oLRP ${ }_{\text {Loc }}$	oLRP ${ }_{\text {FP }}$	oLRP $_{\text {FN }}$
X	$\times$	$\times$	$\times$	48.7	66.4	52.9	31.2	51.5	63.5	37.2	63.4	68.4	49.7	72.5	85.9	61.0	13.3	24.5	39.5
$\checkmark$	$\times$	$\times$	$\times$	48.9	66.9	53.3	31.2	52.4	63.7	37.5	64.4	71.2	53.5	75.5	87.1	61.2	13.3	24.0	39.2
$\times$	$\checkmark$	$\times$	$\times$	49.0	67.2	53.2	32.3	51.9	63.5	37.9	64.8	71.5	55.1	75.6	87.5	61.1	13.4	23.8	39.2
$\times$	$\times$	$\checkmark$	$\times$	49.4	67.0	54.1	32.0	52.8	64.0	37.9	64.9	71.7	55.4	75.7	88.5	60.7	12.9	22.5	39.8
$\times$	$\times$	$\times$	$\checkmark$	49.3	67.3	54.0	31.8	52.4	63.4	37.7	64.4	71.1	53.7	74.9	85.8	61.1	13.2	23.8	39.2

(b) baseline에 각 모듈을 통합했을 때의 효과.

RCH	QRL	GCL	HMC	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$	$\mathrm{AR}_{1}$	$\mathrm{AR}_{10}$	$\mathrm{AR}_{100}$	$\mathrm{AR}_{S}$	$\mathrm{AR}_{M}$	$\mathrm{AR}_{L}$	oLRP	oLRP ${ }_{\text {Loc }}$	oLRP ${ }_{\text {FP }}$	oLRP $_{\text {FN }}$
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	50.2	67.7	55.0	34.1	53.6	64.0	38.1	64.9	71.6	56.5	75.8	86.4	60.4	12.9	22.4	39.3
$\times$	$\checkmark$	$\checkmark$	$\checkmark$	49.8	67.3	54.5	33.5	53.4	63.6	38.1	64.9	71.5	55.9	75.3	86.6	60.5	12.9	22.9	39.6
$\checkmark$	$\times$	$\checkmark$	$\checkmark$	49.5	67.4	54.2	33.1	52.8	63.5	38.0	64.7	71.6	55.8	75.4	85.9	60.9	12.9	24.6	39.3
$\checkmark$	$\checkmark$	$\times$	$\checkmark$	49.5	67.6	54.1	32.4	52.6	64.3	37.9	64.3	71.0	54.4	75.1	85.4	60.8	13.4	23.7	38.7
$\checkmark$	$\checkmark$	$\checkmark$	$\times$	49.8	67.5	54.3	33.3	53.4	63.7	37.9	65.1	71.8	54.8	76.1	87.8	60.7	13.0	23.5	39.3

Table 4: H-DETR + R50 기반 ablation 실험. RCH: rank-adaptive classification head. QRL: query rank layer. GCL: GIoU-aware classification loss. HMC: high-order matching cost.

Classification loss target	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$	$\mathrm{AR}_{1}$	$\mathrm{AR}_{10}$	$\mathrm{AR}_{100}$	$\mathrm{AR}_{S}$	$\mathrm{AR}_{M}$	$\mathrm{AR}_{L}$	oLRP	oLRP ${ }_{\text {Loc }}$	oLRP $_{\text {FP }}$	oLRP $_{\text {FN }}$
$t=\operatorname{IoU}(\hat{\mathbf{b}}, \mathbf{b})^{0.5}$	50.1	67.6	54.7	32.6	53.4	64.5	38.2	64.9	71.5	55.5	75.4	86.4	60.4	12.9	22.5	39.4
$t=\operatorname{IoU}(\hat{\mathbf{b}}, \mathbf{b})^{1}$	50.0	67.3	54.7	34.0	53.6	64.8	38.1	65.2	71.7	56.7	75.5	85.8	60.6	12.9	22.9	39.6
$t=\mathrm{IoU}(\hat{\mathbf{b}}, \mathbf{b})^{2}$	49.5	66.0	54.0	32.5	53.3	64.1	37.8	64.2	70.9	53.8	75.3	86.1	61.0	12.3	23.1	41.0
$t=[(\operatorname{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+1) / 2]^{0.5}$	49.9	67.9	54.3	32.8	53.2	64.3	37.9	64.9	71.6	55.8	75.5	86.1	60.6	13.2	23.3	38.7
$t=[(\mathrm{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+1) / 2]^{1}$	50.2	67.7	55.0	34.1	53.6	64.0	38.1	64.9	71.6	56.5	75.8	86.4	60.4	12.9	22.4	39.3
$t=[(\mathrm{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+1) / 2]^{2}$	50.1	67.4	54.9	33.3	53.5	64.3	38.1	64.9	71.5	56.3	75.3	85.5	60.4	12.9	22.9	39.3

(a) GIoU-aware classification loss target 공식화의 효과.

Matching cost	AP	$\mathrm{AP}_{50}$	$\mathrm{AP}_{75}$	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$	$\mathrm{AR}_{1}$	$\mathrm{AR}_{10}$	$\mathrm{AR}_{100}$	$\mathrm{AR}_{S}$	$\mathrm{AR}_{M}$	$\mathrm{AR}_{L}$	oLRP	oLRP $_{\text {Loc }}$	oLRP $_{\text {FP }}$	oLRP $_{\text {FN }}$
$\hat{\mathbf{p}}[c] \cdot \operatorname{IoU}^{1}$	48.3	67.9	51.8	31.4	51.3	62.3	37.8	62.9	67.7	52.8	70.9	82.6	60.4	13.5	22.8	38.4
$\hat{\mathbf{p}}[c] \cdot \operatorname{IoU}^{2}$	49.5	68.3	53.5	32.5	52.4	63.9	38.1	63.9	69.6	54.5	73.3	84.8	60.2	13.3	23.1	37.8
$\mathbf{\hat { \mathbf { p } }}[c] \cdot \operatorname{IoU}^{3}$	50.0	68.1	54.2	32.9	53.2	64.4	37.9	64.7	70.9	55.3	74.9	85.9	60.4	12.9	22.9	39.1
$\mathbf{\hat { \mathbf { p } }}[c] \cdot \operatorname{IoU}^{4}$	50.2	67.7	55.0	34.1	53.6	64.0	38.1	64.9	71.6	56.5	75.8	86.4	60.4	12.9	22.4	39.3
$\hat{\mathbf{p}}[c] \cdot \operatorname{IoU}^{5}$	50.0	67.1	54.9	32.4	53.5	64.5	38.1	65.0	71.8	55.1	75.9	86.5	60.7	12.8	23.4	39.4
$\hat{\mathbf{p}}[c] \cdot \operatorname{IoU}^{6}$	50.0	66.6	54.9	33.9	53.3	64.5	38.0	65.4	72.5	56.3	76.5	87.7	61.0	12.8	23.0	40.3
$\hat{\mathbf{p}}[c] \cdot\left(\frac{\mathrm{G} \mathrm{IoU}+1}{2}\right)^{1}$	46.6	65.9	49.9	31.0	49.8	59.9	37.2	60.3	63.4	47.9	66.9	77.5	60.6	13.8	22.9	38.2
$\hat{\mathbf{p}}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{2}$	47.8	67.2	51.0	31.6	50.8	61.8	37.6	61.9	65.9	50.8	68.6	80.4	60.4	13.5	22.5	38.2
$\mathbf{\hat { \mathbf { p } }}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{3}$	48.0	67.6	51.3	31.1	51.3	62.2	37.6	61.8	65.8	50.2	69.3	79.8	59.9	13.4	21.9	37.9
$\hat{\mathbf{p}}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{4}$	49.1	68.2	53.0	32.2	52.1	63.5	37.7	63.9	69.2	55.0	72.2	83.6	60.1	13.3	22.9	37.7
$\mathbf{\hat { \mathbf { p } }}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{5}$	49.4	68.5	53.0	32.6	52.7	63.7	38.2	63.9	69.1	54.0	72.7	83.8	60.0	13.2	21.6	38.4
$\mathbf{\hat { \mathbf { p } }}[c] \cdot\left(\frac{\mathrm{G} \mathrm{IoU}+1}{2}\right)^{6}$	49.8	68.4	54.1	32.9	53.4	63.9	38.2	64.8	70.6	55.3	74.8	85.5	60.1	13.1	23.7	37.7
$\hat{\mathbf{p}}[c] \cdot\left(\frac{\mathrm{GIOU}+1}{2}\right)^{7}$	49.9	67.9	54.2	32.6	53.0	64.6	38.1	64.5	70.5	55.0	74.5	85.7	60.3	13.0	23.0	38.7
$\mathbf{\hat { \mathbf { p } }}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{8}$	50.0	67.8	54.6	33.9	53.6	64.7	37.9	65.0	71.2	55.5	75.2	86.5	60.4	12.8	23.8	38.8
$\mathbf{\hat { p }}[c] \cdot\left(\frac{\mathrm{GIoU}+1}{2}\right)^{9}$	49.8	67.3	54.4	33.3	53.2	63.7	38.1	65.1	71.7	56.4	75.7	87.1	60.5	12.9	23.9	39.0

(b) matching cost 공식화의 효과.

Table 5: 분류 손실 목표 및 매칭 비용 함수 선택의 영향. 매칭되지 않은 쿼리에 대한 분류 신뢰도는 효과적으로 억제되어 (Figure 3c), 진정한 예측이 잠재적인 오탐보다 더 높은 순위를 차지하게 된다. 이러한 현상은 Table 4b에 제시된 $\mathrm{oLRP}_{\mathrm{FP}}$ 결과에서도 더욱 분명하게 나타나는데, QRL을 사용함으로써 $24.5 \%$ 에서 $23.8 \%$ 로 감소하여 false positive rate가 줄어든다. 이러한 결과는 우리의 설계 의도와 일치한다.

GIoU-aware Classification Loss (GCL)
Table 4는 또한 제안된 GIoU-aware classification loss의 효과를 보여준다. Table 4b의 row1과 row4를 비교했을 때 바닐라 baseline 대비 0.7% mAP 증가를 보이며, Table 4c의 row1과 row4를 비교했을 때도 0.7% mAP 증가를 보인다. 우리는 또한 Table 5a에서 Eq. (6)의 학습 목표 $t$ 의 공식화를 ablation했다. 결과는 IoU (및 그 지수)를 최적화 목표로 채택하는 성능이 $(\mathrm{GIoU}+1) / 2$ 를 사용하는 것보다 열등하다는 것을 보여준다. 이는 GIoU가 두 개의 겹치지 않는 박스 간의 관계를 더 잘 모델링할 수 있기 때문이다. 우리는 GIoU 대신 $(\mathrm{GIoU}+1) / 2$ 를 사용하는데, 이는 $-1<\mathrm{GIoU} \leq 1$ 이고 $0<(\mathrm{GIoU}+1) / 2 \leq 1$ 이기 때문이다.

Figure 3: (a) baseline과 우리 방법론 간의 PR-curve를 다른 IoU 임계값에서 비교. (b) QRL 사용 여부에 따른 매칭된 쿼리의 분류 점수 밀도 분포. (c) QRL 사용 여부에 따른 매칭되지 않은 쿼리의 분류 점수 밀도 분포.

Figure 4: HMC 사용 여부에 따른 매칭되지 않은 쿼리의 IoU 점수 누적 분포.

High-order Matching Cost (HMC)
Table 4에서는 high-order matching cost가 전체 성능에 미치는 영향도 보여준다. HMC는 객체 detector의 전체 성능을 크게 향상시킬 수 있다. (Table 4b의 row1과 row5를 비교했을 때 +0.6%, Table 4c의 row1과 row5를 비교했을 때 +0.4%). 우리는 또한 matching cost의 공식화를 ablation했다. Table 5b에 나타난 바와 같이, high-order exponent IoU는 지속적으로 성능을 향상시키며, 지수가 4일 때 최고점에 도달한다. high-order exponent를 사용하면 낮은 IoU를 가진 예측 박스의 중요성을 억제할 수 있다. IoU를 $(\mathrm{GIoU}+1) / 2$ 로 대체했을 때도 Table 5b에서 동일한 경향을 관찰할 수 있지만, 후자의 방식은 성능이 약간 더 떨어진다.

HMC는 Negative Query와 Ground Truth 간의 겹침을 억제한다.
Figure 4는 매칭되지 않은 쿼리의 IoU 누적 확률 분포를 보여준다. 각 매칭되지 않은 쿼리의 IoU는 해당 쿼리와 모든 ground truth 박스 간의 가장 큰 IoU로 정의된다. Figure 4에서 보듯이, HMC를 채택하면 매칭되지 않은 쿼리와 모든 ground truth bounding box 간의 IoU를 감소시켜, negative 쿼리를 ground truth 박스에서 효과적으로 멀어지게 한다. 또한, 이러한 현상은 후반 Transformer decoder layer에서 더욱 두드러지게 나타난다.

Varifocal loss와의 비교
제안된 GIoU-aware classification loss (GCL, Eq. [6])의 효과를 평가하기 위해, 우리는 유사한 수학적 공식화를 가진 varifocal loss (VFL) [76]와 비교했다. VFL [76]을 따라, 우리는 Eq. (7)에서 학습 목표 $t=\mathrm{IoU}$ 를 활용했다. 비교를 단순화하고 GCL의 영향에 집중하기 위해, 우리는 HMC 없이 평가를 수행했다 (Table 4a의 row3). GCL을 활용한 우리 방법론은 49.8%의 mAP를 달성한 반면 (Table 4a의 row4), VFL은 49.5% mAP만을 달성했다. GCL과 VFL의 주요 차이점은 최적화 목표에 있다. 정규화된 GIoU를 학습 목표로 사용함으로써, 우리 접근 방식은 겹치지 않는 두 박스 간의 거리를 더 잘 모델링하여 성능 향상으로 이어진다. 또한, VFL은 CNN 기반 detector에서 negative 샘플에 비해 positive 샘플이 드물기 때문에 positive 샘플에 대한 스케일링 팩터를 제거한다. 그러나 positive 예시가 상대적으로 더 풍부한 DETR 기반 detector의 경우, 우리는 스케일링 팩터를 유지하는 것이 성능을 향상시킬 수 있음을 경험적으로 보여준다.

Method	Backbone	Params (M)	FLOPs (G)	Training Cost (min)	Testing FPS (img/s)	AP
H-DETR	R50	47.56	280.30	69.8	19.2	48.7
Ours	R50	49.10	280.60	71.8	19.0	50.2

Table 6: 우리 방법론의 연산 효율성 분석.

Figure 5: H-DETR (row1)과 Rank-DETR (row2)의 positive 박스와 negative 박스 시각화. 녹색, 빨간색, 노란색 박스 (점수)는 각각 positive, negative, ground truth 박스 (점수)를 나타낸다.

연산 효율성
Table 6에서는 H-DETR baseline과 우리 접근 방식 모두에 대해 파라미터 수, FLOPs로 측정된 연산 복잡도, epoch당 학습 시간, 초당 추론 프레임(FPS), 그리고 Average Precision 성능에 대한 포괄적인 데이터를 제공한다. 이러한 평가는 RTX 3090 GPU에서 수행되었으며, 이를 통해 테스트 및 학습 효율성을 평가할 수 있었다. 결과는 우리 제안 방법이 FLOPs 및 추론 지연 시간의 약간의 증가만으로도 탐지 성능에서 상당한 향상을 달성했음을 명확하게 보여준다. 효과성과 효율성을 고려할 때, 우리 방법은 3D 객체 탐지 [55, 29], semantic segmentation [39, 33] task, 또는 기타 응용 분야 [23, 24, 25, 21, 22]에 적용될 잠재력을 가지고 있다.

정성적 분석
Figure 5는 매칭된 positive 쿼리와 매칭되지 않은 hard negative 쿼리 모두에 대한 예측 bounding box와 분류 신뢰도 점수를 시각화한다. baseline 방법 (row1)과 비교했을 때, 제안된 접근 방식 (row2)은 positive 샘플의 분류 점수를 효과적으로 높이는 반면, hard negative 쿼리의 점수는 layer별로 진행하면서 빠르게 억제되는 것을 확인했다. 이러한 정성적 결과는 제안된 접근 방식이 false positive rate를 감소시킴으로써 높은 성능을 달성하는 방법을 더욱 명확하게 보여준다.

5 Conclusion

본 논문은 최신 객체 검출기(object detector)의 성능을 향상시키고, RankDETR라는 고품질 객체 검출기를 개발하기 위한 일련의 간단하면서도 효과적인 rank-oriented 설계를 제시한다. 이러한 설계의 효과는 예측의 순위(ranking order)를 더욱 정밀하게 설정하는 데 있으며, 이를 통해 높은 IoU 임계값(threshold)에서도 견고한 성능을 보장한다.
정확한 순위 정보를 네트워크 아키텍처와 최적화 절차에 통합함으로써, 우리의 접근 방식은 DETR 프레임워크 내에서 높은 IoU 임계값 하에 향상된 성능을 보여준다.
rank-oriented 설계를 활용할 여지는 여전히 많지만, 우리의 초기 연구가 고품질 객체 검출기를 구축하기 위한 미래 노력에 영감이 되기를 바란다.