Kim, Sunzyeon, Donghyun Kim, and Suha Kwak. "Learning Unified Distance Metric Across Diverse Data Distributions with Parameter-Efficient Transfer Learning." 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2025.

Learning Unified Distance Metric Across Diverse Data Distributions with Parameter-Efficient Transfer Learning

Abstract

metric learning에서 흔히 사용되는 방법은 각 데이터셋마다 embedding 모델을 학습하고 테스트하는 것이다. 이러한 데이터셋-특정(dataset-specific) 접근 방식은 여러 이질적인 데이터 분포를 포함하는 실제 시나리오를 시뮬레이션하는 데 실패한다.
이러한 관점에서 우리는 **Unified Metric Learning (UML)**이라는 새로운 metric learning 패러다임을 탐구한다. UML은 여러 데이터 분포 간의 관계를 포착할 수 있는 통합된 거리 metric을 학습한다. UML은 불균형한 데이터 분포와 지배적인 분포에 대한 편향과 같은 새로운 도전 과제를 제시한다. 이러한 문제들로 인해 표준 metric learning 방법들은 통합된 metric을 학습하는 데 실패한다.
이러한 도전 과제를 해결하기 위해 우리는 사전학습된 고정(frozen) 모델과 **두 개의 추가 모듈(stochastic adapter 및 prompt pool)**로 구성된 **Parameter-efficient Unified Metric leArning (PUMA)**을 제안한다. 이 모듈들은 지배적인 분포에 대한 편향을 피하면서 데이터셋-특정 지식을 포착할 수 있게 한다.
또한, 우리는 총 8개의 다른 데이터셋으로 구성된 새로운 통합 metric learning 벤치마크를 구축한다. PUMA는 state-of-the-art 데이터셋-특정 모델보다 약 69배 적은 학습 가능한 파라미터를 사용하면서도 더 뛰어난 성능을 보인다.

1. Introduction

Deep metric learning은 머신러닝 분야에서 대표적인 접근 방식으로 부상했으며, 특히 데이터 샘플 간의 **의미론적 거리(semantic distance)**를 이해하는 데 효과적이다. 이 접근 방식은 심층 신경망(deep neural networks)의 능력을 활용하여, 샘플 간의 실제 내재된 **의미론적 유사성(semantic similarity)**을 근사하는 고도로 비선형적인 거리 metric을 학습할 수 있게 한다. 이는 시각 인식 [2, 40], 검색 시스템 [17, 52], 추천 시스템 [14, 27], 표현 학습(representation learning) [5, 13, 22] 등 광범위한 응용 분야에서 핵심적인 역할을 한다.
Metric learning 방법론들은 놀라운 발전을 이루었지만, 일반적으로 단일 도메인 내에서 metric을 학습하는 데 중점을 둔다. 그러나 실제 응용 분야에서는 이러한 가정이 종종 위배되며, **여러 이질적인 데이터 분포(heterogeneous data distributions)**를 포함한다. 예를 들어, 검색 시스템의 사용자는 상당히 다른 의미와 다양한 분포를 가진 데이터를 쿼리할 수 있다. 이 문제에 대한 단순한 해결책은 각기 다른 데이터 분포마다 여러 모델을 학습시키고, 앙상블 기법을 통해 결합하거나 쿼리에 따라 모델을 전환하는 것이다. Figure 1(a)에 설명된 이 과정은 각 데이터 분포에 가장 효과적인 모델 또는 조합을 찾기 위해 광범위한 계산 자원을 요구한다.

최근 metric learning 연구들은 단일 모델로 여러 세분화된 객체 유형에 일반화할 수 있는 통합 임베딩 솔루션을 개발하여 [1, 50], 실제 시나리오에서 **확장성(scalability)**을 확보하는 것을 목표로 하고 있다. 우리가 **Unified Metric Learning (UML)**이라고 부르는 이 접근 방식은 여러 데이터 분포에 걸쳐 의미론적 유사성을 포착하는 통합 거리 metric을 학습하고자 한다. UML은 다양한 출처에서 파생된 복합 데이터셋을 단일 모델로 학습하며, 이때 데이터의 출처를 나타내는 레이블은 사용하지 않는다. 이는 다양한 출처에서 데이터가 수집되고 모델이 이질적인 데이터 분포에 걸쳐 일반화해야 하는 실제 시나리오를 반영한다.

이전 연구들 [1, 50]이 데이터셋을 제공함으로써 이 방향으로 진전을 이루었지만, UML이 제기하는 도전 과제들을 완전히 다루거나 분석하지는 못했다. 우리의 연구는 이러한 도전 과제들이 단순히 다양한 데이터 소스를 통합하는 것을 넘어선다는 것을 밝혀냈다. 주요 도전 과제 중 하나는 서로 다른 소스에서 얻은 데이터 양의 불균형이다. 이러한 불균형은 데이터 소스 간의 접근성 및 어노테이션 비용 차이로 인해 자연스럽게 발생한다. 우리의 분석에 따르면, Figure 1(b)에 묘사된 이전 연구 [50]와 유사하게 여러 소스의 결합된 데이터에 대해 naive fine-tuning을 수행하면, 데이터 양이 많은 소스에 강하게 편향된 모델이 생성된다. 또 다른 도전 과제는 데이터 소스별로 핵심적인 판별 feature의 가변성이다. 예를 들어, 색상은 새의 종을 구별하는 데 중요할 수 있지만, 차량 유형을 구별하는 데는 관련이 없거나 심지어 오해의 소지가 있을 수 있다. 따라서 모델은 효과적인 UML을 달성하기 위해 각 데이터 소스에서 특정 판별 feature를 포착하는 방법을 학습해야 한다.

Figure 1. 기존 및 통합 metric learning 방법 비교. (a) 기존 metric learning은 개별 데이터셋마다 별도의 모델을 사용하며, 데이터 다양성이 증가함에 따라 상당한 계산 및 메모리 비용이 발생한다. (b) 단순한 해결책은 병합된 데이터셋에 대해 모델을 fine-tuning하는 것이지만, 이는 종종 주요 데이터 분포에 대한 심각한 편향을 초래한다. (c) 이와 대조적으로, 우리의 방법은 단 하나의 모델로 모든 데이터셋에서 뛰어난 성능을 발휘한다. 이는 단일 모델을 사용하여 다양한 데이터 분포에 대해 한 번의 학습 및 평가를 가능하게 하므로 매우 자원 효율적이다.

이러한 도전 과제들을 해결하기 위해 우리는 **기존 metric learning과는 완전히 다른 방향의 새로운 접근 방식인 Parameter-efficient Unified Metric leArning (PUMA)**을 제안한다. 대부분의 기존 metric learning 접근 방식이 새로운 metric 설계 개발에 중점을 두는 반면, PUMA는 아키텍처 관점에서 UML을 다룬다. PUMA는 단일 임베딩 모델을 통해 통합된 의미론적 유사성을 포착하면서, 소스 간 데이터 양의 불균형을 완화하는 것을 목표로 한다. 이를 달성하기 위해 우리는 parameter-efficient fine-tuning [12, 15, 25, 31]의 최근 발전에서 영감을 얻었다. 우리의 핵심 아이디어는 대규모 데이터셋으로 사전학습된 모델의 파라미터를 고정하여 일반화 능력(generalization capability)을 보존하는 것이다. 그런 다음 우리는 두 가지 모듈을 도입한다: 하나는 특정 데이터 소스에 편향되지 않고 모든 소스에 걸쳐 공통 지식(common knowledge)을 학습하는 모듈이고, 다른 하나는 최소한의 추가 파라미터로 소스별 지식(source-specific knowledge)을 학습하는 모듈이다.

구체적으로, PUMA는 **사전학습된 Vision Transformer (ViT)**를 기반으로 구축되며, stochastic adapters와 prompt pool이라는 두 가지 추가 모듈을 통합한다 (Figure 1(c) 참조). Stochastic adapters는 모든 데이터 소스에 걸쳐 지식을 학습하는 경량 모듈이며, 해당 Transformer 블록과 병렬로 작동한다. 이들의 작동은 학습 중에 무작위로 꺼지도록(switched off) 설정되어, adapted features 또는 사전학습된 모델 features를 무작위로 제공함으로써 특정 소스에 대한 편향을 방지한다. 이 접근 방식은 parameter-efficient하며 다양한 데이터 분포에 걸쳐 성능을 향상시킨다. 반면에 prompt pool은 각 데이터 분포의 고유한 특성을 실시간으로 고려하는 조건부 prompt를 구축한다. Key-value 메모리 구조로 구성된 prompt pool은 attention 메커니즘을 사용하여 관련 prompt를 집계함으로써 입력에 기반한 조건부 prompt를 동적으로 생성한다. 이러한 prompt는 입력 시퀀스에 추가되어 데이터 소스의 고유한 속성을 표현할 수 있게 한다.

UML 접근 방식을 종합적으로 평가하기 위해 우리는 다양한 도메인과 클래스의 8개 데이터셋으로 구성된 벤치마크를 구축했다. 이 벤치마크는 표준 metric learning 데이터셋 [23, 26, 39, 48]을 포함하여 기존 metric learning 방법들 [8, 21, 34, 35, 49]과의 직접적인 비교를 가능하게 하는 동시에 새로운 도메인으로 평가를 확장한다. 우리의 단일 모델은 기존 metric learning 기술을 사용하여 여러 소스의 결합된 데이터로 학습된 모델들을 크게 능가한다. 놀랍게도, 각 데이터셋에 개별적으로 학습된 대부분의 모델들을 능가하며, 이를 69배 적은 학습 가능한 파라미터로 달성한다. 본 논문의 기여는 세 가지이다:

우리는 UML에서 데이터 양 불균형과 feature 가변성을 각각 해결하기 위해 stochastic adapters와 prompt pool을 활용하는 새로운 방법인 PUMA를 제안한다.
우리는 8개의 다양한 데이터셋으로 UML을 위한 새로운 벤치마크를 구축하고, 이 벤치마크에서 loss variants를 가진 기존 metric learning 방법과 기존 parameter-efficient fine-tuning 전략을 조사한다.
광범위한 실험을 통해 PUMA가 개별 소스에 특화된 모델들을 포함한 state-of-the-art 모델들을 69배 적은 학습 가능한 파라미터로 능가함을 입증한다.

Deep Metric Learning.
Deep Metric Learning은 앵커(anchor)에 의미적으로 유사한 샘플(positive)은 가깝게 당기고, 유사하지 않은 샘플(negative)은 멀리 밀어냄으로써 데이터의 근본적인 의미론적 유사성(semantic similarity)을 근사하는 metric function을 학습하는 것을 목표로 한다. 이 목표를 달성하기 위해 손실 함수(loss function) 개발이 이 분야의 주요 초점이었으며, 일반적으로 pair-based loss와 proxy-based loss로 분류된다.
Pair-based loss는 쌍 [3, 6, 11, 49], 삼중항(triplets) [35, 44] 또는 더 고차원의 튜플(tuples) [37-39, 45, 46] 간의 관계를 고려한다. 이들은 샘플 간의 미세한(fine-grained) 관계를 포착할 수 있지만, 학습 데이터 수가 증가함에 따라 학습 복잡도가 증가하는 문제를 겪는다.
Proxy-based loss는 동일 클래스의 학습 데이터를 나타내기 위해 proxy라고 불리는 학습 가능한 파라미터를 도입하여 이러한 복잡도 문제를 해결한다. 이들은 데이터와 proxy 간의 관계를 고려함으로써 모든 데이터 간의 관계를 검사하는 복잡도를 크게 줄인다. 이 방향에서, 접근 방식들은 proxy를 사용하여 pair-based loss를 근사하거나 [21, 29, 32] cross-entropy loss를 수정해왔다 [8, 41, 43, 51].
기존 metric learning 방법들은 주로 개별 데이터셋 내의 특정 분포에 초점을 맞추었다. 최근 [1, 50]의 연구는 unified metric learning을 위한 데이터셋을 제안했지만, 그들의 방법은 classification loss를 통한 fine-tuned 모델에만 국한된다. 우리의 연구는 매개변수 효율적인(parameter-efficient) 기술을 통해 UML의 고유한 도전 과제를 해결함으로써 이를 넘어선다.

Parameter-Efficient Fine-Tuning (PEFT).
**대규모 사전학습 모델(large-scale pre-trained models)**은 다양한 다운스트림 task에서 상당한 성능 향상을 보여주었다. 모델 크기와 task 수가 증가함에 따라, 사전학습 모델의 지식을 최대한 활용하면서 catastrophic forgetting 없이 학습 가능한 파라미터의 작은 부분/수만 업데이트하여 다양한 다운스트림 task에 적응하기 위한 parameter-efficient fine-tuning (PEFT) 접근 방식이 개발되었다 [12, 15, 16, 31, 33].
Low-rank adaptation [16]은 파라미터 업데이트를 근사화하기 위해 제안되었으며, 경량 어댑터 모듈(light-weight adapter modules) [15, 31]은 fine-tuning 중에 사전학습된 layer 사이에 삽입될 수 있다.
Prefix/prompt tuning [24, 25, 36, 47]은 backbone을 고정한 채 fine-tuning 중에 추가적인 학습 가능한 토큰(soft prompts)을 추가하는 방식으로 도입되었다.
metric learning 분야에서는 semantic proxy를 생성하기 위해 prompt를 튜닝하는 단 하나의 선행 연구 [34]만이 존재한다. 그러나 기존의 모든 PEFT 방법들은 단일 데이터 분포만을 처리하도록 설계되었다. 우리는 metric learning에서 여러 데이터 분포를 처리할 수 있는 효율적인 튜닝 방법을 제안하는 최초의 연구이다.

3. Unified Metric Learning

이 섹션에서는 먼저 기존의 metric learning을 검토한 다음, UML(Unsupervised Metric Learning) 설정을 소개하고 그 기술적 도전 과제에 대해 논의한다.

3.1. Revisiting Conventional Metric Learning

Metric learning은 주어진 데이터셋 $S$ 내의 샘플들 간의 **의미론적 비유사성(semantic dissimilarity)**을 포착하는 **거리 함수(distance function)**를 학습하는 task이다. 이러한 거리 함수 $d$ 는 다음 조건을 만족한다:

d\left(x, x^{+} ; \theta\right)<d\left(x, x^{-} ; \theta\right) \quad \forall\left(x, x^{+}, x^{-}\right),

여기서 $x^{+}$ 는 $x$ 와 동일한 클래스에 속하는 positive sample을, $x^{-}$ 는 $x$ 와 다른 클래스에 속하는 negative sample을 나타내며, $\theta$ 는 모델 파라미터를 의미한다. Deep metric learning은 심층 신경망을 고차원 embedding 함수로 학습하고, Euclidean 또는 cosine distance를 사용하여 embedding 벡터 간의 거리를 계산함으로써 이를 달성한다.

	CUB	Cars	SOP	In-shop	NABirds	Dogs	Flower	Aircraft	Total
Train Samples	5.8 K	8.0 K	59.5 K	25.8 K	22.9 K	10.6 K	3.5 K	5 K	141.4 K
Train Classes	100	98	11.3 K	3.9 K	278	60	51	50	15.9 K
Test Samples	5.9 K	8.1K	60.5 K	28.7 K	25.6 K	9.9 K	4.7 K	5 K	148.5 K
Test Classes	100	98	11.3 K	3.9 K	277	60	51	50	15.9 K

Table 1. 데이터셋 통계: 학습 및 테스트에 사용된 훈련 이미지 수와 해당 클래스.

Metric learning은 학습 시 보지 못한 클래스에 대한 일반화를 목표로 한다. 따라서 일반적인 설정은 학습을 위해 클래스 집합 $C_t$ 와 그에 해당하는 레이블된 샘플 $S_t = \{(x_t, y_t) \mid y_t \in C_t\}$ 를 사용하고, 학습된 embedding 모델을 보지 못한 클래스 집합 $S_u = \{(x_u, y_u) \mid y_u \in C_u\}$ 에 대해 평가한다. 여기서 $C_t \cap C_u = \varnothing$ 이고 $S_t \cup S_u = S$ 이다. 이 관례는 단일 데이터셋 내에서의 일반화만을 고려한다.

3.2. Problem Formulation of UML

**UML(Unified Metric Learning)**은 기존 metric learning의 확장으로, 단일 임베딩 모델을 사용하여 여러 이질적인 데이터 분포를 처리하는 도전적이고 실용적인 문제를 해결한다. UML의 목표는 각 분포 내에서 클래스 내 compactness와 클래스 간 separability를 유지하면서, 여러 분포에 걸쳐 샘플 간의 다양한 관계를 효과적으로 포착할 수 있는 통합된 거리 metric을 학습하는 것이다. UML에서는 모델이 데이터가 여러 소스에서 유래했다는 것을 인지하지 못한 채, 단일 데이터셋을 다루는 것처럼 학습된다. 이는 멀티모달 분포의 대규모 데이터셋이나 실제 응용 분야에서 여러 작은 데이터셋의 조합과 같이, 다양한 소스에서 데이터가 수집되는 실제 시나리오를 반영한다.

이를 실제로 시뮬레이션하기 위해, 우리는 개별 데이터 분포를 나타내기 위해 특정 데이터셋을 사용한다. 간결함을 위해 이러한 개별 데이터 분포 또는 도메인을 단순히 데이터셋이라고 지칭한다. $N_s$ 개의 데이터셋이 $S^1, S^2, \cdots, S^{N_s}$ 로 주어졌다고 가정하고, 통합 데이터셋 $\mathbb{S}=\cup_{i=1}^{N_s} S^i$ 를 정의한다. 통합 임베딩 함수를 학습하기 위해, UML은 모든 데이터셋의 학습 데이터를 통합한 $\mathbb{S}_t=\cup_{i=1}^{N_s} S_t^i$ 를 활용한다. 학습된 통합 거리 함수는 일반화 능력을 평가하기 위해 두 가지 방식으로 평가된다.

첫째, 통합된 미지의 테스트 데이터 $\mathbb{S}_u=\cup_{i=1}^{N_s} S_u^i$ 에 대해 평가하여 universal accuracy를 측정한다. 이는 특정 데이터셋에 편향되지 않고 모든 데이터셋에 걸쳐 의미론적 유사성을 이해하는 모델의 능력을 보여준다.

둘째, 각 데이터셋 $S_u^i$ 의 미지의 테스트 데이터에 대해 개별적으로 거리 함수를 평가하여 각 데이터셋에 대한 특정 의미론적 유사성을 파악하는 모델의 능력을 평가한다.

3.3. Challenges in UML

UML은 Table 1에서 보여지듯이, **크게 다른 규모의 데이터셋들을 통합할 때 발생하는 데이터셋 불균형(dataset imbalance)**이라는 새로운 도전에 직면한다. 이러한 불균형은 데이터 유형의 다양한 특성과 클래스 레이블링의 난이도로 인해 자연스럽게 발생한다. 예를 들어, 일상적인 객체 데이터는 fine-grained 객체 클래스나 전문가 지식을 요구하는 데이터에 비해 수집 및 주석 작업이 더 쉽다. 이는 각 데이터셋에서 사용 가능한 샘플 수의 불균형으로 이어진다. metric learning에서 이러한 불균형은 각 배치(batch) 내 샘플의 상당 부분이 더 큰 데이터셋에서 오게 하여, 모델이 해당 데이터셋의 관계에 과도하게 집중하게 만들고, 결과적으로 데이터셋 편향(dataset bias)을 도입하게 된다.

UML의 또 다른 도전 과제는 클래스 판별(class-discriminative) feature가 모든 데이터셋에서 공유되지 않는다는 점이다. 이 문제는 서로 다른 데이터 분포 간의 불균형으로 인해 발생한다. 각 분포는 샘플 간의 관계를 정의하는 고유한 특성을 가지며, 이는 다른 분포의 특성과 충돌할 수 있다. 예를 들어, 색상은 새 종을 구별하는 데 중요할 수 있지만, 다른 차량 유형을 구별하는 데는 방해가 될 수 있다. 따라서 통합된 데이터셋으로 학습하는 것은 두 가지 잠재적인 문제를 야기할 수 있다. 첫째, 모델이 특정 데이터 분포에 특화된 클래스 판별 feature에 집중하면, 해당 feature가 관련 없는 데이터셋에서는 성능을 저해할 수 있다. 둘째, 모델이 모든 데이터셋에서 공유되는 공통점에만 집중하면, 샘플 간의 fine-grained 차이를 포착하는 판별력이 떨어질 수 있다.

더욱이, UML은 기존 metric learning에서 계승된 미지의 클래스(unseen classes)에 대한 일반화(generalization) 문제를 여전히 안고 있다. 그러나 UML은 다양하고 불균형한 데이터 분포를 다루기 때문에 이 문제가 더욱 어려워진다. 이러한 다양한 데이터셋을 위에서 언급한 문제들에 직면하지 않고 처리하는 간단한 방법은 여러 모델을 학습시킨 후 앙상블(ensembling)하는 전통적인 전략을 채택하는 것이다. 하지만 이 접근 방식은 막대한 수의 파라미터와 상당한 계산 자원을 요구한다. 대신, 우리는 위의 모든 도전 과제들을 우아하게 해결하는 파라미터 효율적인(parameter-efficient) 접근 방식을 소개한다.

4. Proposed Method

우리는 UML에 대한 새로운 접근 방식인 **Parameter-efficient Unified Metric leArning (PUMA)**를 제안한다. 전체 모델 파라미터를 fine-tuning하는 기존의 metric learning 방법과 달리, PUMA는 대규모 사전학습 모델을 튜닝하지 않고도 다양한 데이터 분포에 걸쳐 일반화 능력을 유지한다. 대신, 우리는 통합된 데이터셋으로부터 데이터셋별 지식을 학습하는 작은 추가 모듈을 활용한다. Fig. 2에서 보여주듯이, PUMA는 사전학습된 ViT를 backbone으로 사용하며, stochastic adapter와 prompt pool을 추가 모듈로 채택한다. 이에 대한 자세한 내용은 이 섹션의 나머지 부분에서 설명한다.

4.1. Preliminaries: ViT

**ViT [9]**는 patch embedding layer와 $L$ 개의 순차적인 Transformer layer로 구성된 encoder로 이루어져 있다. patch embedding layer는 입력 이미지 $x$ 를 **image patch embedding $E \in \mathbb{R}^{N_{c} \times D}$ **로 분할한다. 여기서 $N_e$ 는 patch embedding의 수를 나타내고, $D$ 는 embedding 차원이다. Transformer encoder의 입력 시퀀스는 학습 가능한 **class token embedding $e_{\mathrm{cls}} \in \mathbb{R}^{D}$ **에 image patch embedding을 추가하여 다음과 같이 구성된다:

z_{0}=\left[e_{\mathrm{cls}}, E\right] .

각 Transformer layer는 multi-headed self-attention (MSA) 및 multilayer perceptron (MLP) 블록으로 구성되며, 모든 블록 전에 **layer normalization (LN)**이 적용되고, 모든 블록 후에 residual connection이 적용된다:

\begin{array}{ll} z_{\ell}^{\prime}=\operatorname{MSA}\left(\mathrm{LN}\left(z_{\ell-1}\right)\right)+z_{\ell-1}, & \ell=1, \ldots, L \\ z_{\ell}=\operatorname{MLP}\left(\mathrm{LN}\left(z_{\ell}^{\prime}\right)\right)+z_{\ell}^{\prime}, & \ell=1, \ldots, L \end{array}

4.2. Stochastic Adapter

모델을 대규모 데이터셋에 편향되지 않도록 통합된 데이터셋에 효과적으로 적응시키기 위해, 모든 데이터가 공유하는 학습 가능한 파라미터를 추가하는 방식은 적응을 가능하게 하지만, 이는 불균형한 데이터 분포 문제로 인해 추가 파라미터가 주요 분포에 편향될 수 있다. 우리는 이 문제를 **확률적 적응(stochastic adaptation)**을 통해 해결한다. 이 방식은 적응된 feature에만 의존하는 대신, 사전학습된 모델의 일반화 가능한 feature와 적응된 feature를 모두 고려하는 embedding space를 허용한다. 이는 embedding space가 주요 데이터 분포에 편향되는 것을 완화하면서도, 각 데이터셋에 특화된 지식을 학습할 수 있는 능력을 제공한다.

우리의 adapter는 파라미터 효율성을 위해 bottleneck 구조를 가지며, 모든 Transformer 블록과 병렬로 연결된다. adapter는 down-projection layer $W_{\text {down }} \in \mathbb{R}^{D \times r}$ , ReLU 활성화 layer, 그리고 **up-projection layer $W_{\text {up }} \in \mathbb{R}^{r \times D}$ **로 구성된다. Fig. 2에서 볼 수 있듯이, 각 Transformer layer는 두 개의 병렬 adapter를 가진다: 하나는 MSA 블록과 함께, 다른 하나는 MLP 블록과 함께 연결된다. $\ell$ -번째 Transformer layer의 입력과 $\ell$ -번째 MSA layer의 출력이 주어졌을 때, adapter의 출력은 다음과 같이 생성된다:

\begin{aligned} & \tilde{z}_{\ell}^{\prime}=\operatorname{ReLU}\left(\mathrm{LN}\left(z_{\ell-1}\right) \cdot W_{\mathrm{down}}^{\prime}\right) \cdot W_{\mathrm{up}}^{\prime} \\ & \tilde{z}_{\ell}=\operatorname{ReLU}\left(\mathrm{LN}\left(z_{\ell}^{\prime}\right) \cdot W_{\mathrm{down}}\right) \cdot W_{\mathrm{up}}, \end{aligned}

여기서 $W_{\text {down }}^{\prime}$ 과 $W_{\text {up }}^{\prime}$ 은 각각 $W_{\text {down }}$ 과 $W_{\text {up }}$ 과 동일한 형태를 가진다. adapter의 출력 feature는 무작위 이진 마스크(random binary masks)와 곱해진 후, residual connection을 통해 Transformer 블록(즉, MSA 및 MLP)의 출력과 결합된다:

\begin{aligned} & z_{\ell}^{\prime}=\operatorname{MSA}\left(\mathrm{LN}\left(z_{\ell-1}\right)\right)+z_{\ell-1}+\gamma_{\ell}^{\prime} \cdot \tilde{z}_{\ell}^{\prime} \\ & z_{\ell}=\operatorname{MLP}\left(\mathrm{LN}\left(z_{\ell}^{\prime}\right)\right)+z_{\ell}^{\prime}+\gamma_{\ell} \cdot \tilde{z}_{\ell} \end{aligned}

Figure 2. PUMA 개요. PUMA는 두 가지 학습 가능한 모듈로 구성된다: 확률적 adapter (stochastic adapters) (Sec. 4.2)와 프롬프트 풀 (prompt pool) (Sec. 4.3). Transformer의 embedding layer 출력을 쿼리로 사용하여, 어텐션 메커니즘을 통해 관련 프롬프트를 통합하여 조건부 프롬프트를 생성한다. 이 조건부 프롬프트는 이미지 embedding 및 class token과 결합된 후 Transformer에 입력된다. 수정된 입력은 Transformer 블록을 통해 embedding되며, 각 블록은 확률적 adapter와 연결된다. 이 adapter는 학습 중에 확률적으로 활성화되는 학습 가능한 bottleneck 모듈이다.

여기서 $\gamma_{\ell}^{\prime}$ 와 $\gamma_{\ell}$ 은 Bernoulli( $p$ ) 분포에서 독립적으로 추출된 변수이며, $p$ 는 확률적 adapter의 keep probability이다.

4.3. Conditional Prompt Learning

Conditional prompt learning은 모든 데이터가 공유하는 파라미터가 주요 데이터 분포에 의해 지배되는 문제를 극복하는 것을 목표로 한다. 우리는 각 데이터셋에 대해 더욱 판별력 있는 feature를 학습하기 위해 conditional prompt learning을 제안한다. 우리는 각 데이터셋 내의 이미지가 다른 데이터셋의 이미지와 구별되는 공유된 특성을 나타낸다고 가정한다. 우리의 목표는 attention mechanism을 통해 prompt 세트 중에서 입력 데이터와 관련된 prompt를 학습하고 활용하는 것이다.

이를 위해 먼저 입력 이미지 $x$ 를 인코딩하는 query feature가 추출된다. Query feature는 입력 이미지의 데이터 분포를 파악할 수 있어야 하며, 이를 얻는 데 적은 연산량이 요구되어야 한다. 이러한 요구 사항을 고려하여, 우리는 Sec. 4.1에서 이미지 패치 embedding $E$ 에 pooling 연산을 사용하여 $x$ 에 대한 간단한 query feature를 설계한다:

q=\operatorname{AvgPool}(E)+\operatorname{MaxPool}(E), \quad q \in \mathbb{R}^{D} .

다음으로, 우리는 prompt pool을 도입한다. 이는 prompt와 입력 조건화를 위한 추가 파라미터를 함께 저장하는 공간이다. $P_{m} \in \mathbb{R}^{N_{p} \times D}$ 는 pool 내의 prompt를 나타내며, 여기서 $N_{p}$ 는 prompt의 token 길이이다. $M$ 개의 prompt를 가진 prompt pool은 다음과 같이 주어진다:

\mathbf{P}=\left\{\left(P_{1}, K_{1}, A_{1}\right), \cdots,\left(P_{M}, K_{M}, A_{M}\right)\right\},

여기서 $K_{m} \in \mathbb{R}^{D}$ 는 prompt의 key를 나타내고, $A_{m} \in \mathbb{R}^{D}$ 는 query vector의 특정 feature 차원을 강조하는 학습 가능한 파라미터인 feature attention vector이다.

Figure 3. 각 데이터셋에 대한 입력 query와 prompt 간의 평균 유사도. $x$ 축은 prompt index를 나타낸다.

Query feature는 feature attention vector와 element-wise로 곱해져 attended query를 생성하고, 이는 prompt key와 짝을 이루어 매칭된다. 가중치 벡터는 attended query와 prompt key 간의 코사인 유사도를 기반으로 계산되며, 이는 다음과 같이 주어진다:

\alpha_{m}=s\left(q \otimes A_{m}, K_{m}\right)

여기서 $s(\cdot, \cdot)$ 는 두 벡터 간의 코사인 유사도를 나타내고, $\otimes$ 는 feature 차원에 대한 element-wise 곱셈 연산을 나타낸다. 입력 이미지 $x$ 의 conditional prompt는 prompt들의 가중합으로 계산된다:

\hat{P}=\sum_{m=1}^{M} \alpha_{m} P_{m},

마지막으로, 이는 Transformer encoder의 입력 시퀀스에 삽입된다:

z_{0}=\left[e_{\mathrm{cls}}, \hat{P}, E\right] .

이 과정은 각 prompt가 Fig. 3에 묘사된 것처럼 특정 데이터 분포를 기반으로 이미지를 조건화할 수 있도록 한다. 특히, CUB 데이터셋은 관련 NABird 데이터셋과 강한 정렬 경향을 보이지만, In-shop 데이터셋과는 다른 prompt를 선호한다.

Methods	Trainable Params (M)	Dataset-Specific Accuracy								Universal Accuracy
		CUB	Cars	SOP	InShop	NABird	Dog	Flowers	Aircraft	Unified	Harmonic
Zero-Shot	0.0	83.1	47.8	60.3	41.5	78.3	86.8	99.3	48.1	62.2	62.1
(a) Dataset-specific metric learning (Full fine-tuning)
Triplet [35]	173.7	81.1	75.2	80.2	87.4	75.2	81.0	99.1	64.7	57.6	79.4
Margin [49]	173.7	79.4	78.0	79.8	86.0	74.6	80.3	99.0	66.8	58.1	79.6
MS [45]	173.7	80.0	83.7	81.4	90.8	68.1	75.8	97.4	64.7	61.6	78.9
Proxy-Anchor [21]	173.7	80.2	83.7	84.4	91.5	69.6	84.2	99.0	67.9	57.4	81.4
SoftTriple [32]	173.7	80.5	80.0	82.9	88.7	75.9	82.1	99.3	65.4	63.4	80.8
CosFace [43]	173.7	78.8	83.2	83.2	89.6	71.4	79.2	99.2	61.4	61.5	79.3
ArcFace [8]	173.7	76.8	79.4	83.4	90.3	61.0	76.1	99.2	60.0	58.8	76.2
CurricularFace [18]	173.7	79.7	81.3	83.2	88.2	75.3	81.2	99.1	63.9	62.9	80.4
Hyp [10]	173.7	78.8	78.2	83.6	91.5	71.0	72.6	98.7	65.7	15.7	78.8
(b) Unified metric learning (Full fine-tuning)
Triplet [35]	21.7	74.5	35.4	80.2	85.7	68.2	77.1	98.7	40.9	72.0	57.7
Margin [49]	21.7	72.5	36.7	80.0	84.1	67.4	74.8	98.5	40.4	71.6	57.4
MS [45]	21.7	66.3	22.9	78.9	87.2	58.6	69.8	97.3	31.5	67.8	47.3
Proxy-Anchor [21]	21.7	77.2	73.1	83.7	91.9	71.5	78.1	96.4	62.7	77.9	71.0
SoftTriple [32]	21.7	78.9	77.0	81.3	88.6	73.8	79.3	99.1	64.4	77.6	72.7
CosFace [43]	21.7	74.2	73.5	82.5	90.0	69.7	74.1	98.7	59.7	76.6	69.6
ArcFace [8]	21.7	70.8	25.9	63.9	58.9	64.0	70.3	97.2	31.7	59.2	47.2
CurricularFace [18]	21.7	78.3	77.9	82.0	89.1	73.0	79.3	99.1	65.6	77.9	79.5
Hyp [10]	21.7	79.2	60.6	83.5	90.9	73.6	81.9	99.1	56.3	77.7	69.4
(c) Unified metric learning (Parameter-efficient fine-tuning)
Linear Embedding	0.1	82.1	49.7	70.5	65.5	77.9	86.2	99.1	47.6	69.3	68.2
MLP-3 Embedding	5.3	57.5	29.7	63.1	63.2	50.6	64.5	93.6	32.8	56.5	50.3
VPT [19]	0.1	83.5	50.3	73.6	72.2	80.3	84.2	99.2	50.2	71.9	70.4
LoRA [16]	2.4	77.0	70.9	81.3	86.2	70.8	79.1	98.9	59.7	76.1	76.5
AdaptFormer [4]	2.4	77.0	77.0	83.7	90.7	72.3	78.5	99.0	63.9	78.5	79.0
VPTSP-G [34]	124.8	75.7	41.0	77.9	78.3	70.4	81.6	98.8	41.7	71.4	64.6
Ours	2.5	83.9	84.3	84.0	89.8	79.2	84.1	99.3	72.6	81.3	84.1

Table 2. 8개 데이터셋에 대한 metric learning baseline 및 우리의 Recall@1 결과. Zero-shot 모델을 제외하고, 네트워크 아키텍처는 ViT-S/16 [9]이며 128 embedding dimension을 사용한다. 모든 방법은 UML 벤치마크에서 재구현 및 새로 평가되었다. VPTSP-G [34]는 클래스별 학습 가능한 prompt를 사용하여 semantic proxy를 생성하며, 이는 UML의 많은 클래스 수로 인해 상당한 수의 파라미터를 필요로 한다.

5. Experiments

5.1. Experimental Setup

데이터셋 (Datasets)
UML(Unified Metric Learning) 설정에서는 총 8개의 데이터셋을 조합하여 사용한다. 이 중 4개는 널리 알려진 벤치마크인 **CUB [48], Cars-196 [23], Standford Online Product (SOP) [39], In-shop Clothes Retrieval (InShop) [26]**이다. 여기에 추가로 **NABirds [42], Dogs [20], Flowers [30], Aircraft [28]**의 4개 fine-grained 데이터셋을 포함한다. 전체 데이터셋 통계는 Table 1에 제시되어 있다.
결합된 데이터셋은 141,404개의 학습 이미지와 148,595개의 테스트 이미지로 구성된다. 특히, 이 데이터셋은 SOP 및 In-Shop과 같은 대규모 데이터셋의 이미지가 많은 부분을 차지하여 데이터 분포가 불균형하다는 특징을 보인다.

기준 모델 (Baselines)
우리는 세 가지 다른 학습 전략을 기준으로 우리의 모델을 벤치마킹한다.

개별 데이터셋에서만 학습된 모델은 dataset-specific metric learning이라고 부르며,
여러 데이터셋에서 학습된 모델은 **unified metric learning (UML)**이라고 부른다.

(a) Dataset-specific metric learning (Full fine-tuning):
이 모델들은 전통적인 metric learning 프로토콜을 따른다. 즉, backbone과 embedding layer의 모든 파라미터가 업데이트된다. 각 모델은 Fig. 1(a)에 묘사된 바와 같이 개별 데이터셋에 특화되어 학습된다. 이 접근 방식에서는 Triplet [35], Margin [49], MS [45], ProxyAnchor (PA) [21], SoftTriple [32], CosFace [43], ArcFace [8], CurricularFace [18], Hyp [10] 등 다양한 유명 metric learning loss를 사용한다.

(b) Unified metric learning (Full fine-tuning):
이 모델들은 Fig. 1(b)에 나타난 바와 같이 여러 데이터셋의 통합(union)을 사용하여 앞서 언급된 loss들로 완전히 fine-tuning된다.

(c) Unified metric learning (Parameter-efficient fine-tuning):
이 모델들은 fine-tuning 과정에서 backbone 파라미터의 일부만 업데이트하거나, backbone에 새로운 학습 가능한 파라미터를 추가한다. 기존 방법들은 dataset-specific 학습을 위해 설계되었지만, 우리는 공정한 비교를 위해 이들을 UML에 구현하고 단순하게 적용한다.
우리는 embedding layer에 초점을 맞춘 두 가지 기술을 탐구한다:

선형(linear) embedding layer만 학습하는 방식,
3계층 multilayer perceptron (MLP-3 Embedding) embedding layer만 학습하는 방식.

또한, 세 가지 주요 parameter-efficient tuning 전략도 고려한다: VPT [19], LoRA [16], AdaptFormer [4].

Prompt		Adapter		Train Param.	Dataset-Specific Accuracy								Universal Accuracy
Sing.	Cond.	Stat.	Stoc.		CUB	Cars	SOP	InShop	NABird	Dog	Flowers	Aircraft	Unified	Harmonic
$\checkmark$	$x$	$x$	$\times$	0.05 M	82.8	51.0	74.7	72.9	78.3	85.5	99.2	50.8	72.3	70.8
$\times$	$\checkmark$	$\times$	$\times$	0.13 M	82.8	54.7	76.8	76.6	78.7	85.8	99.3	53.6	74.0	73.0
$x$	$\times$	$\checkmark$	$\times$	2.41 M	74.5	81.3	83.7	90.4	74.5	81.3	99.0	66.3	79.4	80.8
$\times$	$\times$	$\times$	$\checkmark$	2.41 M	83.6	83.9	83.8	89.9	79.2	84.6	99.4	71.9	81.1	83.9
$\checkmark$	$\times$	$\checkmark$	$x$	2.41 M	79.6	80.0	83.8	90.3	73.7	81.0	99.0	65.4	79.3	80.5
$x$	$\checkmark$	$\times$	$\checkmark$	2.49 M	83.9	84.3	84.0	89.8	79.2	84.1	99.3	72.6	81.3	84.1

Table 3. PUMA와 parameter-efficient transfer learning baseline 간의 비교.
"Sing."은 단일 prompt ( $M=1$ )를, "Cond."는 우리의 conditional prompt ( $M=20$ )를 나타낸다.
"Stat."은 $p=1$ 인 adapter를, "Stoc."은 $p=0.5$ 인 우리의 conditional adapter를 나타낸다.

LoRA와 AdaptFormer는 우리와 동일한 파라미터 수로 스케일링된다. 이 모델들을 학습시키기 위해 CurricularFace loss [18]를 loss function으로 사용한다. 마지막으로, 우리는 metric learning에서 프록시(proxy)를 생성하여 prompt tuning을 수행하는 최신 방법인 Semantic Proxies with GRU fusion (VPTSP-G) [34]와 PA loss를 사용하는 VPT를 구현하고 비교한다.

구현 세부 사항 (Implementation Details)
공정한 비교를 위해 모든 모델은 ImageNet-21K에서 사전학습된 후 ImageNet-1K [7]에서 fine-tuning된 동일한 backbone인 ViT-S/16 [9]을 사용하여 평가된다. 우리는 마지막 layer의 크기를 128로 변경하고, 출력 벡터를 $L_2$ -normalize한다.
Stochastic adapter의 파라미터는 $r=128, p=0.5$ 로 설정하고, conditional prompt는 $N_p=8, M=20$ 으로 설정한다.
별도로 명시되지 않는 한, CurricularFace [18]를 loss function으로 채택한다. 우리는 또한 우리의 방법론에 대해 다양한 loss function과 사전학습된 backbone을 ablation 연구하고, 더 많은 구현 세부 사항을 appendix에 제공한다.

평가 프로토콜 (Evaluation Protocol)
본 논문에서는 Recall@1을 사용하여 성능을 측정하며, R@k, MAP@R, RP에 대한 추가 결과는 appendix에 제시되어 있다.
우리는 각 데이터셋에 대한 개별 query 및 gallery를 사용하여 dataset-specific accuracy를 보고하고, 또한 두 가지 종류의 universal accuracy를 계산한다:

통합된 query 및 gallery 세트를 사용하는 unified accuracy,
이러한 개별 accuracy들의 조화 평균(harmonic mean).

dataset-specific 모델의 통합 성능을 평가하기 위해, 우리는 모든 dataset-specific 모델의 embedding 벡터를 평균하는 앙상블(ensemble) 방식을 사용한다.

5.2. Comparison with Existing Methods

Table 2는 총 8개의 데이터셋에 대한 Recall@1 성능을 보여준다. 데이터셋별 모델의 학습 가능한 파라미터 총 개수는 데이터셋 수가 증가함에 따라 증가한다.

우리의 결과는 PUMA가 모든 비교된 데이터셋별 모델(Table 2(a))을 범용 정확도(universal accuracy) 측면에서 능가함을 보여준다. 또한, 우리의 방법은 각 데이터셋에 대해 선택된 하이퍼파라미터를 사용하지 않음에도 불구하고 In-Shop 및 Dog 데이터셋을 제외한 모든 경우에서 데이터셋별 모델보다 우수한 성능을 보인다. 놀랍게도, 우리의 방법은 이전 기술보다 최대 69배 적은 학습 가능한 파라미터를 사용하면서도 이러한 수준의 성능을 달성한다. 이는 PUMA가 제한된 자원으로 학습될 수 있으며, 더 큰 모델과 더 많은 데이터셋으로 쉽게 확장될 수 있음을 나타낸다. 나아가, 파라미터 효율성을 강조하지 않더라도, 우리의 방법이 데이터셋별 metric learning 접근 방식에 대한 유망한 대안이 될 수 있음을 결과는 강조한다.
Table 2(b)는 기존의 full fine-tuning 방법을 통합 metric learning에 적용한 결과를 보여주며, 작은 데이터셋에서 상당한 성능 저하가 나타남을 드러낸다. 다양한 loss function 중 CurricularFace loss [18]가 다른 loss function보다 더 나은 성능을 보인다. PUMA는 모든 데이터셋에서 일관되게 높은 성능을 달성하며, 통합 정확도(unified accuracy)와 조화 평균 정확도(harmonic mean accuracy)에서 최고의 통합 metric 모델을 각각 3.4% 및 4.6% 능가한다.
다양한 PEFT 방법(Table 2(c)) 중 오직 우리의 방법만이 대부분의 fully fine-tuned 모델보다 우수한 성능을 보인다. linear embedding 및 VPT [19]와 같이 학습 가능한 파라미터 수가 적은 모델은 Cars, SOP, In-Shop과 같은 데이터셋에서 현저히 낮은 성능을 보인다. AdaptFormer [4] 및 LoRA [16]는 우리의 방법과 유사한 파라미터를 사용하지만, full fine-tuning과 유사하게 대규모 데이터셋에 편향을 보인다. metric learning 분야의 state-of-the-art 방법인 VPTSP-G [34]는 UML에서 비효율적이며 작은 데이터셋에서 성능이 좋지 않다. 이와 대조적으로, PUMA는 다양한 데이터 분포를 처리하는 데 있어 뛰어난 효율성과 효과를 보여준다.

5.3. Ablation Study

구성 요소의 고유한 설계가 미치는 영향
Table 3은 기존의 prompt tuning 및 adapter와 비교하여 conditional prompt와 stochastic adapter의 효과를 보여준다. 단일 prompt와 비교했을 때, conditional prompt의 도입은 특히 Cars 및 Aircraft와 같이 색상이 식별 특징이 아닌 데이터셋에서 성능을 크게 향상시킨다. 이는 conditional prompt가 데이터셋의 고유한 특징을 학습하는 데 도움이 된다는 것을 시사한다. 반면, stochastic adapter는 static adapter와 달리 모든 데이터셋에서 보다 균형 잡힌 개선을 제공하며, SOP 및 InShop과 같은 더 큰 데이터셋에 대한 편향을 피한다. 주목할 점은, 기존 방법들을 결합하면 최소한의 이득을 얻거나 종종 성능 저하가 발생하지만, 제안된 모듈들을 결합하면 전반적인 성능이 향상된다는 것이다.

Methods	CUB	Cars	SOP	InShop	NABird	Dog	Flowers	Aircraft	Harmonic
PA (Spec.)	80.2	83.7	84.4	91.5	69.6	84.2	99.0	67.9	81.4
CurricularFace (Spec.)	79.7	81.3	83.2	88.2	75.3	81.2	99.1	63.9	80.4
Ours (Spec.)	81.7	83.9	85.2	89.9	77.0	82.5	99.5	68.9	82.7
PA (Univ.)	77.2 (-3.0)	73.1 (-10.6)	83.7 (-0.7)	$91.9(+0.4)$	71.5 (+1.9)	78.1 (-6.1)	96.4 (-2.6)	62.7 (-5.2)	71.0 (-10.4)
CurricularFace (Univ.)	78.3 (-1.4)	77.9 (-3.4)	82.0 (-1.2)	$89.1(+0.9)$	73.0 (-2.3)	79.3 (-1.9)	$99.1(+0.0)$	65.6 (-1.7)	79.5 (-0.9)
Ours (Univ.)	83.9 (+2.2)	84.3 (+0.4)	84.0 (-1.2)	89.8 (-0.1)	79.2 (+2.2)	84.1 (1.6)	99.3 (-0.2)	72.6 (+3.7)	84.1 (+1.4)

Table 4. 데이터셋별 학습(즉, Spec.)과 통합 학습(즉, Univ.) 간의 성능 비교.
(-)와 (+)는 각각 데이터셋별 학습에서 통합 학습으로 전환할 때 달성된 성능 저하 및 향상을 나타낸다.

Methods	Arch.	Pre-training	CUB	Cars	SOP	InShop	NABird	Dog	Flowers	Aircraft	Unif.	Harm.
Zero-Shot	CLIP-B/ $32^{512}$	LAION-2B (Language Sup.)	78.3	41.3	55.0	34.9	73.2	85.0	99.1	42.9	57.3	56.1
CurricularFace	CLIP-B/ $32^{128}$	LAION-2B (Language Sup.)	74.1	78.7	80.8	88.4	67.1	80.8	98.5	64.5	76.3	77.8
Ours	CLIP-B/32 ${ }^{128}$	LAION-2B (Language Sup.)	81.1	85.6	83.9	90.5	75.2	87.0	99.0	72.0	81.0	83.6
Zero-Shot	ViT-S/16 ${ }^{384}$	IN-21K & IN-1K (Sup.)	83.1	47.8	60.3	41.5	78.3	86.8	99.3	48.1	62.2	62.1
CurricularFace	ViT-S $/ 16^{128}$	IN-21K & IN-1K (Sup.)	78.3	77.9	82.0	89.1	73.0	79.3	99.1	65.6	77.9	79.5
Ours	ViT-S $/ 16^{128}$	IN-21K & IN-1K (Sup.)	83.9	84.3	84.0	89.8	79.2	84.1	99.3	72.6	81.3	84.1
Zero-Shot	DeiT-S/16 ${ }^{384}$	IN-1K (Sup.)	57.1	40.6	52.8	31.5	46.8	87.9	88.6	34.0	50.2	48.1
CurricularFace	DeiT-S/16 ${ }^{128}$	IN-1K (Sup.)	69.7	76.9	79.4	88.4	62.3	81.7	94.9	63.2	74.3	75.5
Ours	DeiT-S/16 ${ }^{128}$	IN-1K (Sup.)	75.8	83.1	82.0	90.4	69.9	86.8	96.4	70.1	78.4	80.8
Zero-Shot	DINO-S/16 ${ }^{384}$	IN-1K (Self-Sup.)	63.8	38.9	57.6	39.1	55.2	79.6	94.7	52.8	54.9	55.3
CurricularFace	DINO-S $/ 16^{128}$	IN-1K (Self-Sup.)	61.3	68.7	79.0	88.2	53.6	61.4	92.2	56.6	70.1	67.6
Ours	DINO-S/16 ${ }^{128}$	IN-1K (Self-Sup.)	78.1	84.0	82.3	89.6	72.1	82.0	96.8	73.3	78.8	81.6

Table 5. 다양한 사전학습 전략을 가진 backbone을 사용하여 우리의 방법과 최고의 UML baseline 모델(즉, CurricularFace)의 Recall@1 성능 비교.
위첨자는 embedding 차원을 나타낸다.

데이터셋별 학습 vs. 통합 학습
Table 4는 데이터셋별 학습과 통합 학습 간의 성능 비교를 제시한다. 여기서 뚜렷한 패턴이 나타나는데, 대부분의 방법들이 통합 학습 시 성능 저하를 보이는 반면, 우리의 방법은 현저한 성능 향상을 보여준다. 이러한 차이는 기존 방법들이 통합 학습 시 더 큰 데이터셋에 편향되는 경향이 있어 성능 저하로 이어진다는 것을 시사한다. 이와 대조적으로, 우리의 접근 방식은 다양한 데이터셋 전반에 걸쳐 공유되는 특징을 성공적으로 포착하고 활용하여 놀라운 성능 향상을 이끌어낸다. 이러한 성능 향상은 서로 다른 데이터 분포에 걸친 평가를 가능하게 할 뿐만 아니라, 우리의 방법이 다양한 데이터셋에서 성능을 보편적으로 향상시킬 수 있는 핵심적인 접근 방식이 될 수 있음을 시사한다.

다양한 사전학습 backbone
우리는 backbone 아키텍처와 사전학습 전략이 검색 성능에 미치는 영향을 분석했으며, 그 결과는 Table 5에 요약되어 있다. 이 분석은 우리의 방법을 최고의 baseline인 CurricularFace와 비교한다. 분석 결과 세 가지 주요 관찰이 도출되었다: (i) 사전학습 전략은 검색 성능에 강력한 영향을 미치지만, 그 자체만으로는 충분하지 않다. 언어 또는 supervised 사전학습(예: LAION-2B 또는 IN-21K)을 통해 더 큰 데이터셋으로 학습된 모델은 일반적으로 더 작은 데이터셋(예: IN-1K)으로 학습된 모델보다 더 나은 성능을 보이지만, fine-tuning 없이는 다른 다운스트림 task로의 일반화는 여전히 어렵다. CLIP과 같은 대규모 사전학습 모델조차도 통합 metric learning에서 어려움을 겪으며, 이는 지속적인 도전 과제를 강조한다. (ii) 우리의 방법은 모든 사전학습 전략에서 baseline보다 일관되게 우수한 성능을 보인다. 사전학습 품질이 낮아질수록 성능 격차가 커지는데, 이는 더 약한 사전학습(예: IN-1K self-supervised)에서도 검색 견고성을 향상시키는 우리의 방법의 능력을 보여준다. (iii) Baseline은 사전학습 품질이 낮아질수록 더 큰 데이터셋에 대한 편향이 증가하는 경향을 보이는데, 이는 표현의 일반화 가능성 감소 때문일 가능성이 높다. 이와 대조적으로, 우리의 방법은 사전학습된 지식을 효과적으로 유지하고 적응하여 데이터셋 전반에 걸쳐 균일한 성능 향상을 달성한다.

6. Conclusion

이전의 deep metric learning 연구들은 데이터셋별 모델에 초점을 맞추었으며, 이는 다양한 데이터 분포를 가진 실제 애플리케이션에 대한 확장성을 제한한다. 본 논문에서는 **단일 모델이 여러 이질적인 데이터 분포를 관리할 수 있도록 하는 UML(Universal Metric Learning)**을 연구하였다. UML 설정에서 기존의 metric learning baseline들은 불균형한 데이터 분포 문제로 어려움을 겪는다. 이 문제를 해결하기 위해 우리는 간단하고 가벼우며, 단일 모델만으로 state-of-the-art 성능을 달성하는 parameter-efficient tuning을 제안하였다. 우리는 본 연구가 metric learning과 실제 애플리케이션 간의 간극을 좁히는 미래 연구를 촉진할 것이라고 믿는다.

감사의 글 (Acknowledgment). 본 연구는 삼성종합기술원, 삼성전자(주), NRF 과제(NRF-2021R1A2C3012728-30%, RS-2024-00341514-25%), 그리고 IITP 과제(RS-2019-II191906-20%, RS-2024-00457882-20%, POSTECH AI 대학원 프로그램, 2019-II190079-5%, 고려대학교 AI 대학원 프로그램)의 지원을 받아 수행되었으며, 대한민국 정부(과학기술정보통신부)의 재정 지원을 받았다.