Moon, WonJun, Hyun Seok Seong, and Jae-Pil Heo. "Selective Contrastive Learning for Weakly Supervised Affordance Grounding." arXiv preprint arXiv:2508.07877 (2025).

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

원준 문 ${ }^{\dagger}$ 현석 성 ${ }^{\dagger}$ 재필 허*<br>성균관대학교<br>{wjun0830, gustjrdl95, jaepilheo}@skku.edu

Abstract

개체가 객체와 상호작용하는 것을 돕기 위해서는 **특정 행동을 가능하게 하는 부분(afford specific actions)**을 정확하게 식별해야 한다. **Weakly Supervised Affordance Grounding (WSAG)**은 **제3자 시점(third-person)의 시연(demonstration)**으로부터 인간의 학습 방식을 모방하고자 한다. 인간은 픽셀 수준의 주석 없이도 기능적인 부분을 직관적으로 파악하기 때문이다. 이를 달성하기 위해, grounding은 일반적으로 서로 다른 시점의 이미지에 걸쳐 공유되는 classifier와 부분 발견(part discovery) 과정을 통합하는 distillation 전략을 사용하여 학습된다.

그러나 affordance와 관련된 부분이 항상 쉽게 구별되는 것은 아니기 때문에, 모델은 주로 **분류(classification)**에 의존하며, 종종 affordance와 관련 없는 일반적인 클래스별 패턴에 집중하는 경향이 있다. 이러한 한계를 해결하기 위해, 우리는 고립된 부분 수준 학습(isolated part-level learning)을 넘어선 새로운 접근 방식을 제안한다. 우리는 선택적 prototypical 및 pixel contrastive objective를 도입하여, 사용 가능한 정보의 granularity에 따라 부분(part) 및 객체(object) 수준에서 affordance와 관련된 단서(cue)를 적응적으로 학습한다.

먼저, 우리는 CLIP을 활용하여 egocentric (객체 중심) 및 exocentric (제3자 시점 예시) 이미지 모두에서 행동과 관련된 객체(action-associated objects)를 찾는다. 그런 다음, 상호 보완적인 시점(complementary views)에서 발견된 객체들을 교차 참조(cross-referencing)함으로써, 각 시점에서 정확한 부분 수준의 affordance 단서를 발굴한다. affordance와 관련된 영역을 affordance와 관련 없는 배경 맥락으로부터 일관되게 구별하도록 학습함으로써, 우리의 접근 방식은 활성화(activation)를 관련 없는 영역에서 의미 있는 affordance 단서로 효과적으로 이동시킨다. 실험 결과는 우리 방법의 효과를 입증한다. 코드는 github.com/hynnsk/SelectiveCL에서 확인할 수 있다.

1. Introduction

인간은 다른 사람들을 관찰하고 상호작용에서 관련 객체 부분을 인식함으로써 객체와 상호작용하는 방법을 배운다 [2, 24]. 이와 유사하게, 약한 지도 학습 기반의 affordance grounding은 인간이 일반적으로 학습하는 환경 내에서 객체의 어떤 부분이 특정 상호작용을 제공하는지(afford) 식별하는 데 초점을 맞춘다 [18, 24, 29, 35, 38, 39, 49]. 구체적으로, **타겟 egocentric 이미지(객체 중심)**가 주어지면, **액션 클래스 이름과 몇몇 exocentric 이미지(3인칭 시점에서 주어진 인간-객체 상호작용 예시)**를 활용하여 egocentric 이미지 내에서 affordance를 제공하는 부분(affordable parts)을 지역화한다 [29, 35, 39]. 그런 다음, egocentric 이미지와 액션 클래스가 주어졌을 때, 모델은 액션-affordance를 제공하는 부분을 지역화하도록 학습된다.

Figure 1. (상단) WSAG의 목표는 exocentric 이미지를 문맥적 힌트로 활용하여 egocentric 이미지 내에서 액션-affordance를 제공하는 부분을 식별하는 것이다. (하단) affordance 학습을 수행하기 위해, 우리는 먼저 egocentric 및 exocentric 이미지 모두에서 부분 관련 단서(part-relevant clues)를 발견한다. 이 부분들이 affordance 관련 영역을 신뢰할 수 있게 나타낸다고 판단되면, 모델은 이 부분들을 다른 부분들과 구별하도록 학습한다. 그렇지 않은 경우, 우리는 대신 객체 수준 단서(object-level clues)를 활용하여 객체를 배경과 구별한다. exocentric 이미지의 신뢰할 수 있는 부분만을 활용하는 우리의 baseline (LOCATE [24])과 비교하여, 우리의 접근 방식은 affordance 학습을 egocentric 및 exocentric 뷰 모두에서, 그리고 affordance 관련 및 affordance 비관련 단서 모두에서 학습하도록 확장한다. 미니배치 내의 이러한 모든 유형의 단서들을 한 번에 활용함으로써, 모델은 affordance 관련 부분을 다른 affordance 클래스 및 배경의 표현과 구별하도록 학습한다.

이러한 맥락에서, **지식 증류(knowledge distillation)**는 지역화를 위한 **CAM(Class Activation Map) [56]을 생성하는 액션 분류(action classification)**와 함께 널리 연구되고 있다 [24, 49]. 예를 들어, LOCATE [24]는 부분 수준 증류(part-level distillation) 접근 방식을 도입했다. 이 방법은 CAM으로 식별된 상호작용 관련 영역을 분할하여 exocentric 이미지에서 액션-affordance를 제공하는 부분을 추출한다. 이러한 액션-affordance를 제공하는 부분들은 정확하게 식별될 때만 egocentric 이미지 표현으로 증류되어, affordance 관련 영역과의 정렬을 가능하게 한다.

그러나, 밀집된 주석(dense annotation) 없이 학습이 진행됨에 따라, 모델은 affordance를 제공하는 부분과 직접적으로 관련이 없더라도 액션 분류에 필요한 구별 가능한 부분들을 지역화하는 경향이 있다. 이는 affordance 관련 단서가 항상 명확하게 구별되지 않기 때문이며, 따라서 증류는 간헐적으로만 적용된다. 이 문제를 해결하기 위해, 우리는 단순히 부분 feature 증류에만 초점을 맞추는 것을 넘어선다. 우리의 주요 목표는 affordance 관련 표현과 affordance 비관련 표현을 구별하기 위한 문맥적 단서(contextual cues)를 일관되게 제공하는 것이다. 전반적인 직관은 Fig. 1에 설명되어 있다.

우리는 먼저 egocentric 및 exocentric 이미지 모두에서 객체 수준의 affordance 관련 단서를 수집한 다음, 이를 점진적으로 부분 수준 단서로 정제한다. 그런 다음 모델은 전용 선택적 contrastive learning을 통해 이러한 affordance를 제공하는 부분에 집중하도록 학습된다. 구체적으로, 식별된 부분 단서가 affordance 영역에 신뢰할 수 있게 대응한다고 판단되면, 모델은 이를 다른 관련 없는 부분들과 구별하도록 학습한다. 반대로, 식별된 부분이 부적합하다고 판단되면, 모델은 타겟 객체 단서(객체 유사성 맵을 사용하여 식별됨)를 배경과 구별하도록 학습하여, affordance 비관련 영역에 대한 주의를 방지한다.

첫째, 액션과 관련된 객체에 대한 단서를 수집하기 위해, 우리는 CLIP [40]을 활용하여 affordance 관련 부분을 포함하는 객체 유사성 맵(object affinity map)을 생성한다. 식별된 타겟 객체는 부분 수준의 affordance 단서를 발견하는 기초 역할을 한다. exocentric 뷰 내에서 부분 발견을 위해, 우리는 타겟 객체를 활용하여 LOCATE [24]의 부분 발견 알고리즘을 정밀도를 높이는 방향으로 개선한다. 구체적으로, 객체 유사성 맵은 객체와 관련 없는 부분 후보들을 필터링하는 데 사용되어, affordance 관련 부분이 타겟 객체에 속하도록 보장한다. 반대로, egocentric 뷰에서 부분 단서를 추출하기 위해, 우리는 CLIP이 두드러진 객체에 더 잘 반응하는 foundation model의 특성 [10]을 활용한다. 구체적으로, 우리는 egocentric 이미지와 exocentric 이미지 간의 모델 활성화 차이를 분석하여 부분 단서를 평가한다. exocentric 이미지에서는 객체 크기가 작고 가려짐(occlusion)으로 인해 반응이 약한 경향이 있다.

두 뷰 모두에서 객체 및 부분 단서를 수집한 후, 우리는 수집된 affordance 관련 단서를 활용하기 위해 두 가지 유형의 contrastive learning을 설계한다. 첫째, 우리는 exocentric 뷰에서 affordance 관련 단서를 활용하기 위한 prototypical contrastive learning을 제안하며, 이는 이전에 사용된 pairwise distillation 전략 [24, 49]에 비해 몇 가지 주요 이점을 제공한다. pairwise distillation이 쌍을 이룬 egocentric 및 exocentric 이미지 표현 간의 거리를 줄이는 데만 초점을 맞추는 반면, prototypical contrastive learning은 egocentric-exocentric 정렬된 표현을 장려할 뿐만 아니라, 각 prototype을 다양한 배경 정보 및 다른 액션 클래스의 prototype과 구별한다. 이는 모델이 각 액션 클래스에 특화된 더욱 판별적인 표현을 포착할 수 있도록 한다. 다른 한편으로, pixel-level contrastive learning은 정확한 픽셀 수준 단서로 affordance를 제공하는 부분의 지역화를 더욱 최적화한다. 구체적으로, 이는 egocentric 이미지의 affordance 관련 단서를 직접 사용하여 각 이미지에서 affordance 관련 픽셀을 다른 픽셀과 분리한다. 이는 수집된 단서 수준에서 픽셀 표현이 affordance 관련성에 따라 구별될 수 있도록 돕는다.

요약하자면, 우리의 기여는 다음과 같다: (i) 우리는 다른 액션 클래스 및 배경의 의미론을 활용하여 부분 표현 학습에 이점을 제공하는 prototypical contrastive learning을 제안한다. (ii) 우리는 affordance 관련 영역의 미세한 지역화를 보완하기 위한 pixel contrastive learning을 제안한다. (iii) 우리는 CLIP의 텍스트 지정 객체 감지 능력을 활용하여 CAM 예측을 보정하는 후처리 단계를 제시한다. (iv) 우리의 접근 방식은 이전 방법들보다 우수한 성능을 보여주며, 특히 실제 조건을 밀접하게 반영하는 도전적인 미확인 시나리오에서 더욱 두드러진다.

2.1. Visual Affordance Grounding

Visual affordance grounding은 특정 행동에 책임이 있는 객체 부분(object parts)을 찾아내는 것을 목표로 한다 [25]. 지각(perception)과 행동(action) 사이의 간극을 최소화하기 위해, 컴퓨터 비전 및 로봇 공학 연구자들 사이에서 affordance grounding에 대한 광범위한 관심이 집중되고 있다 [15, 21, 24].
초기에는 supervised 설정에서 연구되었지만 [12, 34, 36], 최근에는 비용이 많이 드는 dense annotation이 필요 없는 weakly supervised 시나리오에서 affordance grounding 연구가 활발히 진행되고 있다 [7, 18, 29, 39, 49].
예를 들어, **LOCATE [24]**는 CAM을 사용하여 상호작용 관련 영역을 식별하고, K-means clustering을 적용하여 exocentric 이미지에서 affordance 관련 부분을 찾아 distillation에 활용한다. **WSMA [49]**는 CLIP의 semantic 정보를 attention mechanism을 통해 활용하여, 행동의 semantic을 설명하는 데 있어 이산적인 분류 레이블의 한계를 해결했다.
또한, 최근 연구들은 **ALBEF [27], SAM [20], LLAVA [28], GPT [1]**와 같은 다양한 foundation model을 활용하여 **부분 수준의 지식(part-level knowledge)**을 얻고 있다 [7, 18, 39, 41].
우리의 접근 방식은 이러한 최신 foundation model에 의존하지 않음에도 불구하고, 신뢰할 수 있는 부분을 식별할 수 없는 경우를 효과적으로 처리하고, 배경 context를 활용하여 모델이 affordance와 관련 없는 영역에 집중하는 것을 방지함으로써, 이들 모델보다 훨씬 뛰어난 성능을 보인다.

Figure 2. 전체 흐름. Egocentric 및 exocentric 이미지는 분류(classification) 및 선택적 contrastive learning을 수행하기 위해 처리된다. 여기서 $($ view $) \in\{$ ego, exo $\}$ 이다.

2.2. Weakly Supervised Object Localization

**Weakly Supervised Object Localization (WSOL)**은 이미지 레벨 레이블만을 사용하여 객체를 localize하는 것을 목표로 한다. 일반적으로 CAM(Class Activation Map) 기반 방법들은 그 효과성 때문에 널리 연구되어 왔다 [11, 31, 48, 50, 51, 53, 55]. 하지만 이 방법들은 종종 shortcut learning [14] 문제로 인해 CAM의 커버리지가 제한되는 경향이 있으며, 이 때문에 CAM 확장(expansion)은 WSOL의 일반적인 전략이 되었다.
예를 들어,

**HaS [22]**는 학습 중에 이미지 패치를 무작위로 마스킹하고,
**CutMix [52]**는 마스킹된 이미지를 강화하며,
**LoRot [33]**은 모델의 receptive field를 넓히기 위해 무작위 스케일링 및 위치 조정을 포함하는 pretext task를 도입한다.

유사한 문제는 **WSAG(Weakly Supervised Affordance Grounding)**에서도 발생한다. WSAG의 목표는 객체 카테고리와 무관하게 주어진 action class에 대한 affordance-relevant part를 localize하는 것이다. WSAG 역시 모델이 각 action class 내에서 흔히 나타나는 세부 사항에만 집중하는 문제를 겪지만, affordance-relevant part가 종종 작기 때문에 CAM 확장이 항상 적절한 해결책은 아니다.
이러한 문제를 해결하기 위해 우리는 **선택적 전략(selective strategy)**을 제안한다. 이 전략은 신뢰할 수 있는 part를 식별할 수 없을 때는 CAM을 객체 영역으로 확장할지, 아니면 신뢰할 수 있는 part가 있을 때는 CAM 활성화를 집중할지를 적응적으로 결정한다.

2.3. Contrastive Learning

Contrastive learning은 긍정적인 관계를 가진 인스턴스들을 가깝게 당기고(pull), 부정적인 관계를 가진 인스턴스들을 멀리 밀어내는(push) 방식으로 작동한다 [4, 8, 17, 32]. 이는 인스턴스 간의 관계를 결정하는 기준을 조정함으로써 다양한 분야에 적용되어 왔다. 예를 들어, **비지도 학습(unsupervised setting)**에서는 동일한 인스턴스의 증강된(augmented) 쌍이 긍정적인 관계로 간주되는 반면 [8], **지도 학습(supervised setting)**에서는 동일한 클래스 내의 샘플이 긍정적인 관계로 처리된다 [19]. WSAG의 경우, LLM이 상호작용 유형 간의 관계를 도출하는 데 사용되었다 [18].

또한, contrastive learning이 적용되는 단위(unit)에도 상당한 차이가 있다. 예를 들어, 이미지가 일반적인 단위인 반면 [8, 9], 프로토타입(prototypes) [26], 픽셀(pixels) [42-45, 54], 심지어 모달리티 간의 유사성(similarity between modalities) [40]도 인기 있는 소스이다. 본 연구에서는 객체(object) 및 부분(part) 수준의 영역을 모두 최적화하기 위해 학습 수준을 적응적으로 선택하는 prototypical 및 pixel contrastive learning을 소개한다.

Figure 3. 객체 발견(object discovery)의 예시. **객체 유사도 맵(object affinity map)**은 CLIP으로부터 zero-shot 이미지-텍스트 유사도 맵으로 도출된다.

3. Method

3.1. Method Overview

Figure 2에서 전체 프레임워크를 설명한다. egocentric 이미지 $I^{\text {ego }}$ 와 여러 exocentric 이미지 $I^{\text {exo }}$ 쌍이 주어지면, 입력은 DINO [5]와 이어진 projection layer를 사용하여 처리된다. 그런 다음, prototypical 및 pixel contrastive learning을 위해 feature는 각각 $\tilde{F}^{\text {(view) }}$ 와 $\hat{F}^{\text {(view) }}$ 를 얻기 위해 추가로 projection된다. 여기서 (view) $\in\{$ ego, exo $\}$ .

egocentric 이미지의 feature는 $\tilde{F}^{\text {ego }}, \hat{F}^{\text {ego }} \in \mathbb{R}^{B \times H \times W \times D}$ 로 표현되는 반면, exocentric 이미지의 feature는 $\tilde{F}^{\text {exo }}, \hat{F}^{\text {exo }} \in \mathbb{R}^{B \times E \times H \times W \times D}$ 로 주어진다. 여기서 $B$ 는 batch size, $H$ 와 $W$ 는 공간 차원, $D$ 는 feature 차원, $E$ 는 exocentric 이미지의 개수를 나타낸다.

contrastive learning branch는 egocentric 이미지 내에서 affordance 지식을 학습하는 데 중점을 두는 반면, 공유 classifier를 가진 classification branch는 egocentric 및 exocentric view 간의 공유된 semantic 정보를 포착한다. 추론을 위해, CAM $C^{\text {ego }}$ 는 egocentric 이미지와 affordance 텍스트 prompt만을 사용하여 classification branch로부터 도출된다.

선택적 contrastive learning을 수행하기 위해, 먼저 Section 3.2에서 action과 관련된 객체를 식별하여 target supervision을 설정한다. 이어서 Section 3.3과 Section 3.4에서는 prototypical 및 pixel contrastive learning을 각각 소개하고, part-level target discovery 프로세스를 함께 설명한다.

3.2. Object Discovery

Fig. 3에서 보여주듯이, 우리는 CLIP을 활용하여 object affinity map을 정의한다. 특히, 우리는 ClearCLIP [23]의 전략을 사용하여 visual feature의 local discriminability를 향상시킨다. CLIP visual encoder로부터 얻은 egocentric feature와 exocentric feature가 주어졌을 때, 우리는 action prompt의 CLIP text feature와 cosine similarity를 계산하여 각 관점(perspective)에 대한 object affinity map을 얻는다. 이는 각각 $A_{\text {obj }}^{\text {ego }} \in \mathbb{R}^{B \times H \times W}$ 및 $A_{\text {obj }}^{\text {exo }} \in \mathbb{R}^{B \times E \times H \times W}$ 로 표현된다 (action prompt에 대한 자세한 내용은 Appendix에 있다). object affinity map이라는 용어는 Fig. 7에서 볼 수 있듯이, action prompt가 주어졌을 때 affordance와 관련된 객체를 강조하는 특성에서 유래한다.

3.3. Prototypical Contrastive Learning

Prototypical contrastive learning은 exocentric view 내에서 수집된 affordance-relevant 단서들을 기반으로 작동한다. 간단히 말해, exocentric 이미지 내의 affordable part에 대한 prototype은 contrastive learning을 통해 egocentric 이미지 내의 해당 prototype으로 증류(distill)된다.

Figure 4. Prototypical contrastive learning의 설명. (상단) exocentric 이미지에서 part 단서를 식별하는 과정. 발견된 객체는 part 후보를 추출하기 위해 분할(segment)되고, 이들은 DINO의 attention map과 매칭된다. (하단) Prototypical contrastive learning은 part 단서의 신뢰도에 따라 선택적으로 적용된다. 신뢰할 수 있는 경우, egocentric 이미지의 object anchor는 part 단서로 끌어당겨지지만, 그렇지 않은 경우 image anchor는 exocentric 이미지의 object 단서로 끌어당겨진다.

이러한 prototypical contrastive 접근 방식의 핵심 장점은 prototype 간의 negative 관계를 학습하는 과정까지 포함한다는 점이다. 따라서 우리는 affordance-irrelevant 영역, 즉 배경 컨텍스트 및 non-affordable object part에 대한 분류 편향을 완화할 수 있다고 주장한다.

Exocentric 이미지 내의 Part-level 단서
우리는 Fig. 4에 나타난 바와 같이 exocentric 이미지에서 part-level 단서를 수집하는 과정을 설명하는 것으로 시작한다. 구체적으로, 우리는 이전 연구 [24]에서 사용된 알고리즘을 적용한다. 예를 들어, 이전 연구에서는 exocentric 이미지에서 상호작용 관련 영역을 식별하기 위해 CAM 예측 $C^{\text {exo }}$ 를 직접 임계값 처리했지만, 우리는 먼저 $C^{\text {exo }}$ 를 object affinity map $A_{\text {obj }}^{\text {exo }}$ 와 결합한 후 임계값 $\gamma_{1}$ 을 적용했다. 이는 관심 영역이 객체 영역으로 제한되도록 보장하여, 부정확한 CAM 예측의 위험을 완화하고 추출된 affordance 단서의 affordance 관련성을 향상시킨다. 나머지 과정은 이전 연구 [24]를 따른다. 먼저, CAM 영역이 배경, affordance-relevant part 및 기타 요소로 구성된다는 직관에 기반하여 K-means clustering (K=3)을 적용한다. 그런 다음, centroid (part prototype 후보)를 egocentric DINO [5] feature $F^{\text {ego }}$ 와 비교하여 part-egocentric 유사도 맵을 생성한다.

이러한 맵은 DINO [5]의 egocentric 이미지 self-attention map과 pIoU [24]로 측정하여 비교함으로써, 각 해당 centroid가 affordance-relevant part를 나타내는지 여부를 평가한다 (DINO attention map은 object affinity map으로 대체될 수 있다). 마지막으로, 임계값 $\alpha$ 를 초과하는 가장 높은 pIoU에 해당하는 centroid만 지정된 part로 선택된다. 두 조건 중 하나라도 충족되지 않으면, 해당 part (centroid)는 신뢰할 수 없는 것으로 간주되어 학습에서 제외된다. 결과적으로, 신뢰할 수 있는 part prototype을 가진 인스턴스의 경우, part affinity map $A_{\text {part }}^{\text {(view) }}$ 은 선택된 part prototype과 공간 feature (즉, $F^{\text {ego }}$ 및 $F^{\text {exo }}$ ) 간의 유사도로 정의된다.

선택적 Prototypical Contrastive Learning
affordable part 단서의 가용성이 일관적이지 않기 때문에, 일반적인 접근 방식은 신뢰할 수 있는 part가 발견될 때만 exocentric 이미지의 지식을 활용하는 것이다. 그러나 이는 affordance grounding task가 분류 task에 크게 의존하게 만들고, 분류 task는 액션 분류를 위한 가장 판별적인 feature를 찾는 것을 목표로 하므로, 타겟 객체 part를 포착하는 데 취약하다.

따라서 우리는 학습 전반에 걸쳐 exocentric 이미지의 상호작용 관련 영역 지식을 일관되게 활용하는 손실 함수를 설계한다. 구체적으로, 우리의 prototypical contrastive learning은 타겟 및 앵커 표현 모두에 대한 학습 수준의 선택성(selectivity)을 통합한다. exocentric 이미지 내에서 발견된 part prototype이 신뢰할 수 있다고 판단되면, 우리는 이를 egocentric object prototype으로 증류하기 위한 타겟 prototype으로 사용한다. 그렇지 않은 경우, 우리는 object prototype을 타겟으로, 전체 egocentric 이미지를 앵커로 정의한다. 이 설계는 object prototype을 기본 증류 타겟으로 설정하여 모델이 egocentric 이미지의 배경 컨텍스트를 무시하면서 타겟 객체에 일관되게 집중하도록 장려한다. 또한, part supervision이 사용 가능한 경우, affordable part에 대한 attention을 강화하여 모델이 affordable part의 세부 정보를 포착하는 능력을 향상시킨다.

prototypical contrastive learning에서 object/part 단서를 활용하기 위해, 우리는 먼저 prototype을 구성한다. 특히, $P^{\text {ego }+}, P^{\text {ego }-}, P^{\text {exo }+}$ 및 $P^{\text {exo- }}$ 의 네 가지 유형의 prototype이 생성되는데, 이는 수집된 단서의 수준에 따라 각 view의 object/part 단서의 positive 및 negative prototype을 나타낸다. 특히, 이러한 positive 및 negative prototype은 인스턴스 feature $Z \in \mathbb{R}^{H \times W \times D}$ , 타겟 단서 $M \in \mathbb{R}^{H \times W}$ 및 CAM 예측 $C \in \mathbb{R}^{H \times W}$ 를 사용하여 다음 함수 ( $\Phi^{+}$ 및 $\Phi^{-}$ )로 구성된다:

\begin{aligned} & \Phi^{+}(Z, M)=\operatorname{norm}(\operatorname{Pool}(Z \odot M)) \\ & \Phi^{-}(Z, M, C)=\operatorname{norm}(\operatorname{Pool}(Z \odot(\beta-M \odot C))) \end{aligned}

여기서 $\operatorname{norm}(\cdot)$ 은 채널 축을 따른 Frobenius normalization을 나타내고, $\operatorname{Pool}(\cdot)$ 은 공간 평균 풀링을 나타내며, $\beta$ 는 초기 학습 epoch에서 부정확한 CAM $C$ 로 인해 발생하는 학습 불안정성을 방지하기 위한 bias term이다. $\odot$ 는 서로 다른 모양의 $\mathbf{X}$ 와 $\mathbf{Y}$ 사이에 Hadamard product를 적용하기 위해 $(\mathbf{X} \odot \mathbf{Y})_{\mathrm{i}, \mathrm{j}, \mathrm{k}}=\left(x_{\mathrm{i}, \mathrm{j}, \mathrm{k}}\right) \times\left(y_{\mathrm{i}, \mathrm{j}}\right), \quad \forall \mathrm{i} \in\{1, \ldots, H\}, \forall \mathrm{j} \in$ $\{1, \ldots, W\}, \forall \mathrm{k} \in\{1, \ldots, D\}$ 로 정의된다. 요컨대, positive prototype은 타겟 단서 $M$ 으로 마스킹하여 타겟 영역에 일관되게 집중하며, 이는 종종 CAM 예측보다 더 정확하다. 반면, background prototype은 일반적인 배경 의미론과 unaffordable part를 포착한다.

이어서, II는 미니 배치 내의 exocentric 및 egocentric 인스턴스 모두의 인덱스 집합을 나타내며, 이는 정확한 part-level prototype을 가진 인스턴스를 의미한다 (이 하위 섹션에서는 egocentric 이미지당 하나의 exocentric 이미지만 있다고 가정하므로, II는 단순화를 위해 공유될 수 있다). 그러면 $b$ -번째 인스턴스의 egocentric anchor $z_{b}^{\text {ego }}$ 와 prototype은 다음과 같이 형성된다:

\begin{aligned} z_{b}^{\text {ego }} & = \begin{cases}\Phi^{+}\left(\tilde{F}_{b}^{\text {ego }}, A_{\text {obj }, \mathrm{b}}^{\text {ego }}\right) & \text { if } b \in \mathbb{I}, \\ \text { norm }\left(\text { Pool }\left(\tilde{F}_{b}^{\text {ego }}\right)\right) & \text { otherwise },\end{cases} \\ P_{b}^{(\text {view })+} & = \begin{cases}\Phi^{+}\left(\tilde{F}_{b}^{(\text {view })}, A_{\text {part }, b}^{(\text {view })}\right) & \text { if } b \in \mathbb{I}, \\ \Phi^{+}\left(\tilde{F}_{b}^{\text {(view) }}, A_{\text {obj }, b}^{\text {(vie })}\right) & \text { otherwise },\end{cases} \\ P_{b}^{(\text {view })-} & = \begin{cases}\Phi^{-}\left(\tilde{F}_{b}^{(\text {view })}, A_{\text {part }, b}^{(\text {view })}, C^{(\text {view })}\right) & \text { if } b \in \mathbb{I}, \\ \Phi^{-}\left(\tilde{F}_{b}^{(\text {view })}, A_{\text {obj }, b}^{(\text {view })}, C^{(\text {view })}\right) & \text { otherwise. }\end{cases} \end{aligned}

결과적으로, 미니 배치 내 $b$ -번째 인스턴스에 대한 우리의 선택적 prototypical contrastive learning은 다음과 같이 표현된다:

\mathcal{L}_{b}^{\text {proto }}=\frac{-1}{\left|\mathbf{P}_{b}^{+}\right|} \sum_{p \in \mathbf{P}_{b}^{+}} \log \frac{\exp \left(z_{b}^{\text {ego }} \circ p / \tau\right)}{\sum_{\left.n \in\left(\mathbf{P}_{b}^{+} \cup \mathbf{P}_{b}^{-}\right)\right)} \exp (z \circ n / \tau)}

여기서 $\circ$ 와 $\tau$ 는 각각 dot product와 temperature parameter를 나타낸다. $b$ -번째 인스턴스에 대한 positive 및 negative prototype 집합을 나타내는 $\mathbf{P}_{b}^{+}$ 와 $\mathbf{P}_{b}^{-}$ 는 다음과 같이 정의된다:

\begin{aligned} \mathbf{P}_{b}^{+}= & \bigcup_{(\text {view })} \bigcup_{i \in \mathcal{B}}\left\{P_{i}^{(\text {view })+} \mid \delta\left(P_{i}^{(\text {view })+}\right)=\delta\left(z_{b}^{\text {ego }}\right)\right\} \\ \mathbf{P}_{b}^{-}= & \bigcup_{(\text {view })}\left\{\bigcup_{i \in \mathcal{B}}\left\{P_{i}^{(\text {view })-} \mid \delta\left(P_{i}^{(\text {view })-}\right)=\delta\left(z_{b}^{\text {ego }}\right)\right\}\right. \\ & \left.\bigcup_{j \in \mathcal{B}}\left\{P_{j}^{(\text {view })+} \mid \delta\left(P_{j}^{(\text {view })+}\right) \neq \delta\left(z_{b}^{\text {ego }}\right)\right\}\right\} \end{aligned}

여기서 $i, j$ 는 배치 인덱스 집합 $\mathcal{B}$ 의 인덱스를 나타내고, $\delta$ 는 주어진 인스턴스의 액션 클래스 레이블을 출력하는 함수이다. 결과적으로, prototypical contrastive learning은 모델의 활성화를 affordance-relevant 영역으로 유도한다. 구체적으로, object-level 학습은 객체 영역에 대한 집중을 강화하고, affordance-relevant part가 존재할 때는 객체 내의 part-specific 정보를 포착하도록 feature를 더욱 정제한다.

3.4. Pixel Contrastive Learning

전형적인 contrastive learning에서는 모델이 전체 이미지보다 **전경 객체(foreground objects)**를 우선시하고,

egocentric 이미지에 대한 'hold' 클래스의 부분 수준 지식 획득

Figure 5. affordance 기준에 기반하여 egocentric 이미지 내 객체를 이진화하는 과정의 도식. 각 exocentric 객체 affinity map에서 가장 두드러진 픽셀이 기준점 역할을 하며, egocentric 이미지의 각 픽셀을 affordance 가능한 영역( $Q^{+}$ ) 또는 affordance 불가능한 영역( $Q^{-}$ )으로 분류하는 기준을 설정한다. $\rho_{1}, \rho_{2}, \rho_{3}$ 중 최솟값이 기준으로 사용된다.

이러한 객체 내에서 특정 부분에 집중하도록 유도한다. 그러나 우리는 affordance 가능한 부분의 각 픽셀에 대해 암묵적인 가이드만 제공된다는 점에 주목한다. 따라서 우리는 각 egocentric 이미지 내 픽셀 간의 대응 관계를 학습함으로써 세밀한 지역화(localization) 능력을 보완하기 위해 pixel contrastive learning을 추가로 제안한다.

Egocentric 이미지 내 부분 수준 단서 (Part-level Clues within Egocentric Images)
exocentric 이미지에서 부분 단서를 수집하기 위해 egocentric 뷰를 사용하는 것과 대칭적으로, 우리는 egocentric 이미지에서 부분 단서를 포착하기 위한 문맥적 단서(contextual cues)로 exocentric 뷰를 활용한다. 특히, 우리는 foundation model (CLIP)이 salient 객체에 더 민감하게 반응하는 특성을 활용한다 [10]. 따라서 우리는 특정 동작을 수행하기 위한 부분을 설명하는 텍스트 prompt와 매칭될 때, egocentric 이미지의 affordance 가능한 부분이 exocentric 이미지의 해당 부분보다 더 강한 활성화(activation)를 보일 것으로 예상한다. 이는 exocentric 이미지가 사용 중인 객체를 묘사하며, 종종 작은 스케일로 객체를 포착하여 가려짐(occlusion)에 더 취약하기 때문이다.

egocentric 부분 발견을 위한 전체 과정은 Fig. 5에 설명되어 있다. 먼저, egocentric 이미지에서 affordance 가능한 부분에 속하는 픽셀을 구별하는 기준 $\rho$ 를 결정한다. $\rho \in \mathbb{R}^{B}$ 를 도출하는 논리는 다음과 같다:

\rho=\min _{e \in E} \max _{h, w \in H, W} A_{\mathrm{obj}}^{\mathrm{exo}}

명확히 하자면, 우리는 먼저 exocentric 객체 affinity map $A_{\text {obj }}^{\text {exo }} \in \mathbb{R}^{B \times E \times H \times W}$ 에 대해 공간 차원 ( $H \times W$ )을 따라 최댓값을 계산하여 $B \times E$ 형태의 텐서를 얻는다. 그런 다음, $E$ 축을 따라 최솟값을 선택한다. 여기서 $E$ 는 각 egocentric 이미지와 쌍을 이루는 exocentric 이미지의 개수이며, 이는 사용 가능한 exocentric 이미지 중 가장 약한 반응이 고려되도록 보장한다. 이는 exocentric 이미지가 반드시 객체를 작은 스케일로 포착하는 것이 아니라, 일부는 상호작용에 관련된 특정 영역만을 강조하도록 프레임될 수 있기 때문이다. 결과적으로, $\rho$ 는 $A_{\mathrm{obj}}^{\mathrm{ego}}$ 의 픽셀을 이진화하여 affordance 관련 부분과 다른 영역을 구별하는 데 활용된다.

선택적 Pixel Contrastive Learning (Selective Pixel Contrastive Learning)
exocentric 이미지가 대상 객체에 대해 명확하고 방해받지 않는 초점을 유지하는 경우, egocentric 뷰 내의 부분 감독(part supervision)이 항상 가능하지 않을 수 있다. 이러한 상황에서는 대상 객체 영역을 배경 픽셀과 구별하기 위해 객체 수준 학습(object-level learning)이 대신 수행된다. 따라서 우리는 **하이퍼파라미터 $\gamma_{2}$ ( $\gamma_{1}$ 과 동일)**를 활용하여 egocentric 객체 affinity map $A_{\mathrm{obj}}^{\mathrm{ego}}$ 에서 대상 객체 영역을 구별하며, 단일 공유 값이 효과적인 분리에 충분하다는 것을 발견했다.

결과적으로, **객체 affinity map에서 $\rho$ 를 초과하는 픽셀을 포함하는 해당 egocentric 이미지의 인덱스를 포함하는 인덱스 집합을 $\mathbb{J}$ **라고 할 때, 긍정(positive) 및 부정(negative) 집합은 다음과 같이 구성된다:

\begin{aligned} & Q_{b}^{+}= \begin{cases}\left\{\hat{F}_{b, h, w}^{\mathrm{ego}} \mid A_{\mathrm{obj}, b, h, w}^{\mathrm{ego}}>\rho_{b}\right\} & \text { if } b \in \mathbb{J}, \\ \left\{\hat{F}_{b, h, w}^{\mathrm{ego}} \mid A_{\mathrm{obj}, b, h, w}^{\mathrm{ego}}>\gamma_{2}\right\} & \text { otherwise },\end{cases} \\ & Q_{b}^{-}= \begin{cases}\left\{\hat{F}_{b, h, w}^{\mathrm{ego}} \mid A_{\mathrm{obj}, b, h, w}^{\mathrm{ego}} \leq \rho_{b}\right\} & \text { if } b \in \mathbb{J}, \\ \left\{\hat{F}_{b, h, w}^{\mathrm{ego}} \mid A_{\mathrm{obj}, b, h, w}^{\mathrm{ego}} \leq \gamma_{2}\right\} & \text { otherwise. }\end{cases} \end{aligned}

긍정 집합 $Q_{b}^{+}$ 의 픽셀은 pixel contrastive learning의 anchor로 사용된다. 그런 다음, pixel contrastive learning은 다음과 같이 공식화된다:

\mathcal{L}_{b}^{\mathrm{pix}}=\frac{-1}{\left|Q_{b}^{+}\right|^{2}} \sum_{z \in Q_{b}^{+}} \sum_{p \in Q_{b}^{+}} \log \frac{\exp (z \circ p / \tau)}{\sum_{n \in\left(Q_{b}^{+} \cup Q_{b}^{-}\right)} \exp (z \circ n / \tau)} .

이는 모델의 attention이 발견된 픽셀 수준 단서와 일치하도록 유도하여, attention이 affordance 관련 영역에 정확히 대응하도록 보장한다.

Table 1. AGD20K 및 HICO-IIF 데이터셋에 대한 성능 비교.

Method	Model	AGD20K-Seen			AGD20K-Unseen			HICO-IIF
		KLD $\downarrow$	SIM $\uparrow$	NSS $\uparrow$	KLD $\downarrow$	SIM $\uparrow$	NSS $\uparrow$	KLD $\downarrow$	SIM $\uparrow$	NSS $\uparrow$
Zero-Shot Vision-Language Model
Clear-CLIP [23]	CLIP	1.573	0.294	0.945	1.723	0.262	0.976	1.746	0.252	1.032
Weakly Supervised Object Localization
SPA [37]	-	5.528	0.221	0.357	7.425	0.169	0.262	-	-	-
EIL [31]	-	1.931	0.285	0.522	2.167	0.277	0.330	-	-	-
TS-CAM [13]	DeiT	1.842	0.260	0.336	2.104	0.201	0.151	-	-	-
Weakly Supervised Affordance Grounding
Hotspots [35]	ResNet50	1.773	0.278	0.615	1.994	0.237	0.577	-	-	-
Cross-view-AG [29]	ResNet50	1.538	0.334	0.927	1.787	0.285	0.829	1.779	0.263	0.946
Cross-view-AG+ [30]	ResNet50	1.489	0.342	0.981	1.765	0.279	0.882	1.836	0.256	0.883
LOCATE [24]	DINO	1.226	0.401	1.177	1.405	0.372	1.157	1.593	0.327	0.966
WSMA [49]	DINO+CLIP	1.176	0.416	1.247	1.335	0.382	1.220	1.465	0.358	1.012
WorldAfford [7]	DINO+CLIP+SAM+GPT-4	1.201	0.406	1.255	1.393	0.380	1.225	-	-	-
AffordanceLLM [39]	LLAVA-7B	-	-	-	1.463	0.377	1.070	-	-	-
Rai et al. [41]	DINO+CLIP+GPT-3.5T	1.194	0.400	1.223	1.407	0.362	1.170	-	-	-
INTRA [18]	DINOv2+ALBEF+GPT-4	1.199	0.407	1.239	1.365	0.375	1.209	-	-	-
Ours	DINO+CLIP	1.124	0.433	1.280	1.243	0.405	1.368	1.358	0.378	1.231

3.5. Calibrating the Class Activation Map

추론 시, 우리는 이전 연구들 [24, 29, 49]를 따라 CAM(Class Activation Map)을 출력 localization map으로 직접 활용하여, 합리적인(affordable) 영역을 표현한다. 그러나 CAM 예측은 종종 실제 객체 경계를 넘어 각 salient 픽셀 주변에 Gaussian과 유사한 분포를 생성한다. 이는 convolution 기반 projection layer가 local context를 인코딩하는 데 사용되어, receptive field 내의 픽셀 전반에 걸쳐 activation을 확산시키기 때문에 발생한다.
이를 해결하기 위해, 우리는 binarized object affinity map $A$ 와 CAM 예측 간에 Hadamard product를 수행하여 activation을 salient 부분으로만 제한하는 calibration 과정을 적용한다. $A$ 의 binarization 과정은 Eq. 7에서 target object 영역을 구별하는 과정과 동일하다.

전체 목적 함수 (Overall Objective)
classification loss, part-level prototypical contrastive loss, 그리고 pixel contrastive loss를 포함하는 우리의 목적 함수는 다음과 같이 표현된다: $\mathcal{L}=\mathcal{L}^{\text {ce }}+\lambda_{1} \mathcal{L}^{\text {proto }}+\lambda_{2} \mathcal{L}^{\text {pix }}$ .

4. Experiments

평가 설정 (Evaluation Settings)
평가를 위해 우리는 AGD20K [29]와 HICO-IIF [49] 두 가지 데이터셋을 사용한다. 결과는 Kullback-Leibler Divergence (KLD), Similarity (SIM), Normalized Scanpath Saliency (NSS) 지표로 평가된다. 이 지표들은 예측된 heatmap과 ground-truth heatmap 분포 간의 유사성 및 대응 관계를 평가한다.
또한, 모든 실험에서 DINO ViT-S/16과 CLIP ViT-B/16을 사용하며, 이전 연구들 [7, 24, 41, 49]에 따라 $E$ (egocentric 이미지당 exocentric 이미지 수)는 3으로 설정한다.
하이퍼파라미터의 경우, 손실 계수( $\lambda_1$ 과 $\lambda_2$ )는 모두 1로 설정한다. 또한, 단순화를 위해 threshold 파라미터( $\alpha$ 와 $\gamma$ )는 각각 0.6으로 설정하고, bias $\beta$ 는 1, temperature $\tau$ 는 0.5로 설정한다. 이러한 하이퍼파라미터는 모든 데이터셋에 걸쳐 동일하게 적용된다. 데이터셋 및 구현 세부 사항에 대한 추가 논의는 Appendix에 있다.

Figure 6. Seen 및 unseen domain에서 우리 접근 방식과 다른 방법들의 정성적 비교 결과.

4.1. Comparison with the State-of-the-arts

Tab. 1에서 우리는 WSOL(Weakly Supervised Object Localization) 및 WSAG(Weakly Supervised Affordance Grounding) 방법들과 다양한 backbone을 활용하는 방법들 [1, 5, 16, 20, 27, 28, 40, 46]을 비교한다. CLIP 및 WSOL 방법과 같이 객체 인식(object recognition)을 위해 학습된 모델들은 일반적으로 부분 수준의 grounding(part-level grounding)에 어려움을 겪는다. 이는 이들이 객체 내의 세분화된 affordance 영역을 식별하도록 최적화되지 않았기 때문이다. 그러나 WSAG에 특화된 방법들에게도 affordance 부분을 정확하게 찾는 것은 마찬가지로 어려운 과제이다. 따라서 최근에는 VLM(Visual Language Model) 및 LLM(Large Language Model)을 활용하는 방법들이 등장했다 [7, 18, 39, 41]. 특히, 이러한 방법들은 LLM을 활용하여 객체 내의 affordance 부분의 특성을 열거함으로써 세분화된 사양으로 localization을 개선하는 경우가 많다. 본 연구에서는 [7, 24, 41, 49]의 실험 설정을 따라 다양한 시나리오와 데이터셋에서 모든 이전 접근 방식을 능가하는 주목할 만한 성능 향상을 달성한다.

특히, 우리는 새로운 객체가 상호작용을 위해 도입되는 unseen 시나리오에서 상당한 성능 향상을 강조한다. 이는 객체 카테고리를 미리 정의할 수 없는 실제 애플리케이션에서 매우 중요하다. 우리는 이러한 성능 향상을 contrastive learning의 특성에 기인한다고 본다. 첫째, 우리의 접근 방식은 contrastive objective를 강제함으로써 배경 컨텍스트에서 affordance 부분/객체로 주의를 명시적으로 전환시킨다. 이는 모델이 배경 방해 요소에 더 취약한 unseen 객체를 처리할 때 특히 유용하다. 또한, 보조적인 self-supervised objective를 통합하면 새로운 객체에 대한 일반화 능력(generalizability)이 향상되는 것으로 나타났으며 [3, 33], 이는 다양한 affordance 시나리오에서 모델의 견고성을 더욱 강화한다.

Fig. 6은 seen 및 unseen 도메인에서의 정성적 결과를 보여준다. 이전 연구들은 affordance 영역에 초점을 맞추기보다는 클래스별로 구별 가능한 부분들을 식별하는 경향이 있었다.

Table 2. 모델 구성 요소 연구. 왼쪽에서 오른쪽으로, 우리는 객체 및 부분 수준의 prototypical contrastive learning (Proto.), 객체 및 부분 수준의 pixel contrastive learning (Pixel.), 그리고 **객체 affinity map을 이용한 calibration 과정 (Cali.)**의 이점을 조사한다. Cali.는 localization map의 calibration 과정을 나타낸다. Obj.와 P.는 각각 객체 수준 및 부분 수준 학습을 의미한다.

	Proto.		Cali.			AGD20K-Seen
	Obj.	P.	Obj.	P.		KLD	SIM	NSS
(a)	-	-	-	-	-	1.349	0.365	1.138
(b)	-	-	-	-	$\checkmark$	1.271	0.394	1.162
(c)	$\checkmark$	-	-	-	-	1.271	0.392	1.153
(d)	$\checkmark$	-	$\checkmark$	-	-	1.219	0.402	1.215
(e)	$\checkmark$	-	$\checkmark$	-	$\checkmark$	1.198	0.419	1.198
(f)	$\checkmark$	$\checkmark$	-	-	-	1.164	0.416	1.290
(g)	$\checkmark$	$\checkmark$	$\checkmark$	-	-	1.157	0.414	1.277
(h)	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	-	1.142	0.415	1.303
(i)	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	1.124	0.433	1.280

예를 들어, "ride" 액션에 대한 affordance 부분(즉, 안장 또는 핸들바) 대신 자전거 프레임이나 바퀴가 강조되는 경향이 있었다. 우리의 접근 방식은 모델이 affordance와 관련된 부분/객체에 집중하도록 유도하고 배경 활성화를 억제함으로써 affordance 정밀도를 향상시킨다.

4.2. Ablation Study

구성 요소 ablation에 대한 연구는 고정된 random seed를 사용하여 Tab. 2에 보고되어 있다. baseline 모델로는 분류 손실(classification loss)만으로 학습된 모델을 사용한다. 그런 다음 각 학습 전략을 점진적으로 통합하며, 우리 접근 방식의 각 구성 요소가 affordance grounding에 긍정적으로 기여함을 확인한다. (c) 및 (d) 행은 (a)에 대한 객체 수준 학습(object-level learning)의 영향을 보여주며, 특정 경우에 상당한 성능 향상을 가져온다. 이러한 결과는 WSAG에 객체 수준 학습을 도입하는 우리의 전략을 검증한다.

Figure 7. 학습을 안내하는 데 사용된 발견된 객체 및 부분의 시각화. (a) 객체 affinity map $A_{\text {obj }}$ . 각 클래스에 대한 가장 왼쪽 샘플은 egocentric 이미지이고 나머지는 exocentric 이미지이다. (b) prototypical contrastive learning에 사용된 exocentric 이미지의 affordance 가능한 부분. (c) pixel contrastive learning에 사용된 egocentric 이미지의 affordance 가능한 부분 $Q^{+}$ .

Figure 8. 객체 및 부분과 같은 각 학습 수준의 영향 분석 및 정성적 결과.

객체 수준 학습은 모델이 affordance가 불가능하지만 시각적으로 구별되는 부분에 대한 확증 편향(confirmation bias)을 완화하기 때문이다. 또한, (f) 및 (h)의 결과는 직접적인 부분 수준 학습(part-level learning)의 영향을 강조한다. 부분 수준 contrastive learning은 affordance 관련 부분을 구별하고 부분적인 세부 사항에 대한 이해를 향상시키기 때문이다. 마지막으로, 객체 affinity map을 사용한 calibration 프로세스는 두 가지 이점을 제공하여 성능을 더욱 향상시킨다: 경계를 정교하게 만들고 객체와 관련 없는 activation을 마스킹한다.

각 학습 수준의 영향은 Fig. 8에 추가로 설명되어 있다. 우리의 baseline 모델은 각 클래스에 대해 구별되는 부분에 초점을 맞추는 경향이 있으며, activation은 주로 브러시 및 칼의 중심점과 같은 구성 요소에서 발생한다. 다음으로, 객체 수준 학습의 효과를 조사한다. 이 경우 모델은 affordance가 불가능한 부분에서 일반 객체로 activation을 확산시킨다. 부분 수준 학습이 도입되면, activation은 상호 작용할 가능성이 더 높은 영역에 더 집중된다. 마지막으로, calibration 프로세스는 salient 부분 영역 주변의 noisy activation을 필터링하여 affordance grounding의 정확도를 향상시킨다. 이러한 결과는 각 학습 수준의 목표가 적절하게 반영되었음을 보여준다.

4.3. Study on Part and Object Level Supervision

Fig. 7에서는 객체 및 부분 수준 학습(object- and part-level learning)의 이점을 면밀히 검토하기 위해 각 훈련 가이드 수준을 분석한다. 먼저, (a)는 **객체 유사성 맵(object affinity maps)**을 보여준다. 객체 유사성 맵이 정확하지 않은 픽셀 단위 활성화를 가질 수 있고 거친 granularity로 전경(foreground)만 식별함에도 불구하고, 우리는 행동과 관련된 객체를 포괄하는 정확성을 관찰한다. (b)와 (c)에서는 각각 exocentric 및 egocentric 이미지에 대해 감지된 affordance part를 시각화한다. 특히, (b)는 exocentric 뷰 내에서 감지된 part를 시각화한다. 간헐적인 노이즈가 존재하지만, 식별된 part는 일반적으로 affordance 학습에 신뢰할 수 있는 가이드를 제공한다. (c)에서는 **egocentric 이미지에서 part-level pixel contrastive learning을 위한 식별된 affordance 픽셀 $Q^{+}$ **를 보여주는데, 여기서 활성화된 픽셀은 일반적으로 **맥락적 일관성(contextual consistency)**을 나타낸다. 이러한 결과는 우리의 훈련 가이드가 신뢰할 수 있는 supervision을 수집하려는 우리의 목표를 만족스럽게 반영함을 확인시켜준다.

5. Conclusion

부분 수준 학습(part-level learning)을 강화하기 위해, 기존 접근 방식들은 분류기가 affordance-relevant 부분에 집중하도록 유도하는 distillation 전략을 사용해왔다. 그러나 affordance 단서가 항상 명확하게 구별되는 것은 아니기 때문에, 학습 과정이 종종 분류(classification)에 의해 지배될 수 있다. 이는 모델이 affordance 가능한 부분과 일치하지 않을 수 있는, 특정 클래스에 자주 나타나는 세부 사항에만 집중하게 만들 수 있다.

이러한 문제를 해결하기 위해 우리는 부분(part) 및 객체(object) 수준 모두에서 affordance-relevant 단서와 affordance-irrelevant 영역을 적응적으로 구별하는 selective prototypical 및 pixel contrastive objective를 도입했다. 또한, egocentric 이미지 내에서 affordance-relevant 부분을 추출하기 위한 부분 발견(part discovery) 알고리즘을 도입했으며, exocentric 이미지에서 부분을 식별하기 위한 기존 접근 방식의 수정된 버전을 통합했다. 마지막으로, convolution 기반 CAM(Class Activation Map) 예측에서 receptive field로 인해 발생하는 활성화 확산(activation spread)을 완화하기 위해 객체 affinity map을 사용한 localized map calibration 프로세스를 적용했다.

실험 결과는 우리 접근 방식의 효과를 입증한다.

Acknowledgements

본 연구는 MSIT/IITP (No. RS-2022-II220680, 2020-0-01821, RS-2019-II190421, RS-2024-00459618, RS-2024-00360227, RS-2024-00437633), MSIT/NRF (No. RS-2024-00357729), KNPA/KIPoT (No. RS-2025-25393280) 및 SEMES의 지원을 받은 SEMES-SKKU 협력을 통해 부분적으로 지원받았다.

A. Datasets and Implementation Details

데이터셋 (Datasets)
우리는 weakly supervised affordance grounding (WSAG) 방법의 벤치마크를 위해 AGD20K [29]와 HICO-IIF [49] 두 가지 데이터셋을 사용한다.
AGD20K는 3,755개의 egocentric 이미지와 20,061개의 exocentric 이미지로 구성되어 있으며, 36개의 affordance class와 50개의 object class를 포함한다.
Dense annotation은 사람과 객체 영역 간의 상호작용 확률에 따라 레이블링되며, 이후 Gaussian blur가 적용되어 heatmap을 생성한다.
**HICO-IIF [49]**는 1,088개의 egocentric 이미지와 4,793개의 exocentric 이미지로 구성된다.
HICO-IIF는 HICO-DET [6]과 IIT-AFF [36]에서 수집되었으며, 두 데이터셋 모두 객체 및 affordance 카테고리를 갖추고 있다.

구현 세부 사항 (Implementation Details)
이전 연구들 [24, 49]을 따라, 우리는 모든 실험에서 DINO ViT-S/16을 사용하고, egocentric 이미지당 exocentric 이미지의 수 $E$ 를 3으로 설정한다.
또한, part-level prototypical contrastive learning을 위해 exocentric 이미지에서 객체를 분할하는 데 사용되는 클러스터 수 $K$ 를 3으로 설정한다.
모델은 SGD optimizer를 사용하여 최적화되며, learning rate는 1e-3, weight decay는 5e-4, batch size는 8로 설정한다.
추가적으로, 데이터셋 간에 일관된 파라미터를 유지하면서도, ADE20k와 HICO-IIF 간의 학습 epoch 수를 다르게 설정한다.
구체적으로, ADE20k 데이터셋은 seen 및 unseen 시나리오 모두에서 15 epoch 동안 학습하는 반면, HICO-IIF는 50 epoch 동안 학습한다.
HICO-IIF의 학습 기간이 3~4배 더 긴 이유는 데이터셋 크기가 ADE20k보다 약 3~4배 작기 때문이며, 성능 포화에 도달하기 위해 추가적인 반복 학습이 필요하다.
MLP는 feed-forward network로 정의되며, 각 projection layer는 두 개의 convolution layer를 포함하고, 그 뒤에 CAM을 생성하는 classifier가 이어진다.
각 contrastive loss를 위한 projection layer는 normalization layer가 있는 linear layer로 설계된다.

또한, 본 논문에서 언급했듯이, 우리는 ClearCLIP [23]의 전략을 사용하여 CLIP ViT-B/16의 시각 feature에서 local discriminability를 향상시킨다.
ClearCLIP은 원래 CLIP 아키텍처의 마지막 layer에 세 가지 주요 수정 사항을 도입한다: (1) residual connection 제거, (2) self-self attention (즉, query-to-query attention [47])을 통한 공간 정보 재구성, (3) feed-forward network 제거.
이러한 수정 사항은 fine-tuning 단계 없이 적용되어, 원래 CLIP의 사전학습된 가중치를 그대로 사용한다.
ClearCLIP이 naïve CLIP에 미치는 영향은 Tab. A1에 나와 있다.

Table A1. AGD20k-Seen 시나리오에서 CLIP-B/16 및 ClearCLIP-B/16을 사용한 affordance grounding 결과.

Method	ZeroShot	KLD	SIM	NSS
CLIP	O	1.774	0.250	0.640
	X	1.160	0.412	1.267
ClearCLIP	O	1.574	0.294	0.945
	X	1.124	0.433	1.280

Table A2. AGD20k-Seen 시나리오에서 CLIP prompt 비교. {action}은 action label을 나타낸다.

Method	Prompt	KLD SIM NSS
CLIP	{action}	1.826	0.242	0.522
	"an item to" {action} "with"	1.774	0.250	0.640
ClearCLIP	"action }	1.672	0.277	0.795
	"an item to" {action} "with"	1.574	0.294	0.945

Figure A1. 다양한 종류의 prompt를 사용한 exocentric 이미지의 object affinity map 시각화. (a): {action}, (b): "an item to" {action} "with", (c): "an item to" {action} "with"와 "a person" {action} "an item"의 곱.

B. Object Affinity Map

이 섹션에서는 객체 affinity map $A$ 가 어떻게 얻어지는지에 대한 자세한 설명을 제공한다. 우리는 ClearCLIP [23]을 사용하여 egocentric 및 exocentric 이미지에 대한 객체 affinity map을 추론하기 위한 다양한 전략을 적용한다.

Egocentric affinity map의 경우, 우리는 egocentric 이미지와 action-prompted query 간의 유사도를 계산한다. Action-prompted query는 액션 레이블에 "an item to"라는 고정된 접두사와 "with"라는 접미사를 추가하여 생성된다. 예를 들어, "catch"라는 액션 레이블은 "an item to catch with"로 확장된다. 그러나 "brush with" 또는 "cut with"와 같이 액션 레이블이 이미 "with"로 끝나는 경우, 접미사 "with"는 추가되지 않는다. Action-prompted query의 영향은 Tab. A2에 제시되어 있다.

Figure A2. 다양한 하이퍼파라미터에 대한 ablation study. X축은 각 하이퍼파라미터의 값을 나타내고, Y축은 KLD 성능을 보여준다.

반면에, exocentric 이미지에 대한 객체 affinity map은 Figure A1에 나타난 바와 같이, 상호작용에 관련된 객체 부분에 주로 초점을 맞추기 위해 두 가지 prompting 방법을 사용하여 생성된다. exocentric 이미지에서 객체를 식별하기 위해, 우리는 먼저 Figure A1의 (b) 행에 나타난 바와 같이 egocentric 이미지에 적용된 것과 동일한 action-prompted query를 사용한다. 그러나 우리는 활성화(activation)가 전경 객체(foreground objects) 전반에 걸쳐 넓게 분포되어 있음을 관찰한다. 이를 해결하기 위해, 우리는 객체와 상호작용하는 entity를 지역화하기 위해 entity-prompted query를 추가적으로 활용한다. 우리는 action-prompted query와 entity-prompted query의 교집합이 단순히 액션 레이블에서 파생된 유사도 맵보다 더 정확한 지역화 맵을 생성할 것이라고 가정한다. Entity-prompted query는 "a person"이라는 접두사와 "an item"이라는 접미사로 구성된다. 예를 들어, "catch"라는 액션 레이블은 "a person catch an item"으로 확장된다. 그러나 entity-prompted query를 사용하여 얻은 유사도 맵은 문장에서 entity에 초점을 맞추기 때문에 객체 부분을 완전히 포착하지 못할 수 있다. 이를 해결하기 위해, 우리는 각 패치(patch)의 활성화를 주변 패치와 평균화하여 부드럽게 만드는 local average pooling을 적용한다. 마지막으로, 우리는 action-prompted query와 entity-prompted query에서 생성된 affinity map을 곱하여 (c) 행의 exocentric 이미지에 대한 객체 affinity map을 생성한다.

C. Hyperparameter Ablation

우리는 선택된 affordable part의 신뢰도를 제어하는 임계값 $\alpha$ 와 $\gamma$ 의 영향을 연구한다. 임계값 $\alpha$ 는 exocentric 이미지 내 객체의 part segment가 원하는 객체 part에 해당하는지 여부를 결정하며, $\gamma$ 는 egocentric 및 exocentric 이미지 모두의 object affinity map을 전경(foreground) 타겟과 배경(background)으로 이진화(binarize)하는 데 사용된다. 다양한 $\alpha$ 와 $\gamma$ 에 대한 성능 비교는 Fig. A2에 나타나 있다. 우리의 결과는 신뢰할 수 있는 클러스터(픽셀 그룹)를 선택하는 데 사용되는 $\alpha$ 가 $\gamma$ 보다 더 민감하다는 것을 보여준다. 그러나 두 임계값 모두 0.5에서 0.6 범위 내에서 일관되게 최적의 성능을 달성한다. 본 연구에서는 $\alpha$ 와 $\gamma$ 를 0.6으로 설정한다.

Figure A3. Loss 계수 연구. $\lambda_{1}$ 과 $\lambda_{2}$ 는 각각 prototypical 및 pixel contrastive learning을 위한 계수이다. 우리는 다른 계수들을 기본값인 1로 고정한 채 각 계수를 변화시키고, 동시에 조정했을 때의 영향도 조사한다.

또한, 우리는 prototypical 및 pixel contrastive loss 모두에 사용되는 스케일링 파라미터 $\tau$ 를 변화시켰을 때의 영향을 조사한다. 결과는 Fig. A2의 오른쪽에 나타나 있다. 본 연구에서는 최상의 결과를 도출하는 0.5로 $\tau$ 를 설정한다.

하이퍼파라미터를 조정할 때 성능이 약간 감소하더라도, 우리의 결과는 **프레임워크의 견고함(robustness)**을 보여준다. 특히, 우리 모델은 하이퍼파라미터 $\alpha, \gamma, \tau$ 에 관계없이 일관되게 state-of-the-result 성능을 달성한다.

Loss 계수에 대한 연구는 Fig. A3에 제시되어 있다. 보시다시피, 우리의 기본값인 1이 최상의 결과를 산출한다. 그럼에도 불구하고, 우리가 제안하는 접근 방식은 상당한 차이로 baseline을 일관되게 능가하며, 이는 광범위한 파라미터 튜닝에 대한 견고함과 둔감함을 보여준다.

D. Bias on Object and Affordance Classes

객체는 다양한 action에 관여할 수 있으며, 마찬가지로 다양한 객체에서 여러 affordance class가 발생할 수 있다. 이는 클래스 간의 구분이 명시적으로 제공되지 않는 weakly supervised affordance grounding에서 특히 어려운 과제를 제시한다. Fig. A4에서 우리는 이러한 시나리오에서 제안된 접근 방식이 어떻게 작동하는지 살펴본다.
먼저, Fig. A4 (a)는 동일한 객체 클래스에 대해 다른 affordance class를 쿼리했을 때의 예측 결과를 보여준다. 예측이 완벽하게 정확하지는 않지만, 모델은 명시적인 클래스 수준의 단서가 없음에도 불구하고 affordance class 간의 의미 있는 구분을 여전히 보여준다.

Figure A4. AGD20K 데이터셋에 대한 테스트 이미지, ground-truth label 및 우리의 예측 시각화.

Table A3. pIoU 측정을 위한 DINO attention map과 CLIP affinity map 간의 비교 결과.

Dataset-Scenario	Method	KLD $\downarrow$	SIM $\uparrow$	NSS $\uparrow$
AGD20K-Seen	DINO-attn	1.124	0.433	1.280
	CLIP-obj.	1.126	0.435	1.273
AGD20K-Unseen	DINO-attn	1.243	0.405	1.368
	CLIP-obj.	1.257	0.398	1.360

Fig. A4 (b)는 모델이 다양한 객체 클래스에 걸쳐 affordance 이해를 얼마나 잘 일반화하는지를 추가로 시각화하며, 일관된 성능을 보여준다. 이러한 결과는 우리의 전략이 특정 객체-affordance 쌍에 대한 편향을 효과적으로 최소화하여, 견고한 affordance 예측을 촉진한다는 것을 뒷받침한다.

E. DINO Attention Map for Prototype Selection

Prototypical contrastive learning을 위한 prototype 생성 과정에서, 우리는 DINO의 self-attention map을 활용하여 pIoU를 측정한다. 이를 통해 세 가지 후보 중 가장 적합한 prototype을 선택하고 part-level learning을 수행할 수 있다. 우리는 DINO attention map이 egocentric 이미지 내에서 주요 객체를 식별할 수 있는 다른 대안으로 대체될 수 있음을 강조한다. 이러한 유연성을 검증하기 위해, 우리는 CLIP affinity map을 대안으로 사용하여 실험을 수행했으며, 특정 임계값(0.75)을 적용하여 전경(foreground)과 배경(background) 영역을 구분하였다. Table A3는 DINO attention map과 CLIP affinity map을 사용하여 얻은 결과를 비교하며, 우리 방법의 견고성과 다용도성을 보여준다.

F. Additional Qualitative Results

추가적인 정성적 결과는 baseline 방법들과 비교하여 Fig. A5와 Fig. A6에 나타나 있다. 특히, Fig. A5는 seen domain에서의 결과를 보여주는 반면, Fig. A6는 unseen domain에 초점을 맞춘다. 관찰된 바와 같이, 우리는 제안된 접근 방식이 기존 연구들보다 일관되게 더 정확한 결과를 보여준다는 것을 확인했다.

Figure A5. seen domain에서 우리 접근 방식과 다른 방법들의 Affordance grounding 결과.

Figure A6. unseen domain에서 우리 접근 방식과 다른 방법들의 Affordance grounding 결과.