Li, Junnan, et al. "Align before fuse: Vision and language representation learning with momentum distillation." Advances in neural information processing systems 34 (2021): 9694-9705.

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Junnan Li, Ramprasaath R. Selvaraju, Akhilesh D. Gotmare<br>Shafiq Joty, Caiming Xiong, Steven C.H. Hoi<br>Salesforce Research<br>{junnan.li,rselvaraju,akhilesh.gotmare,sjoty,shoi}@salesforce.com

Abstract

대규모 vision-language representation learning은 다양한 vision-language task에서 유망한 개선을 보여주었다. 대부분의 기존 방법들은 Transformer 기반의 multimodal encoder를 사용하여 visual token (영역 기반 이미지 feature)과 word token을 함께 모델링한다. 그러나 visual token과 word token이 정렬(unaligned)되어 있지 않기 때문에, multimodal encoder가 이미지-텍스트 상호작용을 학습하는 데 어려움이 있다.

본 논문에서는 **cross-modal attention을 통해 이미지와 텍스트 표현을 융합(fuse)하기 전에 정렬(ALign)하는 contrastive loss (ALBEF)**를 소개하며, 이는 더욱 grounded된 vision-language representation learning을 가능하게 한다. 대부분의 기존 방법들과 달리, 우리의 방법은 bounding box 어노테이션이나 고해상도 이미지를 필요로 하지 않는다.

노이즈가 많은 웹 데이터로부터의 학습을 개선하기 위해, 우리는 momentum distillation을 제안한다. 이는 momentum model이 생성한 pseudo-target으로부터 학습하는 self-training 방법이다. 우리는 상호 정보 최대화(mutual information maximization) 관점에서 ALBEF에 대한 이론적 분석을 제공하며, 다양한 학습 task가 이미지-텍스트 쌍에 대한 다른 뷰(view)를 생성하는 방식으로 해석될 수 있음을 보여준다.

ALBEF는 여러 다운스트림 vision-language task에서 state-of-the-art 성능을 달성한다. **이미지-텍스트 검색(image-text retrieval)**에서 ALBEF는 수십 배 더 큰 데이터셋으로 사전학습된 방법들보다 뛰어난 성능을 보인다. **VQA 및 NLVR $^2$ **에서는 state-of-the-art 대비 각각 2.37% 및 3.84%의 절대적인 성능 향상을 달성하면서도 더 빠른 추론 속도를 제공한다. 코드는 https://github.com/salesforce/ALBEF에서 확인할 수 있다.

1 Introduction

Vision-and-Language Pre-training (VLP)은 대규모 이미지-텍스트 쌍으로부터 멀티모달 표현을 학습하여 다운스트림 Vision-and-Language (V+L) task의 성능을 향상시키는 것을 목표로 한다. 대부분의 기존 VLP 방법들(예: LXMERT [1], UNITER [2], OSCAR [3])은 사전학습된 object detector에 의존하여 영역 기반(region-based) 이미지 feature를 추출하고, 멀티모달 encoder를 사용하여 이미지 feature와 단어 토큰을 융합한다. 이 멀티모달 encoder는 masked language modeling (MLM) 및 **image-text matching (ITM)**과 같이 이미지와 텍스트의 공동 이해를 요구하는 task를 해결하도록 학습된다.

이러한 VLP 프레임워크는 효과적이지만, 몇 가지 주요 한계점을 가지고 있다: (1) 이미지 feature와 단어 토큰 embedding이 각자의 공간에 존재하여, 멀티모달 encoder가 이들 간의 상호작용을 모델링하기 어렵다. (2) Object detector는 사전학습 시 bounding box annotation이 필요하고, 추론 시 고해상도(예: $600 \times 1000$ ) 이미지가 필요하므로, annotation 비용과 연산 비용이 모두 높다. (3) 널리 사용되는 이미지-텍스트 데이터셋 [4, 5]은 웹에서 수집되어 본질적으로 노이즈가 많으며, MLM과 같은 기존 사전학습 objective는 노이즈가 많은 텍스트에 과적합되어 모델의 일반화 성능을 저하시킬 수 있다.

우리는 이러한 한계점들을 해결하기 위해 새로운 VLP 프레임워크인 **Align BEfore Fuse (ALBEF)**를 제안한다. 우리는 먼저 detector-free image encoder와 text encoder를 사용하여 이미지와 텍스트를 독립적으로 인코딩한다. 그런 다음 멀티모달 encoder를 사용하여 cross-modal attention을 통해 이미지 feature와 텍스트 feature를 융합한다. 우리는 unimodal encoder의 표현에 대해 중간 단계의 image-text contrastive (ITC) loss를 도입하는데, 이는 세 가지 목적을 수행한다: (1) **이미지 feature와 텍스트 feature를 정렬(align)**하여 멀티모달 encoder가 cross-modal 학습을 더 쉽게 수행하도록 돕는다. (2) unimodal encoder의 성능을 향상시켜 이미지와 텍스트의 의미를 더 잘 이해하도록 한다. (3) 이미지와 텍스트를 임베딩하는 공통의 저차원 공간을 학습하여, image-text matching objective가 우리의 contrastive hard negative mining을 통해 더 유익한 샘플을 찾을 수 있도록 한다.

노이즈가 많은 supervision 하에서의 학습을 개선하기 위해, 우리는 **Momentum Distillation (MoD)**이라는 간단한 방법을 제안한다. 이는 모델이 더 큰 uncurated 웹 데이터셋을 활용할 수 있도록 한다. 학습 중에 우리는 모델 파라미터의 이동 평균(moving-average)을 취하여 momentum 버전의 모델을 유지하고, 이 momentum 모델을 사용하여 pseudo-target을 생성하여 추가적인 supervision으로 활용한다. MoD를 통해 모델은 웹 annotation과 다른 합리적인 출력을 생성하더라도 불이익을 받지 않는다. 우리는 MoD가 사전학습뿐만 아니라 깨끗한 annotation을 가진 다운스트림 task에서도 성능을 향상시킨다는 것을 보여준다.

우리는 상호 정보량(mutual information) 최대화 관점에서 ALBEF에 대한 이론적 정당성을 제공한다. 구체적으로, 우리는 ITC와 MLM이 이미지-텍스트 쌍의 다른 view들 간의 상호 정보량에 대한 하한(lower bound)을 최대화한다는 것을 보여준다. 여기서 view들은 각 쌍에서 부분적인 정보를 취하여 생성된다. 이러한 관점에서 우리의 momentum distillation은 의미적으로 유사한 샘플로 새로운 view를 생성하는 것으로 해석될 수 있다. 따라서 ALBEF는 의미를 보존하는 변환에 불변하는 vision-language 표현을 학습한다.

우리는 image-text retrieval, visual question answering, visual reasoning, visual entailment, weakly-supervised visual grounding을 포함한 다양한 다운스트림 V+L task에서 ALBEF의 효과를 입증한다. ALBEF는 기존의 state-of-the-art 방법들보다 상당한 개선을 달성한다. image-text retrieval에서는 수십 배 더 큰 데이터셋으로 사전학습된 방법들(CLIP [6] 및 ALIGN [7])보다 뛰어난 성능을 보인다. VQA 및 NLVR $^2$ 에서는 state-of-the-art 방법인 VILLA [8]에 비해 각각 2.37% 및 3.84%의 절대적인 성능 향상을 달성하면서도 훨씬 빠른 추론 속도를 자랑한다. 또한 Grad-CAM [9]을 사용하여 ALBEF에 대한 정량적 및 정성적 분석을 제공하며, 이는 정확한 객체, 속성 및 관계 grounding을 암묵적으로 수행하는 능력을 보여준다.

2.1 Vision-Language Representation Learning

기존의 vision-language representation learning 연구는 크게 두 가지 범주로 나뉜다.

첫 번째 범주는 Transformer 기반의 멀티모달 인코더를 사용하여 이미지 및 텍스트 feature 간의 상호작용을 모델링하는 데 중점을 둔다 [10, 11, 12, 13, 1, 14, 15, 2, 3, 16, 8, 17, 18]. 이 범주의 방법들은 이미지와 텍스트에 대한 복잡한 reasoning이 필요한 다운스트림 V+L task (예: NLVR $^2$ [19], VQA [20])에서 우수한 성능을 달성하지만, 대부분 고해상도 입력 이미지와 사전학습된 object detector를 필요로 한다. 최근의 한 방법 [21]은 object detector를 제거하여 추론 속도를 향상시켰지만, 성능 저하를 초래했다.

두 번째 범주는 이미지와 텍스트에 대해 별도의 unimodal encoder를 학습하는 데 중점을 둔다 [22, 23, 6, 7]. 최근의 **CLIP [6]과 ALIGN [7]**은 대규모의 노이즈가 많은 웹 데이터에 대해 contrastive loss를 사용하여 사전학습을 수행했는데, 이는 representation learning에 가장 효과적인 loss 중 하나이다 [24, 25, 26, 27]. 이들은 image-text retrieval task에서 놀라운 성능을 달성했지만, 다른 V+L task에서 이미지와 텍스트 간의 더 복잡한 상호작용을 모델링하는 능력은 부족하다 [21].

ALBEF는 이 두 가지 범주를 통합하여, retrieval 및 reasoning task 모두에서 우수한 성능을 가진 강력한 unimodal 및 multimodal representation을 생성한다. 또한, ALBEF는 많은 기존 방법들의 주요 연산 병목 지점인 object detector를 필요로 하지 않는다 [1, 2, 3, 8, 17].

2.2 Knowledge Distillation

Knowledge distillation [28]은 일반적으로 학생 모델의 예측을 교사 모델의 예측과 일치시키는 방식으로, 교사 모델로부터 지식을 증류(distill)하여 학생 모델의 성능을 향상시키는 것을 목표로 한다. 대부분의 방법이 사전학습된 교사 모델로부터 지식을 증류하는 데 초점을 맞추는 반면 [28, 29, 30, 31, 32], online distillation [33, 34]은 여러 모델을 동시에 학습시키고 이들의 앙상블을 교사로 사용한다.
우리의 momentum distillation은 online self-distillation의 한 형태로 해석될 수 있으며, 여기서는 학생 모델의 temporal ensemble이 교사로 사용된다. 유사한 아이디어는 semi-supervised learning [35], label noise learning [36], 그리고 최근에는 contrastive learning [37]에서도 탐구되었다. 기존 연구들과 달리, 우리는 momentum distillation이 다양한 V+L task에서 모델 성능을 향상시킬 수 있는 범용 학습 알고리즘임을 이론적 및 실험적으로 보여준다.

3 ALBEF Pre-training

이 섹션에서는 먼저 모델 아키텍처(Section 3.1)를 소개한다. 이어서 사전학습 objective(Section 3.2)를 설명하고, 제안하는 momentum distillation(Section 3.3)에 대해 다룬다. 마지막으로 사전학습 데이터셋(Section 3.4)과 구현 세부사항(Section 3.5)을 기술한다.

Figure 1: ALBEF의 구조. ALBEF는 image encoder, text encoder, multimodal encoder로 구성된다. 우리는 image-text contrastive loss를 제안하여, 융합(fusion) 전에 **image-text 쌍의 unimodal representation을 정렬(align)**한다. **image-text matching loss (contrastive similarity를 통해 추출된 in-batch hard negative 사용)**와 masked-language-modeling loss는 이미지와 텍스트 간의 multimodal 상호작용을 학습하는 데 적용된다. 노이즈가 있는 데이터로의 학습을 개선하기 위해, 우리는 학습 중에 **momentum model (기본 모델의 이동 평균 버전)**을 사용하여 pseudo-target을 생성하고 이를 추가적인 supervision으로 활용한다.

3.1 Model Architecture

Figure 1에서 보여주듯이, ALBEF는 image encoder, text encoder, multimodal encoder를 포함한다. 우리는 12-layer visual Transformer ViT-B/16 [38]을 image encoder로 사용하며, ImageNet-1k에서 사전학습된 가중치 [31]로 초기화한다. 입력 이미지 $I$ 는 $\left\{\boldsymbol{v}_{\text {cls }}, \boldsymbol{v}_{1}, \ldots, \boldsymbol{v}_{N}\right\}$ 와 같은 임베딩 시퀀스로 인코딩되며, 여기서 $\boldsymbol{v}_{\text {cls }}$ 는 [CLS] 토큰의 임베딩이다. 우리는 6-layer Transformer [39]를 text encoder와 multimodal encoder 모두에 사용한다. text encoder는 $\mathrm{BERT}_{\text {base}}$ [40] 모델의 첫 6개 layer 가중치로 초기화되며, multimodal encoder는 $\mathrm{BERT}_{\text {base}}$ 의 마지막 6개 layer 가중치로 초기화된다. text encoder는 입력 텍스트 $T$ 를 $\left\{\boldsymbol{w}_{\text {cls }}, \boldsymbol{w}_{1}, \ldots, \boldsymbol{w}_{N}\right\}$ 와 같은 임베딩 시퀀스로 변환하며, 이 시퀀스는 multimodal encoder에 입력된다. multimodal encoder의 각 layer에서 cross attention을 통해 이미지 feature와 텍스트 feature가 융합된다.

3.2 Pre-training Objectives

우리는 ALBEF를 세 가지 objective로 사전학습한다:

unimodal encoder에 대한 Image-Text Contrastive Learning (ITC),
multimodal encoder에 대한 Masked Language Modeling (MLM),
Image-Text Matching (ITM).

우리는 online contrastive hard negative mining을 통해 ITM을 개선한다.

Image-Text Contrastive Learning은 융합(fusion) 전에 더 나은 unimodal representation을 학습하는 것을 목표로 한다. 이는 평행한 이미지-텍스트 쌍이 더 높은 유사도 점수를 갖도록 유사도 함수 $s=g_{v}\left(\boldsymbol{v}_{\text {cls }}\right)^{\top} g_{w}\left(\boldsymbol{w}_{\text {cls }}\right)$ 를 학습한다. $g_{v}$ 와 $g_{w}$ 는 [CLS] embedding을 정규화된 저차원(256-d) representation으로 매핑하는 선형 변환이다. MoCo [24]에서 영감을 받아, 우리는 momentum unimodal encoder로부터 가장 최근의 $M$ 개 이미지-텍스트 representation을 저장하기 위해 두 개의 큐(queue)를 유지한다. momentum encoder로부터 얻은 정규화된 feature는 $g_{v}^{\prime}\left(\boldsymbol{v}_{\text {cls }}^{\prime}\right)$ 와 $g_{w}^{\prime}\left(\boldsymbol{w}_{\text {cls }}^{\prime}\right)$ 로 표기한다. 우리는 $s(I, T)=g_{v}\left(\boldsymbol{v}_{\mathrm{cls}}\right)^{\top} g_{w}^{\prime}\left(\boldsymbol{w}_{\mathrm{cls}}^{\prime}\right)$ 와 $s(T, I)=g_{w}\left(\boldsymbol{w}_{\mathrm{cls}}\right)^{\top} g_{v}^{\prime}\left(\boldsymbol{v}_{\mathrm{cls}}^{\prime}\right)$ 로 정의한다. 각 이미지와 텍스트에 대해, 우리는 softmax-정규화된 image-to-text 및 text-to-image 유사도를 다음과 같이 계산한다:

p_{m}^{\mathrm{i} 2 \mathrm{t}}(I)=\frac{\exp \left(s\left(I, T_{m}\right) / \tau\right)}{\sum_{m=1}^{M} \exp \left(s\left(I, T_{m}\right) / \tau\right)}, \quad p_{m}^{\mathrm{t} 2 \mathrm{i}}(T)=\frac{\exp \left(s\left(T, I_{m}\right) / \tau\right)}{\sum_{m=1}^{M} \exp \left(s\left(T, I_{m}\right) / \tau\right)}

여기서 $\tau$ 는 학습 가능한 temperature 파라미터이다. $\boldsymbol{y}^{\mathrm{i}2\mathrm{t}}(I)$ 와 $\boldsymbol{y}^{\mathrm{t}2\mathrm{i}}(T)$ 는 ground-truth one-hot 유사도를 나타내며, negative 쌍은 확률이 0이고 positive 쌍은 확률이 1이다. image-text contrastive loss는 $\boldsymbol{p}$ 와 $\boldsymbol{y}$ 사이의 cross-entropy H로 정의된다:

\mathcal{L}_{\mathrm{itc}}=\frac{1}{2} \mathbb{E}_{(I, T) \sim D}\left[\mathrm{H}\left(\boldsymbol{y}^{\mathrm{i} 2 \mathrm{t}}(I), \boldsymbol{p}^{\mathrm{i} 2 \mathrm{t}}(I)\right)+\mathrm{H}\left(\boldsymbol{y}^{\mathrm{t} 2 \mathrm{i}}(T), \boldsymbol{p}^{\mathrm{t} 2 \mathrm{i}}(T)\right)\right]

Figure 2: MLM (첫 번째 행) 및 ITC (두 번째 행)를 위한 pseudo-target의 예시. pseudo-target은 ground-truth 텍스트로 설명되지 않는 시각적 개념(예: "아름다운 폭포", "젊은 여성")을 포착할 수 있다.

Masked Language Modeling은 이미지와 문맥 텍스트를 모두 활용하여 마스킹된 단어를 예측한다. 우리는 입력 토큰을 15%의 확률로 무작위로 마스킹하고, 이를 특수 토큰 [MASK]로 대체한다. 마스킹된 텍스트를 $\hat{T}$ 로, 마스킹된 토큰에 대한 모델의 예측 확률을 $\boldsymbol{p}^{\text {msk }}(I, \hat{T})$ 로 나타낸다. MLM은 cross-entropy loss를 최소화한다:

\mathcal{L}_{\mathrm{mlm}}=\mathbb{E}_{(I, \hat{T}) \sim D} \mathrm{H}\left(\boldsymbol{y}^{\mathrm{msk}}, \boldsymbol{p}^{\mathrm{msk}}(I, \hat{T})\right)

여기서 $\boldsymbol{y}^{\mathrm{msk}}$ 는 ground-truth 토큰이 확률 1을 갖는 one-hot vocabulary 분포이다.

Image-Text Matching은 이미지와 텍스트 쌍이 positive(일치)인지 negative(불일치)인지를 예측한다. 우리는 multimodal encoder의 [CLS] 토큰 출력 embedding을 이미지-텍스트 쌍의 공동 representation으로 사용하고, softmax가 뒤따르는 fully-connected (FC) layer를 추가하여 두 클래스 확률 $p^{\text {itm }}$ 을 예측한다. ITM loss는 다음과 같다:

\mathcal{L}_{\mathrm{itm}}=\mathbb{E}_{(I, T) \sim D} \mathrm{H}\left(\boldsymbol{y}^{\mathrm{itm}}, \boldsymbol{p}^{\mathrm{itm}}(I, T)\right)

여기서 $\boldsymbol{y}^{\text {itm }}$ 은 ground-truth 레이블을 나타내는 2차원 one-hot 벡터이다. 우리는 계산 오버헤드 없이 ITM task를 위한 hard negative를 샘플링하는 전략을 제안한다. negative 이미지-텍스트 쌍은 유사한 의미를 공유하지만 세부적인 부분에서 차이가 있을 때 hard하다고 볼 수 있다. 우리는 Equation 1의 contrastive 유사도를 사용하여 in-batch hard negative를 찾는다. 미니배치 내의 각 이미지에 대해, contrastive 유사도 분포에 따라 동일 배치에서 하나의 negative 텍스트를 샘플링한다. 이때 이미지와 더 유사한 텍스트가 샘플링될 확률이 더 높다. 마찬가지로, 각 텍스트에 대해서도 하나의 hard negative 이미지를 샘플링한다. ALBEF의 전체 사전학습 objective는 다음과 같다:

\mathcal{L}=\mathcal{L}_{\mathrm{itc}}+\mathcal{L}_{\mathrm{mlm}}+\mathcal{L}_{\mathrm{itm}}

3.3 Momentum Distillation

사전학습에 사용되는 이미지-텍스트 쌍은 대부분 웹에서 수집되며, 노이즈가 많은 경향이 있다. 긍정적인 쌍(positive pairs)조차도 약하게 연관되어 있는 경우가 많다: 텍스트에 이미지와 관련 없는 단어가 포함되거나, 이미지에 텍스트에 설명되지 않은 개체가 포함될 수 있다. ITC 학습의 경우, 이미지에 대한 negative 텍스트가 실제 이미지 내용과 일치할 수도 있다. MLM의 경우, 주석(annotation)과 다르지만 이미지를 동등하게(또는 더 잘) 설명하는 다른 단어들이 존재할 수 있다. 그러나 ITC와 MLM의 one-hot label은 정확성 여부와 관계없이 모든 negative 예측에 페널티를 부과한다.

이러한 문제를 해결하기 위해, 우리는 momentum model이 생성한 pseudo-target으로부터 학습하는 방식을 제안한다. momentum model은 unimodal 및 multimodal encoder의 exponential-moving-average 버전으로 구성된 지속적으로 진화하는 teacher 모델이다. 학습 중에 우리는 base model의 예측이 momentum model의 예측과 일치하도록 학습시킨다.
구체적으로, ITC의 경우, 먼저 momentum unimodal encoder의 feature를 사용하여 이미지-텍스트 유사도를 $s^{\prime}(I, T)=g_{v}^{\prime}\left(\boldsymbol{v}_{\mathrm{cls}}^{\prime}\right)^{\top} g_{w}^{\prime}\left(\boldsymbol{w}_{\mathrm{cls}}^{\prime}\right)$ 및 $s^{\prime}(T, I)=g_{w}^{\prime}\left(\boldsymbol{w}_{\mathrm{cls}}\right)^{\top} g_{v}^{\prime}\left(\boldsymbol{v}_{\mathrm{cls}}^{\prime}\right)$ 와 같이 계산한다. 그런 다음 Equation 1에서 $s$ 를 $s^{\prime}$ 로 대체하여 soft pseudo-target $\boldsymbol{q}^{\mathrm{i} 2 \mathrm{t}}$ 및 $\boldsymbol{q}^{\mathrm{t} 2 \mathrm{i}}$ 를 계산한다. ITC $_{\text {MoD }}$ loss는 다음과 같이 정의된다:

\mathcal{L}_{\mathrm{itc}}^{\mathrm{mod}}=(1-\alpha) \mathcal{L}_{\mathrm{itc}}+\frac{\alpha}{2} \mathbb{E}_{(I, T) \sim D}\left[\mathrm{KL}\left(\boldsymbol{q}^{\mathrm{i} 2 \mathrm{t}}(I) \| \boldsymbol{p}^{\mathrm{i} 2 \mathrm{t}}(I)\right)+\mathrm{KL}\left(\boldsymbol{q}^{\mathrm{t} 2 \mathrm{i}}(T) \| \boldsymbol{p}^{\mathrm{t} 2 \mathrm{i}}(T)\right)\right]

마찬가지로, MLM의 경우, 마스킹된 토큰에 대한 momentum model의 예측 확률을 $\boldsymbol{q}^{\mathrm{msk}}(I, \hat{T})$ 라고 하면, MLM $_{\text {MoD }}$ loss는 다음과 같다:

\mathcal{L}_{\mathrm{mlm}}^{\mathrm{mod}}=(1-\alpha) \mathcal{L}_{\mathrm{mlm}}+\alpha \mathbb{E}_{(I, \hat{T}) \sim D} \mathrm{KL}\left(\boldsymbol{q}^{\mathrm{msk}}(I, \hat{T}) \| \boldsymbol{p}^{\mathrm{msk}}(I, \hat{T})\right)

Figure 2에서는 pseudo-target에서 상위 5개 후보의 예시를 보여주는데, 이는 이미지에 대한 관련 단어/텍스트를 효과적으로 포착한다. 더 많은 예시는 Appendix에서 찾을 수 있다.

우리는 또한 MoD를 다운스트림 task에도 적용한다. 각 task의 최종 loss는 원래 task의 loss와 모델 예측 및 pseudo-target 간의 KL-divergence의 가중 조합이다. 단순화를 위해, 모든 사전학습 및 다운스트림 task에 대해 가중치 $\alpha=0.4$ 로 설정하였다.

3.4 Pre-training Datasets

UNITER [2]를 따라, 우리는 두 개의 웹 데이터셋(Conceptual Captions [4], SBU Captions [5])과 두 개의 in-domain 데이터셋(COCO [41], Visual Genome [42])을 사용하여 사전학습 데이터를 구축한다. 고유 이미지의 총 개수는 400만 개이며, 이미지-텍스트 쌍의 개수는 510만 개이다. 우리의 방법이 대규모 웹 데이터에도 확장 가능함을 보여주기 위해, 우리는 훨씬 더 노이즈가 많은 Conceptual 12M 데이터셋 [43]도 포함시켰으며, 이로 인해 총 이미지 수가 1,410만 개로 증가했다. 자세한 내용은 Appendix에 있다.

3.5 Implementation Details

우리 모델은 1억 2,370만 개의 파라미터를 가진 **BERT $_{\text{base}}$ **와 8,580만 개의 파라미터를 가진 ViT-B/16으로 구성된다. 우리는 8개의 NVIDIA A100 GPU에서 batch size 512로 30 epoch 동안 모델을 사전학습(pre-train)한다. AdamW [44] optimizer를 사용하며, weight decay는 0.02로 설정한다. 학습률(learning rate)은 처음 1000 iteration 동안 $1e^{-4}$ 까지 warm-up되고, 이후 cosine schedule에 따라 $1e^{-5}$ 까지 감소한다. 사전학습 중에는 $256 \times 256$ 해상도의 무작위 이미지 crop을 입력으로 사용하며, RandAugment 4 [45]도 적용한다. fine-tuning 시에는 이미지 해상도를 $384 \times 384$ 로 증가시키고, [38]에 따라 이미지 패치의 positional encoding을 interpolate한다. momentum 모델 업데이트를 위한 momentum 파라미터는 0.995로 설정하며, image-text contrastive learning에 사용되는 queue의 크기는 65,536으로 설정한다. distillation weight $\alpha$ 는 첫 번째 epoch 내에서 0부터 0.4까지 선형적으로 증가시킨다.

4 A Mutual Information Maximization Perspective

이 섹션에서는 ALBEF에 대한 대안적인 관점을 제시하고, ALBEF가 이미지-텍스트 쌍의 서로 다른 "뷰(view)" 간의 상호 정보량(Mutual Information, MI)에 대한 하한(lower bound)을 최대화한다는 것을 보여준다. ITC, MLM, MoD는 이러한 뷰를 생성하는 다양한 방식으로 해석될 수 있다.

정식으로, 우리는 데이터 포인트의 두 가지 다른 뷰를 두 개의 확률 변수 $a$ 와 $b$ 로 정의한다. self-supervised learning [24, 25, 46]에서는 $a$ 와 $b$ 가 동일한 이미지의 두 가지 augmentation이다. vision-language representation learning에서는 $a$ 와 $b$ 를 이미지-텍스트 쌍의 의미론적 의미를 포착하는 서로 다른 변형으로 간주한다. 우리는 뷰의 변화에 불변하는 representation을 학습하는 것을 목표로 한다. 이는 $a$ 와 $b$ 사이의 MI를 최대화함으로써 달성될 수 있다. 실제로는 InfoNCE loss [47]를 최소화하여 MI( $a, b$ )의 하한을 최대화한다. InfoNCE loss는 다음과 같이 정의된다:

\mathcal{L}_{\mathrm{NCE}}=-\mathbb{E}_{p(a, b)}\left[\log \frac{\exp (s(a, b))}{\sum_{\hat{b} \in \hat{B}} \exp (s(a, \hat{b}))}\right]

여기서 $s(a, b)$ 는 스코어링 함수(예: 두 representation 간의 dot product)이며, $\hat{B}$ 는 긍정 샘플 $b$ 와 제안 분포에서 추출된 $|\hat{B}|-1$ 개의 부정 샘플을 포함한다.

one-hot label을 사용하는 우리의 ITC loss (Equation 2)는 다음과 같이 다시 쓸 수 있다:

\mathcal{L}_{\mathrm{itc}}=-\frac{1}{2} \mathbb{E}_{p(I, T)}\left[\log \frac{\exp (s(I, T) / \tau)}{\sum_{m=1}^{M} \exp \left(s\left(I, T_{m}\right) / \tau\right)}+\log \frac{\exp (s(T, I) / \tau)}{\sum_{m=1}^{M} \exp \left(s\left(T, I_{m}\right) / \tau\right)}\right]

$\mathcal{L}_{\text {itc }}$ 를 최소화하는 것은 InfoNCE의 대칭 버전(symmetric version)을 최대화하는 것으로 볼 수 있다. 따라서 ITC는 두 개의 개별 모달리티(즉, $I$ 와 $T$ )를 이미지-텍스트 쌍의 두 가지 뷰로 간주하고, 긍정 쌍에 대해 이미지 뷰와 텍스트 뷰 간의 MI를 최대화하도록 unimodal encoder를 학습시킨다.

[48]에서 보여주듯이, 우리는 MLM을 마스킹된 단어 토큰과 그 마스킹된 컨텍스트(즉, 이미지 + 마스킹된 텍스트) 간의 MI를 최대화하는 것으로 해석할 수도 있다. 구체적으로, one-hot label을 사용하는 MLM loss (Equation 3)는 다음과 같이 다시 쓸 수 있다:

\mathcal{L}_{\mathrm{mlm}}=-\mathbb{E}_{p(I, \hat{T})}\left[\log \frac{\exp \left(\psi\left(y^{\mathrm{msk}}\right)^{\top} f(I, \hat{T})\right)}{\sum_{y \in \mathcal{V}} \exp \left(\psi(y)^{\top} f(I, \hat{T})\right)}\right]

여기서 $\psi(y): \mathcal{V} \rightarrow \mathbb{R}^{d}$ 는 단어 토큰 $y$ 를 벡터로 매핑하는 multimodal encoder의 출력 레이어에 있는 lookup 함수이며, $\mathcal{V}$ 는 **전체 어휘 집합(vocabulary set)**이다. $f(I, \hat{T})$ 는 마스킹된 컨텍스트에 해당하는 multimodal encoder의 최종 hidden state를 반환하는 함수이다. 따라서 MLM은 이미지-텍스트 쌍의 두 가지 뷰를 다음과 같이 간주한다: (1) 무작위로 선택된 단어 토큰, (2) 이미지 + 해당 단어가 마스킹된 컨텍스트 텍스트.

ITC와 MLM은 모달리티 분리 또는 단어 마스킹을 통해 이미지-텍스트 쌍에서 부분적인 정보를 취하여 뷰를 생성한다. 우리의 momentum distillation은 전체 제안 분포(proposal distribution)로부터 대안적인 뷰를 생성하는 것으로 간주될 수 있다. Equation 6의 ITC $_{\text {MoD }}$ 를 예로 들면, $\mathrm{KL}\left(\boldsymbol{p}^{\mathrm{i} 2 \mathrm{t}}(I), \boldsymbol{q}^{\mathrm{i} 2 \mathrm{t}}(I)\right)$ 를 최소화하는 것은 다음 목적 함수를 최소화하는 것과 동일하다:

-\sum_{m} q_{m}^{\mathrm{i} 2 \mathrm{t}}(I) \log p_{m}^{\mathrm{i} 2 \mathrm{t}}(I)=-\sum_{m} \frac{\exp \left(s^{\prime}\left(I, T_{m}\right) / \tau\right)}{\sum_{m=1}^{M} \exp \left(s^{\prime}\left(I, T_{m}\right) / \tau\right)} \log \frac{\exp \left(s\left(I, T_{m}\right) / \tau\right)}{\sum_{m=1}^{M} \exp \left(s\left(I, T_{m}\right) / \tau\right)}

이는 이미지 $I$ 와 유사한 의미론적 의미를 공유하는 텍스트에 대해 $\mathrm{MI}\left(I, T_{m}\right)$ 를 최대화한다. 왜냐하면 그러한 텍스트는 더 큰 $q_{m}^{\mathrm{i} 2 \mathrm{t}}(I)$ 값을 가질 것이기 때문이다. 유사하게, ITC $_{\mathrm{MoD}}$ 는 $T$ 와 유사한 이미지에 대해 $\mathrm{MI}\left(I_{m}, T\right)$ 를 최대화한다. 동일한 방법을 사용하여 MLM $_{\text {MoD }}$ 가 마스킹된 단어 $y^{\mathrm{msk}}$ 에 대한 대안적인 뷰 $y^{\prime} \in \mathcal{V}$ 를 생성하고, $y^{\prime}$ 와 $(I, \hat{T})$ 간의 MI를 최대화한다는 것을 보여줄 수 있다. 따라서 우리의 momentum distillation은 원래 뷰에 대한 데이터 증강(data augmentation)을 수행하는 것으로 간주될 수 있다. momentum model은 원래 이미지-텍스트 쌍에는 없는 다양한 뷰를 생성하고, base model이 뷰 불변(view-invariant) 의미 정보를 포착하는 representation을 학습하도록 장려한다.

5 Downstream V+L Tasks

우리는 사전학습된 모델을 5가지 다운스트림 V+L task에 적용한다. 각 task와 fine-tuning 전략은 아래에서 소개한다. 데이터셋 및 fine-tuning 하이퍼파라미터에 대한 자세한 내용은 Appendix에 있다.

Image-Text Retrieval은 **image-to-text retrieval (TR)**과 **text-to-image retrieval (IR)**의 두 가지 하위 task를 포함한다. 우리는 Flickr30K [49] 및 COCO 벤치마크에서 ALBEF를 평가하고, 각 데이터셋의 학습 샘플을 사용하여 사전학습된 모델을 fine-tuning한다. Flickr30K에 대한 zero-shot retrieval의 경우, COCO에서 fine-tuning된 모델로 평가한다. fine-tuning 동안, 우리는 **ITC loss (Equation 2)**와 **ITM loss (Equation 4)**를 함께 최적화한다. ITC는 단일 모달 feature의 유사도를 기반으로 이미지-텍스트 점수 함수를 학습하는 반면, ITM은 이미지와 텍스트 간의 미세한 상호작용을 모델링하여 매칭 점수를 예측한다. 다운스트림 데이터셋에는 각 이미지에 대해 여러 텍스트가 포함되어 있으므로, 우리는 ITC의 ground-truth label을 큐(queue) 내의 여러 positive를 고려하도록 변경하며, 각 positive는 $1 / \#$ positives의 ground-truth 확률을 갖는다. 추론 시, 우리는 먼저 모든 이미지-텍스트 쌍에 대해 feature 유사도 점수 $s_{\text {itc }}$ 를 계산한다. 그런 다음 상위 $k$ 개의 후보를 선택하고 순위 지정을 위해 ITM 점수 $s_{\text {itm }}$ 을 계산한다. $k$ 를 매우 작게 설정할 수 있으므로, 우리의 추론 속도는 모든 이미지-텍스트 쌍에 대해 ITM 점수를 계산해야 하는 방법들 [2, 3, 8]보다 훨씬 빠르다.

**Visual Entailment (SNLI-VE [51])**는 이미지와 텍스트 간의 관계가 entailment, neutral, contradictory 중 무엇인지 예측하는 세분화된 시각 추론 task이다. 우리는 UNITER [2]를 따라 VE를 세 가지 분류 문제로 간주하고, **multimodal encoder의 [CLS] 토큰 표현에 대한 multi-layer perceptron (MLP)**을 사용하여 클래스 확률을 예측한다.

**Visual Question Answering (VQA [52])**는 모델이 이미지와 질문이 주어졌을 때 답변을 예측하도록 요구한다. VQA를 다중 답변 분류 문제로 공식화하는 기존 방법들 [53, 2]과 달리, 우리는 [54]와 유사하게 VQA를 답변 생성 문제로 간주한다. 구체적으로, 우리는 6-layer Transformer decoder를 사용하여 답변을 생성한다. Figure 3a에 나타난 바와 같이, auto-regressive answer decoder는 cross attention을 통해 multimodal embedding을 수신하며, **시퀀스 시작 토큰([CLS])**이 decoder의 초기 입력 토큰으로 사용된다. 마찬가지로, **시퀀스 끝 토큰([SEP])**은 생성 완료를 나타내기 위해 decoder 출력의 끝에 추가된다.

Figure 3: VQA 및 NLVR ${ }^{2}$ 를 위한 모델 아키텍처. VQA의 경우, 이미지-질문 embedding이 주어졌을 때 답변을 생성하기 위해 auto-regressive decoder를 추가한다. NLVR ${ }^{2}$ 의 경우, 두 이미지에 대한 추론을 가능하게 하기 위해 multimodal encoder의 각 layer 내에서 Transformer block을 복제한다.

answer decoder는 사전학습된 multimodal encoder의 가중치로 초기화되며, **조건부 언어 모델링 손실(conditional language-modeling loss)**로 fine-tuning된다. 기존 방법들과의 공정한 비교를 위해, 우리는 추론 시 decoder가 3,192개의 후보 답변 [55] 중에서만 생성하도록 제한한다.

**Natural Language for Visual Reasoning (NLVR ${ }^{2}$ [19])**는 텍스트가 한 쌍의 이미지를 설명하는지 여부를 모델이 예측하도록 요구한다. 우리는 두 이미지에 대한 추론을 가능하게 하기 위해 multimodal encoder를 확장한다. Figure 3b에 나타난 바와 같이, multimodal encoder의 각 layer는 두 개의 연속적인 Transformer block을 갖도록 복제되며, 각 block은 self-attention layer, cross-attention layer, feed-forward layer를 포함한다 (Figure 1 참조). 각 layer 내의 두 block은 동일한 사전학습된 가중치로 초기화되며, 두 cross-attention layer는 key와 value에 대해 동일한 선형 투영 가중치를 공유한다. 학습 동안, 두 block은 이미지 쌍에 대한 두 세트의 이미지 embedding을 수신한다. 우리는 예측을 위해 multimodal encoder의 [CLS] 표현에 MLP 분류기를 추가한다.

NLVR ${ }^{2}$ 의 경우, 우리는 이미지 쌍을 인코딩하기 위한 새로운 multimodal encoder를 준비하기 위해 추가적인 사전학습 단계를 수행한다. 우리는 다음과 같이 text-assignment (TA) task를 설계한다: 이미지 쌍과 텍스트가 주어졌을 때, 모델은 텍스트를 첫 번째 이미지, 두 번째 이미지 또는 둘 다에 할당하지 않아야 한다. 우리는 이를 세 가지 분류 문제로 간주하고, [CLS] 표현에 대한 FC layer를 사용하여 할당을 예측한다. 우리는 4M 이미지(Section 3.4)를 사용하여 단 1 epoch 동안 TA로 사전학습한다.

Visual Grounding은 특정 텍스트 설명에 해당하는 이미지 내 영역을 지역화하는 것을 목표로 한다. 우리는 bounding box 주석을 사용할 수 없는 weakly-supervised 설정을 연구한다. RefCOCO+ [56] 데이터셋에서 실험을 수행하고, image-text retrieval과 동일한 전략을 따라 이미지-텍스트 supervision만 사용하여 모델을 fine-tuning한다. 추론 시, 우리는 Grad-CAM [9]을 확장하여 heatmaps를 획득하고, 이를 사용하여 [53]에서 제공하는 감지된 제안(detected proposals)의 순위를 매긴다.

6 Experiments

6.1 Evaluation on the Proposed Methods

먼저, 제안된 방법들(즉, image-text contrastive learning, contrastive hard negative mining, momentum distillation)의 효과를 평가한다. Table 1은 우리 방법의 다양한 변형에 따른 다운스트림 task의 성능을 보여준다. MLM+ITM이라는 baseline 사전학습 task와 비교했을 때, ITC를 추가하면 사전학습된 모델의 성능이 모든 task에서 상당히 향상된다.

#Pre-train Images	Training tasks	TR IR (flickr test)		SNLI-VE (test)	NLVR ${ }^{2}$ (test-P)	VQA (test-dev)
4M	MLM + ITM	93.96	88.55	77.06	77.51	71.40
	ITC + MLM + ITM	96.55	91.69	79.15	79.88	73.29
	ITC + MLM + ITM ${ }_{\text {hard }}$	97.01	92.16	79.77	80.35	73.81
	$\mathrm{ITC}_{\text {Mod }}+\mathrm{MLM}+\mathrm{ITM}_{\text {hard }}$	97.33	92.43	79.99	80.34	74.06
	Full (ITC ${ }_{\text {MoD }}+$ MLM $_{\text {MoD }}+$ ITM $_{\text {hard }}$ )	97.47	92.58	80.12	80.44	74.42
	ALBEF (Full + MoD ${ }_{\text {Downstream }}$ )	97.83	92.65	80.30	80.50	74.54
14 M	ALBEF	98.70	94.07	80.91	83.14	75.84

Table 1: 네 가지 다운스트림 V+L task에 대한 제안된 방법들의 평가.
text-retrieval (TR) 및 **image-retrieval (IR)**의 경우, R@1, R@5, R@10의 평균을 보고한다.
ITC: image-text contrastive learning.
MLM: masked language modeling.
ITM hard: contrastive hard negative mining을 사용한 image-text matching.
MoD: momentum distillation.
$\mathrm{MoD}_{\text {Downstream }}$ : 다운스트림 task에 대한 momentum distillation.

Method	# Pre-train Images	Flickr30K (1K test set)						MSCOCO (5K test set)
		TR						TR			IR
		R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
UNITER	4M	87.3	98.0	99.2	75.6	94.1	96.8	65.7	88.6	93.8	52.9	79.9	88.0
VILLA	4M	87.9	97.5	98.8	76.3	94.2	96.8	-	-	-	-	-	-
OSCAR	4M	-	-	-	-	-	-	70.0	91.1	95.5	54.0	80.8	88.5
ALIGN	1.2B	95.3	99.8	100.0	84.9	97.4	98.6	77.0	93.5	96.9	59.9	83.3	89.8
ALBEF	4M	94.3	99.4	99.8	82.8	96.7	98.4	73.1	91.4	96.0	56.8	81.5	89.2
ALBEF	14 M	95.9	99.8	100.0	85.6	97.5	98.9	77.6	94.3	97.2	60.7	84.3	90.5

Table 2: Flickr30K 및 COCO 데이터셋에 대한 fine-tuned image-text retrieval 결과.

Method	# Pre-train	Flickr30K (1K test set)
	Images	TR			IR
UNITER [2]		R@1	R@5	R@10	R@1	R@5	R@10
	4M	83.6	95.7	97.7	68.7	89.2	93.9
CLIP [6]	400M	88.0	98.7	99.4	68.7	90.6	95.2
ALIGN [7]	1.2 B	88.6	98.7	99.7	75.7	93.8	96.8
ALBEF	4M	90.5	98.8	99.7	76.8	93.7	96.7
ALBEF	14 M	94.1	99.5	99.7	82.8	96.3	98.1

Table 3: Flickr30K에 대한 zero-shot image-text retrieval 결과.

Method	VQA		NLVR ${ }^{2}$		SNLI-VE
	test-dev	test-std	dev	test-P	val	test
VisualBERT [13]	70.80	71.00	67.40	67.00	-	-
VL-BERT [10]	71.16	-	-	-	-	-
LXMERT [1]	72.42	72.54	74.90	74.50	-	-
12-in-1 12	73.15	-	-	78.87	-	76.95
UNITER [2]	72.70	72.91	77.18	77.85	78.59	78.28
VL-BART/T5 [54]	-	71.3	-	73.6	-	-
ViLT 21	70.94	-	75.24	76.21	-	-
OSCAR [3]	73.16	73.44	78.07	78.36	-	-
VILLA [8]	73.59	73.67	78.39	79.30	79.47	79.03
ALBEF (4M)	74.54	74.70	80.24	80.50	80.14	80.30
ALBEF ( 14 M )	75.84	76.04	82.55	83.14	80.80	80.91

Table 4: 다운스트림 vision-language task에 대한 state-of-the-art 방법들과의 비교.

제안된 hard negative mining은 더 유익한 학습 샘플을 찾아 ITM 성능을 향상시킨다. 또한, momentum distillation을 추가하면 ITC (4행), MLM (5행) 및 모든 다운스트림 task (6행)의 학습 성능이 향상된다. 마지막 행에서는 ALBEF가 더 많은 노이즈가 있는 웹 데이터를 효과적으로 활용하여 사전학습 성능을 향상시킬 수 있음을 보여준다.

6.2 Evaluation on Image-Text Retrieval

Table 2와 Table 3은 각각 fine-tuned 및 zero-shot 이미지-텍스트 검색(retrieval) 결과를 보고한다. 우리의 ALBEF는 state-of-the-art 성능을 달성하며, 수십 배 더 큰 데이터셋으로 학습된 CLIP [6]과 ALIGN [7]을 능가한다. 학습 이미지 수가 4M에서 14M으로 증가했을 때 ALBEF의 성능이 크게 향상된 점을 고려할 때, 우리는 더 큰 규모의 웹 이미지-텍스트 쌍으로 학습하면 ALBEF가 더욱 발전할 잠재력이 있다고 가정한다.

6.3 Evaluation on VQA, NLVR, and VE

Table 4는 다른 V+L 이해 task에 대한 기존 방법들과의 비교 결과를 보여준다. 4M개의 사전학습 이미지를 사용한 ALBEF는 이미 state-of-the-art 성능을 달성한다. 14M개의 사전학습 이미지를 사용하면, ALBEF는 object tag [3] 또는 adversarial data augmentation [8]을 추가로 사용하는 방법들을 포함하여 기존 방법들을 크게 능가한다. VILLA [8]와 비교했을 때, ALBEF는 VQA test-std에서 2.37%, NLVR $^2$ test-P에서 3.84%, SNLI-VE test에서 1.88%의 절대적인 성능 향상을 이룬다. ALBEF는 detector-free이며 더 낮은 해상도의 이미지를 요구하기 때문에, 대부분의 기존 방법들보다 훨씬 빠른 추론 속도를 자랑한다 (NLVR $^2$ 에서 VILLA보다 10배 이상 빠름).

6.4 Weakly-supervised Visual Grounding

Table 5는 RefCOCO+ 데이터셋에 대한 결과를 보여주며, ALBEF가 기존 방법들 [57, 58] (더 약한 텍스트 임베딩을 사용)을 크게 능가함을 알 수 있다.
ALBEF $_{\text{itc}}$ 변형은 image encoder의 마지막 layer에 있는 self-attention map에 대해 Grad-CAM 시각화를 계산한다. 이때 gradient는 image-text 유사도 $s_{\text{itc}}$ 를 최대화하는 방향으로 획득된다.
ALBEF $_{\text{itm}}$ 변형은 multimodal encoder의 3번째 layer (grounding에 특화된 layer)에 있는 cross-attention map에 대해 Grad-CAM을 계산하며, 이때 gradient는 image-text matching score $s_{\text{itm}}$ 를 최대화하는 방향으로 획득된다.
Figure 4는 몇 가지 시각화 결과를 제공한다. 더 자세한 분석은 Appendix에 있다.

Method	Val	TestA	TestB
ARN [57]	32.78	34.35	32.13
CCL [58]	34.29	36.91	33.56
ALBEF $_{\text {itc }}$	51.58	60.09	40.19
ALBEF $_{\text {itm }}$	$\mathbf{58 . 4 6}$	$\mathbf{65 . 8 9}$	$\mathbf{46 . 2 5}$

Table 5: RefCOCO+ [56] 데이터셋에 대한 weakly-supervised visual grounding 결과.

Figure 4: multimodal encoder의 3번째 layer에 있는 cross-attention map에 대한 Grad-CAM 시각화.

Figure 5: VQA 모델의 multimodal encoder cross-attention map에 대한 Grad-CAM 시각화. "a little girl holding a kitten next to a blue fence"

Figure 6: 개별 단어에 해당하는 cross-attention map에 대한 Grad-CAM 시각화.

Figure 5에서는 VQA에 대한 Grad-CAM 시각화를 제공한다. Appendix에서 볼 수 있듯이, ALBEF의 Grad-CAM 시각화는 사람이 의사결정을 할 때 주목하는 영역과 높은 상관관계를 보인다. Figure 6에서는 COCO 데이터셋에 대한 단어별 시각화를 보여준다. 우리 모델이 객체뿐만 아니라 그 속성 및 관계까지 grounding하는 방식에 주목하라.

6.5 Ablation Study

Table 6는 이미지-텍스트 검색(image-text retrieval)에 대한 다양한 설계 선택의 효과를 연구한다. 우리는 추론 시 $s_{\text {itc }}$ 를 사용하여 상위 $k$ 개의 후보를 필터링하므로, $k$ 값을 변경하며 그 효과를 보고한다. 일반적으로 $s_{\text {itm }}$ 으로 얻은 랭킹 결과는 $k$ 값의 변화에 민감하지 않다. 또한, 마지막 열에서는 hard negative mining의 효과를 검증한다.

Flickr30K	w/ hard negs
	$s_{\text {itc }}$	$k=16$	$k=128$	$k=256$	w/o hard negs
	$k=128$
TR	97.30	98.60	98.57	98.57	$98.22(-0.35)$
IR	90.95	93.64	93.99	93.95	$93.68(-0.31)$

Table 6: Fine-tuned 이미지-텍스트 검색에 대한 Ablation study.
테스트 세트의 평균 recall이 보고되었다. 우리는 $s_{\text {itc }}$ 를 사용하여 상위 $k$ 개의 후보를 필터링하고, $s_{\mathrm{itm}}$ 점수를 계산하여 랭킹을 매긴다.

Table 7은 NLVR $^{2}$ 에 대한 text-assignment (TA) 사전학습 및 파라미터 공유의 효과를 연구한다. 우리는 세 가지 전략을 검토한다: (1) 두 개의 multimodal block이 모든 파라미터를 공유하는 경우, (2) cross-attention (CA) layer만 공유하는 경우, (3) 파라미터를 전혀 공유하지 않는 경우.

NLVR $^{2}$	W/ TA			w/o TA
	share all	share CA	no share	share all	share CA	no share
dev	82.13	82.55	81.93	80.52	80.28	77.84
test-P	82.36	83.14	82.85	81.29	80.45	77.58

Table 7: NLVR $^{2}$ 에 대한 Ablation study.

TA 없이 학습할 경우, 전체 block을 공유하는 것이 더 나은 성능을 보인다. 반면, 이미지 쌍에 대한 모델을 TA로 사전학습할 경우, CA를 공유하는 것이 가장 좋은 성능을 이끌어낸다.

본 논문은 vision-language representation learning을 위한 새로운 프레임워크인 ALBEF를 제안한다. ALBEF는 unimodal 이미지 표현과 텍스트 표현을 먼저 정렬(align)한 후, 이를 multimodal encoder로 융합한다. 우리는 제안된 image-text contrastive learning과 momentum distillation의 효과를 이론적으로, 그리고 실험적으로 검증한다. 기존 방법들과 비교하여, ALBEF는 여러 다운스트림 V+L task에서 더 나은 성능과 더 빠른 추론 속도를 제공한다.

본 논문은 vision-language representation learning에서 유망한 결과를 보여주지만, 실제 배포 전에 데이터와 모델에 대한 추가적인 분석이 필요하다. 이는 웹 데이터가 의도치 않은 개인 정보, 부적절한 이미지 또는 유해한 텍스트를 포함할 수 있으며, 정확도만을 최적화하는 것이 원치 않는 사회적 함의를 가질 수 있기 때문이다.

A Downstream Task Details

여기서는 사전학습된 모델의 fine-tuning을 위한 구현 세부 사항을 설명한다. 모든 다운스트림 task에 대해, 우리는 사전학습 시와 동일한 RandAugment, AdamW optimizer, cosine learning rate decay, weight decay, distillation weight를 사용한다. 모든 다운스트림 task는 $384 \times 384$ 해상도의 입력 이미지를 받는다. 추론 시에는 이미지를 자르지 않고 크기를 조정한다.

Image-Text Retrieval. 이 task를 위해 COCO와 Flickr30K 두 가지 데이터셋을 고려한다. 우리는 두 데이터셋 모두에 대해 널리 사용되는 **Karpathy split [59]**을 채택한다. COCO는 train/validation/test에 각각 113k/5k/5k 이미지를 포함한다. Flickr30K는 train/validation/test에 각각 29k/1k/1k 이미지를 포함한다. 우리는 10 epoch 동안 fine-tuning을 수행한다. batch size는 256이고 초기 learning rate는 $1e^{-5}$ 이다.

Visual Entailment. 우리는 **SNLI-VE 데이터셋 [51]**으로 평가를 수행한다. 이 데이터셋은 **Stanford Natural Language Inference (SNLI) [60]**와 Flickr30K 데이터셋을 사용하여 구축되었다. 우리는 원본 데이터셋 분할을 따르며, 훈련에 29.8k 이미지, 평가에 1k 이미지, 테스트에 1k 이미지를 사용한다. 사전학습된 모델을 5 epoch 동안 fine-tuning하며, batch size는 256, 초기 learning rate는 $2e^{-5}$ 이다.

VQA. 우리는 COCO 이미지를 사용하여 구축된 **VQA2.0 데이터셋 [52]**으로 실험을 수행한다. 이 데이터셋은 훈련에 83k 이미지, 검증에 41k 이미지, 테스트에 81k 이미지를 포함한다. 우리는 test-dev 및 test-std split에 대한 성능을 보고한다. 대부분의 기존 연구들 [1, 2, 61]을 따라, 우리는 훈련 및 검증 세트를 모두 훈련에 사용하고, Visual Genome에서 추가적인 질문-답변 쌍을 포함한다. VQA 데이터셋의 많은 질문이 여러 답변을 포함하므로, 우리는 각 답변에 대한 loss를 모든 답변 중 해당 답변의 발생 비율로 가중치를 부여한다. 우리는 모델을 8 epoch 동안 fine-tuning하며, batch size는 256, 초기 learning rate는 $2e^{-5}$ 이다.

NLVR $^2$ . 우리는 [19]의 원본 train/val/test split을 따라 실험을 수행한다. 모델을 10 epoch 동안 fine-tuning하며, batch size는 128, 초기 learning rate는 $2e^{-5}$ 이다. NLVR은 두 개의 입력 이미지를 받기 때문에, 우리는 두 이미지에 대한 reasoning을 위해 모델을 준비하기 위해 **text-assignment (TA)**를 이용한 추가적인 사전학습 단계를 수행한다. TA 사전학습은 $256 \times 256$ 크기의 이미지를 사용한다. 우리는 4M 데이터셋에 대해 1 epoch 동안 사전학습을 수행하며, batch size는 256, learning rate는 $2e^{-5}$ 이다.

Visual Grounding. 우리는 **two-player ReferitGame [62]**을 사용하여 수집된 **RefCOCO+ 데이터셋 [56]**으로 실험을 수행한다. 이 데이터셋은 COCO 훈련 세트의 19,992개 이미지에 대한 141,564개의 표현을 포함한다. 엄밀히 말하면, 우리 모델은 RefCOCO+의 val/test 이미지를 볼 수 없지만, 사전학습 중에 해당 이미지에 노출되었다. 우리는 이 이미지들이 전체 14M 사전학습 이미지 중 매우 작은 부분을 차지하므로 영향이 거의 없을 것이라고 가정하며, 데이터 오염 제거는 향후 연구로 남겨둔다. 약한 지도 학습(weakly-supervised) fine-tuning 동안, 우리는 image-text retrieval과 동일한 전략을 따르지만, random cropping은 수행하지 않으며, 모델을 5 epoch 동안 훈련한다. 추론 시, 우리는 각 $16 \times 16$ 이미지 패치에 대한 중요도 점수를 계산하기 위해 $s_{\text {itc }}$ 또는 $s_{\text {itm }}$ 을 사용한다. ITC의 경우, 우리는 visual encoder의 마지막 layer에 있는 [CLS] token에 대한 self-attention map에 대해 Grad-CAM 시각화를 계산하고, 모든 attention head에 걸쳐 heatmap을 평균한다. ITM의 경우, 우리는 multimodal encoder의 3번째 layer에 있는 cross-attention map에 대해 Grad-CAM을 계산하고, 모든 attention head와 모든 입력 텍스트 토큰에 걸쳐 점수를 평균한다. ITC와 ITM 간의 정량적 비교는 Table 5에 나와 있다. Figure 7은 정성적 비교를 보여준다. multimodal encoder는 이미지-텍스트 상호작용을 더 잘 모델링할 수 있으므로, 더 미세한 세부 사항을 포착하는 더 나은 heatmap을 생성한다. Figure 8에서는 각 cross-attention layer와 가장 성능이 좋은 layer 내의 각 개별 attention head에 대한 grounding 정확도를 보고한다.

Figure 7: multimodal encoder에서 얻은 Grad-CAM은 "larger" 및 "curled"와 같은 더 미세한 세부 사항을 포착한다.

Figure 8: **RefCOCO+**의 validation set에 대한 grounding 정확도. (a) 각 layer가 모든 head를 사용하는 cross-attention layer 변화. (b) 가장 성능이 좋은 (3번째) layer 내의 cross-attention head 변화.

Figure 9: 개별 단어에 해당하는 cross-attention map에 대한 Grad-CAM 시각화.

B Additional Per-word Visualizations

Figure 9에서는 per-word Grad-CAM의 추가 시각화를 통해 우리 모델이 객체, 행동, 속성, 관계에 대한 visual grounding 능력을 보여준다.

Figure 10: VQA에 대한 인간의 attention과 ALBEF의 Grad-CAM 간의 정성적 비교.

C Comparison with Human Attention

Das et al. [63]은 VQA 데이터셋 [20]의 일부에 대해 인간의 attention map을 수집했다. 질문과 흐릿한 버전의 이미지가 주어졌을 때, Amazon Mechanical Turk의 참가자들은 질문에 자신 있게 답할 수 있을 때까지 이미지 영역을 대화형으로 선명하게(deblur) 만들도록 요청받았다.
본 연구에서는 ALBEF VQA 모델의 3번째 multi-modal cross-attention layer에서 계산된 Grad-CAM 시각화 결과와 인간의 attention map을 비교한다. 이 비교는 1374개의 validation 질문-이미지 쌍에 대해 [63]과 동일한 rank correlation 평가 프로토콜을 사용하여 수행되었다.
그 결과, Grad-CAM과 ground-truth 답변에 대해 계산된 인간 attention map 사이에 0.205의 높은 상관관계가 있음을 발견했다. 이는 ALBEF가 grounded image-text 쌍으로 학습되지 않았음에도 불구하고, 결정을 내릴 때 적절한 영역을 주시하고 있음을 보여준다.
인간 attention map과의 비교를 보여주는 정성적(qualitative) 예시는 Figure 10에서 확인할 수 있다.

D Additional Examples of Pseudo-targets

Figure 11: ITC를 위해 momentum model이 선택한 상위 5개 유사 텍스트 예시.

Figure 12: MLM을 위해 momentum model이 생성한 상위 5개 단어 예시.

E Pre-training Dataset Details

Table 8은 사전학습 데이터셋의 이미지 및 텍스트 통계를 보여준다.

	COCO (Karpathy-train)	VG	CC	SBU	CC12M
# image	113 K	100 K	2.95 M	860 K	10.06 M
# text	567 K	769 K	2.95 M	860 K	10.06 M

Table 8: 사전학습 데이터셋의 통계.

BERT를 따라, 대체는 10% 무작위 토큰, 10% 변경 없음, 80% [MASK]이다.

우리의 실험에 따르면 $\alpha=0.3, 0.4, 0.5$ 는 유사한 성능을 보이며, $\alpha=0.4$ 가 약간 더 좋다. 웹 데이터셋에서 제공된 일부 URL이 유효하지 않게 되었다. 텍스트에 색상 정보가 포함된 경우가 많으므로 RandAugment에서 색상 변경을 제거한다.

SNLI-VE 결과는 테스트 데이터가 노이즈가 많다고 보고되었으므로 주의해서 해석해야 한다 [50].