Wang, Yuting, et al. "Gmmformer v2: An uncertainty-aware framework for partially relevant video retrieval." arXiv preprint arXiv:2405.13824 (2024).

GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval

Yuting Wang Tsinghua University wangyt22@mails.tsinghua.edu.cn

Jinpeng Wang Tsinghua University wjp20@mails.tsinghua.edu.cn

Bin Chen* Harbin Institute of Technology, Shenzhen chenbin2021@hit.edu.cn

Tao Dai Shenzhen University daitao@szu.edu.cn

Ruisheng Luo Tsinghua University luors22@mails.tsinghua.edu.cn

Shu-Tao Xia Tsinghua University xiast@sz.tsinghua.edu.cn

Abstract

텍스트 쿼리가 주어졌을 때, **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 관련된 순간(relevant moments)을 포함하는 untrimmed 비디오를 검색하는 것을 목표로 한다. moment annotation의 부족으로 인해, 클립 모델링(clip modeling) 및 텍스트-클립 대응(text-clip correspondence)에 내재된 불확실성은 주요 도전 과제로 작용한다. 많은 발전에도 불구하고, 기존 솔루션들은 다양하고 불확실한 비디오 순간들을 포착하기 위해 효율성 또는 효과성을 희생한다. 더욱이, 이러한 불확실성 하에서 텍스트-클립 매칭 패턴에 주목한 방법은 거의 없어, semantic collapse의 위험을 노출하고 있다.

이러한 문제들을 해결하기 위해, 우리는 PRVR을 위한 불확실성 인식 프레임워크인 GMMFormer v2를 제안한다. 클립 모델링을 위해, 우리는 강력한 baseline인 GMMFormer [41]를 multi-scale contextual feature 기반의 새로운 temporal consolidation module로 개선하였다. 이는 효율성을 유지하면서 다양한 순간에 대한 인식을 향상시킨다. 불확실성 인식 텍스트-클립 매칭을 달성하기 위해, 우리는 GMMFormer의 query diverse loss를 fine-grained uniformity를 촉진하도록 업그레이드하고, fine-grained 텍스트-클립 정렬을 위한 새로운 optimal matching loss를 제안한다. 이들의 협력은 semantic collapse 현상을 완화하고 텍스트와 moment 간의 정확한 대응을 깔끔하게 촉진한다. 우리는 세 가지 PRVR 벤치마크에서 광범위한 실험 및 ablation study를 수행하여, 과거 SOTA 경쟁 모델 대비 GMMFormer v2의 놀라운 개선과 PRVR을 위한 불확실성 인식 텍스트-클립 매칭의 다용도성을 입증한다. 코드는 https://github.com/huangmozhi9527/GMMFormer_v2 에서 확인할 수 있다.

1 Introduction

**Partially Relevant Video Retrieval (PRVR)**은 주어진 텍스트 쿼리에 관련된 순간들을 포함하는 untrimmed video를 찾는 것을 목표로 한다. 최근 PRVR 모델들 [6, 12, 7, 41]은 실제 환경에서 널리 사용되는 untrimmed video를 더 잘 처리하고, 순간 어노테이션에 필요한 인력 소모를 줄일 수 있다는 점에서 인기를 얻고 있다. 우리는 PRVR에서 **클립 모델링(clip modeling)**과 **텍스트-클립 매칭(text-clip matching)**을 두 가지 주요 도전 과제로 식별하며, 여기서 핵심은 **불확실성(uncertainty)**을 다루는 데 있다. 데이터 내 노이즈와 관련된 불확실성을 다루는 이전의 확률적 모델링 연구들 [31, 34, 47, 4, 8]과는 달리, PRVR에서의 불확실성은 일반적으로 세분화된 어노테이션의 부족에서 기인한다. 즉, 비디오 내 순간들의 위치와 지속 시간, 그리고 텍스트 쿼리와의 연관성에 대한 정보가 부족하다는 것이다.

[^0] Figure 1: (a) Explicit PRVR 방법들은 multi-scale sliding window를 사용하여 모든 가능한 클립을 탐색하는데, 이는 중복적이고 비효율적이다. (b) Implicit 방법들은 multi-scale 정보를 결합하고 더 적은 클립 임베딩을 생성하여 효율성을 향상시킨다. 그러나 정적인 aggregation은 미리 정의된 클립 마스크를 넘어 **예상치 못한 순간-비디오 비율(M/Vs)**을 가진 순간들(예: 파란색 점선 상자 안의 클립)을 포착하는 데 유연하지 못하다. (c) 우리는 temporal consolidation module을 제안하여 클립 모델링을 개선한다. 비디오 내 다른 시점에 대한 적응형 aggregation 가중치를 학습함으로써, 다양한 길이를 가진 비디오 순간들을 인지할 수 있다.

기존 PRVR 연구들은 클립 모델링 방식에 따라 **explicit [6]**과 implicit [12, 7, 41] 방법으로 나눌 수 있으며, 이들은 효율성과 효과성 사이의 균형을 맞추는 데 어려움을 겪는다. Fig. 1(a)에서 보듯이, explicit 모델(예: MS-SL [6])은 종종 multi-scale sliding window 전략을 사용하여 모든 가능한 클립을 탐색하는데, 이는 중복성과 비효율성 문제를 야기한다. Implicit 모델(예: PEAN [12] 및 GMMFormer [41])은 multi-scale contextual feature를 통합하고 압축된 클립 임베딩을 생성한다. Fig. 1(b)에서 설명하듯이, 이들은 검색 효율성을 향상시키지만, 다양한 길이를 가진 순간들을 포착하는 데 유연하지 못하다. PRVR의 또 다른 문제점은 semantic collapse인데, 이는 비디오와 관련된 서로 다른 텍스트 쿼리들이 소수의 동질적인 클립들과 매칭되는 현상을 의미한다. 이로 인해 대부분의 정보성 클립 임베딩이 학습 과정에서 supervision signal을 받지 못하게 되고, 결국 정확한 텍스트-클립 매칭 성능을 저하시킨다.

위 문제들을 해결하기 위해 우리는 불확실성 인식(uncertainty-aware) PRVR 프레임워크인 GMMFormer v2를 제안한다. 클립 모델링을 위해 우리는 강력한 baseline인 GMMFormer [41] 위에 새로운 temporal consolidation module을 설계하여 클립 모델링 능력을 향상시킨다. 구체적으로, Fig. 1(c)에서 보듯이, 이 모델은 비디오 내 다른 시점에 대한 aggregation 가중치를 학습하여 multi-scale contextual feature의 중요성을 균형 있게 조절함으로써, 다양한 길이를 가진 비디오 순간들을 유연하게 인지할 수 있도록 한다. 불확실성 인식 텍스트-클립 매칭을 달성하기 위해, 우리는 먼저 GMMFormer의 query diverse loss를 hard sample에 적극적으로 초점을 맞추도록 업그레이드하여, 세분화된 텍스트 의미의 균일하고 판별적인 구조를 정규화한다. 또한, Hungarian algorithm [18]을 통한 optimal matching loss를 제안하여, 서로 다른 텍스트 쿼리들이 동일 비디오 내 관련 클립들과 세분화되고 다양화된 방식으로 정렬되도록 유도한다. 이 두 loss의 협력은 semantic collapse를 효과적으로 완화하고 텍스트와 untrimmed video 간의 더 나은 텍스트-클립 정렬을 촉진한다.

우리는 ActivityNet Captions [17], TVR [19], Charades-STA [9]를 포함한 세 가지 PRVR 벤치마크에서 광범위한 실험을 수행한다. 결과는 우리 솔루션의 뛰어난 개선점과 다용성을 입증한다. 특히, GMMFormer v2는 세 가지 PRVR 벤치마크에서 GMMFormer 대비 SumR에서 각각 6.1%, 7.1%, 7.3%의 상대적 향상을 달성했으며, 사전학습된 vision-language model [33]의 추가 지식을 활용하는 과거 SOTA 경쟁자인 DL-DKD [7]를 크게 능가한다. 또한, GMMFormer와 비교하여 GMMFormer v2는 다양한 Gaussian constraint를 활용하는 데 더 나은 확장성을 보여준다. 마지막으로, 불확실성 인식 텍스트-클립 매칭은 다른 PRVR 모델의 성능을 향상시키는 플러그인(plugin-in) supervision으로 사용될 수 있다.

우리의 주요 기여는 다음과 같이 요약할 수 있다:

우리는 PRVR의 불확실성과 관련된 중요한 도전 과제들, 즉 비디오 내 다양한 순간들과 불분명한 세분화된 텍스트-클립 대응 관계를 강조한다.
우리는 GMMFormer [41]를 개선하기 위해 새로운 temporal consolidation module을 설계했으며, 이는 다양한 길이를 가진 비디오 순간들을 포착하는 데 더 나은 능력을 보여준다.
우리는 PRVR에서 semantic collapse의 위험을 완화하기 위한 플러그인 솔루션을 제안한다. 여기에는 세분화된 균일성을 위한 개선된 query diverse loss와 세분화된 텍스트-클립 정렬을 촉진하는 새로운 optimal matching loss가 포함된다.
세 가지 PRVR 벤치마크에 대한 광범위한 실험 및 ablation study는 우리가 제안한 프레임워크의 효과를 입증한다.

2.1 Partially Relevant Video Retrieval

딥러닝 [43, 20, 36, 39, 22]의 발전과 함께, 비디오 데이터의 폭발적인 증가는 비디오 분석 task [24, 40, 21, 44, 46, 45]에 대한 광범위한 연구 관심을 불러일으켰다. 그중 text-to-video retrieval (T2VR) [13-16, 35, 28, 26, 25]은 텍스트 쿼리를 사용하여 짧은 비디오 클립을 검색하는 데 중점을 둔 활발한 연구 분야이다. 일반적으로 T2VR 방법들은 각 비디오가 미리 trim되어 있고, oracle 텍스트 쿼리와 완전히 관련되어 있다고 가정한다. 그러나 실제 비디오는 종종 trim되지 않고 많은 배경 콘텐츠를 포함하고 있기 때문에 [11, 32, 42], 이러한 요구 사항은 실제 환경에서 충족되지 않는 경우가 많다. 비디오에서 정보가 풍부한 순간에 대한 사람의 주석(annotation)은 일반적으로 비용이 많이 들고 비효율적이다. 결과적으로, trim된 비디오를 위해 설계된 T2VR 모델은 실제 응용 프로그램에 잘 적응하지 못할 수 있다.

부분적으로 관련된 비디오 검색(partially relevant video retrieval, PRVR) [6] task는 특히 실제 요구 사항을 위해 고안되었다. PRVR에서는 각 비디오가 여러 텍스트 쿼리와 일치할 수 있으며, 각 쿼리는 비디오의 한 순간에만 관련될 수 있다. 이는 PRVR을 실제 응용 프로그램과 호환되게 만들며, 따라서 중요한 task이다. MS-SL [6]은 PRVR task를 정의한 첫 번째 연구이며, 명시적인 clip modeling을 통해 강력한 baseline을 제공한다. 그러나 생성된 clip embedding은 중복되고 비효율적이며, 상당한 저장 공간 오버헤드를 소비한다. 최근에는 효율성을 개선하기 위해 여러 implicit 방법 [12, 41, 7]이 제안되었다. 하지만 이들은 trim되지 않은 비디오에서 불확실한 순간을 포착하는 데 여전히 유연성이 부족하다. 더욱이, PRVR에서 불확실한 특성을 고려할 때, 세분화된(fine-grained) 의미론적 구조에 대한 관심은 거의 없는 것으로 파악된다.

2.2 Uncertainty in Computer Vision

불확실성 문제는 컴퓨터 비전 분야에서 오랜 역사를 가지고 있으며, 대부분의 해결책은 **확률적 임베딩(probabilistic embeddings)**에 기반을 두었다. 예를 들어, HIB [31]는 deep metric learning의 one-to-many 대응 관계를 처리하면서 이미지 표현의 불확실성을 포착하기 위해 확률적 임베딩을 처음 도입했다. 유사한 아이디어는 얼굴 인식 [34] 및 instance segmentation [47]을 포함한 다양한 task에서 광범위하게 연구되었다. [4]는 확률적 임베딩을 cross-modal retrieval에 혁신적으로 적용했으며, [8]은 결정론적(deterministic) 임베딩과 확률적 임베딩을 결합하여 T2VR(Text-to-Video Retrieval)에서 불확실성 모델링을 더욱 개선했다.

이들과 달리, PRVR(Phrase-to-Region Video Retrieval)에서의 불확실성은 주로 모멘트(moment) 주석의 부족으로 인한 알 수 없는 모멘트의 위치와 지속 시간에 반영된다. 이러한 동기 부여의 차이점을 고려하여, 우리는 모델 설계 및 학습 목표에서 새로운 전략을 제시하며, 이는 기존의 확률적 해결책과는 다르지만 상호 보완적이다. 이들의 결합은 향후 연구 과제로 남겨둔다.

3 GMMFormer v2

이 섹션에서는 GMMFormer v2라고 명명된 불확실성 인식 프레임워크를 설명한다. 이 프레임워크는 Figure 2에 나타난 바와 같이 **텍스트 쿼리 표현(Sec. 3.1), 시간적 통합을 통한 비디오 표현(Sec. 3.2), 불확실성 인식 텍스트-클립 매칭(Sec. 3.3), 그리고 유사도 측정(Sec. 3.4)**을 포함한다.

3.1 Text Query Representation

$N$ 개의 단어로 구성된 텍스트 쿼리 $\mathcal{T}=\left\{t_{i}\right\}_{i=1}^{N}$ 가 주어졌을 때, 우리는 먼저 사전학습된 RoBERTa [30]를 사용하여 단어 feature를 추출한다. 그런 다음 fully-connected (FC) layer를 사용하여 이 단어 feature들을 더 낮은 차원의 공간으로 매핑한다. 이어서 매핑된 단어 feature에 학습 가능한 positional embedding을 추가하고, 이를 Transformer encoder layer에 통과시켜 $d$ -차원의 **contextualized word embedding vector 시퀀스 $Q \in \mathbb{R}^{N \times d}$ **를 얻는다. 마지막으로, [6]과 유사하게 $Q$ 에 간단한 attention pooling을 적용하여 **문장 embedding $q \in \mathbb{R}^{d}$ **를 얻는다.

Figure 2: GMMFormer v2의 전체 아키텍처.

3.2 Video Representation with Temporal Consolidation

$M_f$ 개의 프레임을 가진 untrimmed 비디오 $\mathcal{V}=\left\{I_{i}\right\}_{i=1}^{M_{f}}$ 가 주어졌을 때, 우리는 사전학습된 2D 또는 3D CNN을 사용하여 프레임 feature를 추출하며, 이를 $F \in \mathbb{R}^{M_{f} \times d_{o}}$ 로 표기한다. 여기서 $d_o$ 는 프레임 feature의 차원이다. 이전 연구들 [6, 41]을 따라, 우리는 프레임 레벨(frame-level) 브랜치와 클립 레벨(clip-level) 브랜치를 함께 사용하여 다중 granularity 비디오 표현(multi-granularity video representations)을 구축한다.

프레임 레벨 브랜치에서는 프레임 feature $F$ 를 직접 입력으로 받아 FC layer를 사용하여 차원을 $d$ 로 줄인다. 그런 다음, [41]의 GMMFormer 블록에 우리가 설계한 **temporal consolidation module (TC-GMMBlock)**을 적용하여 프레임 embedding $V_{f}=\left\{f_{i}\right\}_{i=1}^{M_{f}} \in \mathbb{R}^{M_{f} \times d}$ 를 얻는다. GMMFormer [41]의 비디오 레벨 브랜치와 비교할 때, 우리의 프레임 레벨 브랜치는 세밀한(fine-grained) 지역 정보(local information)를 추출하고 비디오 길이의 차이를 반영할 수 있다.

클립 레벨 브랜치는 먼저 시간 도메인에서 입력을 다운샘플링하여 프레임을 클립으로 통합한다. [6]과 유사하게, 우리는 총 프레임 수 $M_f$ 의 25%에 해당하는 고정된 수 $M_c$ 의 클립 feature를 해당 연속적인 여러 프레임 feature $F$ 에 대한 평균 풀링(mean pooling)을 통해 균일하게 샘플링한다. 그런 다음, 클립 feature에 FC layer와 TC-GMMBlock을 사용하여 클립 embedding $V_{c}=\left\{c_{i}\right\}_{i=1}^{M c} \in \mathbb{R}^{M_{c} \times d}$ 를 얻는다. 이 클립 embedding은 적응형 클립 정보(adaptive clip information)를 포함하며, 모델이 관련 순간을 인지하는 데 도움을 준다.

3.2.1 Preliminaries: GMMFormer Block

최근 [41]은 효율적인 PRVR을 위해 GMMFormer라는 Transformer 모델을 소개했다. GMMFormer의 각 블록(GMMBlock)은 contextual encoding 과정에서 Gaussian-Mixture-Model priors를 통합하여 지역 모델링 능력(local modeling capacity)을 강화한다. 구체적으로, GMMBlock은 **일련의 Gaussian-constrained Transformer block (Gaussian block)**과 정적 aggregation 모듈로 구성된다. 각 Gaussian block은 특정 Gaussian matrix를 미리 정의하여 특정 스케일의 feature를 추출한다. GMMFormer는 멀티스케일 contextual feature를 병렬로 추출한 후, 평균 풀링(average pooling)을 사용하여 이들을 aggregation한다. GMMBlock에 대한 자세한 공식은 부록에 제공되어 있다.

이러한 정적 aggregation 방식은 관련 없는 clip 정보를 도입하여 정확한 clip 정보의 비율을 감소시킬 수 있다. 또한, 예상치 못한 M/V 순간을 포함하는 비디오를 처리할 때 target moment를 놓칠 수 있다.

Figure 3: TCGMMBlock의 상세 아키텍처.

3.2.2 Temporal Consolidation Module

이 하위 섹션에서는 Figure 3에 묘사된, 다양한 길이의 비디오 순간을 더 잘 인식하기 위한 TC-GMMBlock을 제시한다. 구체적으로, 우리는 새로운 temporal consolidation module (TCM)을 설계하여 GMMBlock의 정적 aggregation을 개선한다. 비디오 내의 시간 지점들은 서로 다른 길이의 순간에 위치할 수 있다.

Figure 4: Semantic collapse 문제와 우리의 해결책. (a) 기본 retrieval training loss $\mathcal{L}^{\text {basic}}$ 만으로는 semantic collapse 현상이 발생한다. (b) Query diverse loss $\mathcal{L}^{\text {div}}$ 는 fine-grained uniformity를 장려하여 텍스트의 semantic 구조를 보존할 수 있다. (c) Optimal matching loss $\mathcal{L}^{o m}$ 는 텍스트 쿼리와 관련 클립 간의 비중복 매칭을 보장하여, fine-grained text-clip alignment를 깔끔하게 촉진한다. 텍스트 쿼리와 클립 사이의 빨간색 엣지는 최적의 할당(optimal assignments)을 나타낸다.

이에 착안하여, TCM은 적응형 aggregation 가중치를 학습하고, 비디오 내의 서로 다른 시간 지점에 대해 다양한 receptive field를 할당한다. 구체적으로, 우리는 학습 가능한 쿼리 $\varphi \in \mathbb{R}^{d}$ 를 정의하고, block-aware cross-attention layer (CA)와 FC layer (FC)로 aggregation weight generator를 구축한다. 이는 다중 스케일 contextual feature를 aggregation하기 위해 서로 다른 시간 지점에 대한 aggregation 가중치를 생성한다:

\begin{gathered} w_{k}=\operatorname{FC}\left(\operatorname{CA}\left(\varphi, X_{\sigma_{k}}, X_{\sigma_{k}}\right)\right), k=1,2, \ldots, K, \\ \tilde{X}_{j}=\sum_{k=1}^{K} \tilde{w}_{k, j} X_{\sigma_{k}, j}, \tilde{w}_{k, j}=\frac{e^{w_{k, j} / \tau}}{\sum_{i=1}^{K} e^{w_{i, j} / \tau}}, j=1,2, \ldots, M, \\ X_{T C M}=\operatorname{concat}\left(\tilde{X}_{1}, \tilde{X}_{2}, \ldots, \tilde{X}_{M}\right), \end{gathered}

여기서 $X_{\sigma_{k}} \in \mathbb{R}^{M \times d}$ 는 $k$ -번째 Gaussian block의 출력이고, $K$ 는 Gaussian block의 개수, $M$ 은 시간 지점의 개수이다. $w_{k} \in \mathbb{R}^{M}$ 는 $k$ -번째 Gaussian block에 대한 aggregation 가중치를 나타내며, $\tau$ 는 temperature factor이다. $\tilde{X}_{j} \in \mathbb{R}^{d}$ 는 시간 지점 $j$ 에서의 aggregated feature를 나타내고, $X_{T C M}$ 은 temporal consolidation module의 출력이다. 설계된 temporal consolidation module을 통해, 모델은 다양한 불확실한 순간들을 더 잘 인식하고 비디오 표현을 개선할 수 있다.

3.3 Uncertainty-aware Text-clip Matching

3.3.1 Phenomenon: Semantic Collapse

학습 중에 우리는 semantic collapse 현상을 발견했다. 이는 텍스트 표현의 semantic 구조가 교란되어, 서로 다른 텍스트 쿼리들이 비디오 내의 몇몇 겹치는 클립에 할당되는 경향을 보이는 현상이다 (Fig. 4(a) 참조). 이러한 현상은 대부분의 진정으로 관련 있는 클립 임베딩이 supervision signal을 받지 못하게 하여 cross-modal 학습 성능을 저하시킨다. 이 문제를 해결하기 위해 우리는 GMMFormer의 query diverse loss를 개선하여 더 나은 텍스트 semantic 구조를 보존하고, 텍스트 쿼리에 대한 클립 임베딩의 다양성을 향상시키기 위한 optimal matching loss를 제안한다.

3.3.2 Revamped Query Diverse Loss

일반적으로 untrimmed video는 다양한 의미를 가진 여러 순간들을 포함하며, 이는 다양한 텍스트 쿼리로 반영될 수 있다. 따라서 [41]은 서로 다른 텍스트 쿼리가 fine-grained한 판별 구조를 유지해야 한다고 주장하며, 학습 중에 동일한 비디오와 관련된 텍스트들을 임베딩 공간에서 밀어내는(push away) query diverse loss를 제안했다. 그러나 이 방식에서는 서로 다른 텍스트 쌍에 대한 밀어내는 정도(pushing degree)가 동일하다. 이미 잘 보존된(well-preserved) 텍스트 쌍의 경우, 계속해서 밀어내는 것은 retrieval 학습과 충돌할 수 있다.
이러한 문제를 극복하기 위해, 우리는 서로 다른 텍스트 쌍에 대해 다른 pushing strength를 적용하여 query diverse loss를 개선한다. 특히, 우리는 잘 보존된 텍스트 쌍의 가중치를 낮추고(down-weight), 학습이 어려운(hard) 텍스트 쌍에 집중하도록 손실 함수를 재구성(reshape)할 것을 제안한다.
더 형식적으로는, 관련 텍스트 쌍 $\left(q_{i}, q_{j}\right)$ 에 대해 조절 계수(modulating factor) $\left(1+\cos \left(q_{i}, q_{j}\right)\right)^{\gamma}$ 를 query diverse loss에 적용한다. 여기서 $\gamma>0$ 는 조정 가능한 focusing factor이다.
이에 따라, 우리는 개선된 query diverse loss를 다음과 같이 정의한다:

\begin{gathered} \ell(i, j)=\left(1+\cos \left(q_{i}, q_{j}\right)\right)^{\gamma} \log \left(1+e^{\alpha\left(\cos \left(q_{i}, q_{j}\right)+\delta\right)}\right) \\ \mathcal{L}^{d i v}=\frac{2}{M_{q}\left(M_{q}-1\right)} \sum_{1 \leq i, j \leq M_{q}, i \neq j} \ell(i, j) \end{gathered}

여기서 $\delta>0$ 는 margin factor, $\alpha>0$ 는 scaling factor, 그리고 $M_{q}$ 는 비디오와 관련된 텍스트 쿼리의 수이다.
학습 과정에서, 개선된 query diverse loss는 Fig. 4(b)에 나타난 바와 같이 의미 구조의 fine-grained uniformity를 촉진하는 역할을 한다.

3.3.3 Optimal Matching Loss

실제로, 우리는 동일한 비디오와 관련된 텍스트 쿼리들이 몇몇 동질적인 클립에 할당되는 경향이 있음을 관찰했다. 이는 대부분의 실제 관련 클립 임베딩이 supervision signal을 받지 못하게 하여 cross-modal 학습을 저해한다.
이 문제를 해결하기 위해, 우리는 이러한 할당 문제를 비가중 이분 그래프(unweighted bipartite graph)에서의 최대 매칭(maximum matching) 문제로 간주한다. 여기서 비디오의 **클립 임베딩 $\left\{c_{i}\right\} \in \mathbb{R}^{M_{c} \times d}$ **와 그에 관련된 **텍스트 쿼리 임베딩 $\left\{q_{i}\right\} \in \mathbb{R}^{M_{q} \times d}$ **가 두 개의 정점 집합을 형성한다.
우리는 이 비디오에 대한 모든 텍스트-클립 유사도 점수를 이분 그래프의 **간선(edge) 이득(profit)**으로 인코딩하여 표현한다. 즉, $\Pi=\left[\pi_{i j}\right]_{M_{q} \times M_{c}}$ 이며, $\pi_{i j}=\cos \left(q_{i}, c_{j}\right)$ 이다. 실제 상황에서는 $M_{q} \leq M_{c}$ 라고 가정한다.
이때 우리의 목표는 전체 매칭 이득을 최대화하는 최적의 중복 없는 할당 계획 $A^{*}=\left[a_{i j}^{*}\right]_{M_{q} \times M_{c}}$ ( $a_{i j} \in\{0,1\}$ )을 찾는 것이다:

A^{*}=\underset{A}{\arg \max } \sum_{i, j} \pi_{i j} a_{i j}, \quad \text { s.t. } \forall i: \sum_{j} a_{i j}=1

이 문제는 Hungarian algorithm [18]을 사용하여 다항 시간(polynomial time) 내에 쉽게 해결될 수 있다.
우리는 최적의 할당에 따라 임베딩 공간에서 각 비디오에 대한 텍스트-클립 쌍을 정렬하며, 이를 통해 **최적 매칭 손실(optimal matching loss)**을 얻는다:

\mathcal{L}^{o m}=\frac{1}{M_{q}} \sum_{i, j}\left(1-\cos \left(q_{i}, c_{j}\right)\right) \cdot a_{i j}^{*}

최적 매칭 손실은 텍스트-클립 매칭의 다양성을 보장하며, Fig. 4(c)에서 보여주듯이 불확실성 하에서도 fine-grained alignment를 깔끔하게 촉진한다.

3.3.4 Total Training Objectives

우선, 우리는 retrieval 학습을 위해 GMMFormer [41]에서 사용된 기본 loss인 $\mathcal{L}^{\text {basic }}$ 를 채택한다. 그런 다음, 위에서 언급된 query diverse loss $\mathcal{L}^{\text {div }}$ 와 optimal matching loss $\mathcal{L}^{\text {om }}$ 를 불확실성 인식(uncertainty-aware) text-clip matching을 위해 활용한다. 요약하자면, 우리는 다음을 최소화하도록 모델을 학습시킨다:

\mathcal{L}=\mathcal{L}^{\text {basic }}+\lambda_{d} \mathcal{L}^{\text {div }}+\lambda_{o} \mathcal{L}^{o m}

여기서 $\lambda_{d}$ 와 $\lambda_{o}$ 는 서로 다른 regularization term들의 균형을 맞추기 위해 사용된다.

3.4 Similarity Measure

텍스트-비디오 쌍 $(\mathcal{T}, \mathcal{V})$ 간의 유사도를 측정하기 위해, 먼저 Sec. 3.1과 Sec. 3.2에 따라 $q, V_f, V_c$ 를 계산한다. 그런 다음, 각각 프레임 레벨(frame-level) 및 클립 레벨(clip-level) 유사도 점수를 계산한다:

\begin{aligned} S_{f}(\mathcal{T}, \mathcal{V}) & =\max \left\{\cos \left(q, f_{1}\right), \cos \left(q, f_{2}\right), \ldots, \cos \left(q, f_{M_{f}}\right)\right\} \\ S_{c}(\mathcal{T}, \mathcal{V}) & =\max \left\{\cos \left(q, c_{1}\right), \cos \left(q, c_{2}\right), \ldots, \cos \left(q, c_{M_{c}}\right)\right\} \end{aligned}

다음으로, 두 점수를 보간(interpolate)하여 **전체 유사도(overall similarity)**를 얻는다:

S(\mathcal{T}, \mathcal{V})=\alpha_{f} S_{f}(\mathcal{T}, \mathcal{V})+\alpha_{c} S_{c}(\mathcal{T}, \mathcal{V})

여기서 $\alpha_f, \alpha_c \in [0,1]$ 는 $\alpha_f + \alpha_c = 1$ 을 만족하는 **사전 정의된 보간 계수(interpolation factors)**이다. 마지막으로, 텍스트 쿼리가 주어지면, 계산된 유사도에 따라 부분적으로 관련 있는 비디오를 검색하고 순위를 매긴다.

Table 1: ActivityNet Captions, TVR 및 Charades-STA 데이터셋에서 GMMFormer $\mathbf{v2}$ 및 다른 SOTA 방법들의 검색 결과. 모델들은 ActivityNet Captions에서의 전반적인 성능(overall performance)을 기준으로 오름차순 정렬되어 있다. State-of-the-art 성능은 굵게(bold) 표시되어 있으며, 밑줄(underlined) 숫자는 두 번째로 좋은 성능을 나타낸다. "-"는 해당 결과가 제공되지 않음을 의미한다.

Method	ActivityNet Captions					TVR					Charades-STA
	R1	R5	R10	R100	SumR	R1	R5	R10	R100	SumR	R1	R5	R10	R100	SumR
DE [5]	5.6	18.8	29.4	67.8	121.7	7.6	20.1	28.1	67.6	123.4	1.5	5.7	9.5	36.9	53.7
W2VV++ [27]	5.4	18.7	29.7	68.8	122.6	5.0	14.7	21.7	61.8	103.2	0.9	3.5	6.6	34.3	45.3
CE [29]	5.5	19.1	29.9	71.1	125.6	3.7	12.8	20.1	64.5	101.1	1.3	4.5	7.3	36.0	49.1
ReLoCLNet [49]	5.7	18.9	30.0	72.0	126.6	10.7	28.1	38.1	80.3	157.1	1.2	5.4	10.0	45.6	62.3
XML [19]	5.3	19.4	30.6	73.1	128.4	10.0	26.5	37.3	81.3	155.1	1.6	6.0	10.1	46.9	64.6
MS-SL [6]	7.1	22.5	34.7	75.8	140.1	13.5	32.1	43.4	83.4	172.4	1.8	7.1	11.8	47.7	68.4
JSG [3]	6.8	22.7	34.8	76.1	140.5	-	-	-	-	-	2.4	7.7	12.8	49.8	72.7
UMT-L [23]	6.9	22.6	35.1	76.2	140.8	13.7	32.3	43.7	83.7	173.4	1.9	7.4	12.1	48.2	69.6
PEAN [12]	7.4	23.0	35.5	75.9	141.8	13.5	32.8	44.1	83.9	174.2	2.7	8.1	$\underline{13.5}$	50.3	74.7
InternVideo2 [38]	7.5	23.4	36.1	76.5	143.5	13.8	32.9	44.4	84.2	175.3	1.9	7.5	12.3	49.2	70.9
GMMFormer [41]	8.3	24.9	36.7	76.1	146.0	13.9	33.3	44.5	$\underline{84.9}$	176.6	2.1	7.8	12.5	50.6	72.9
DL-DKD [7]	8.0	25.0	$\underline{37.5}$	77.1	147.6	14.4	$\underline{34.9}$	$\underline{45.8}$	84.9	179.9	-	-	-	-	-
Ours	8.9	27.1	40.2	78.7	154.9	16.2	37.6	48.8	86.4	189.1	2.5	8.6	13.9	53.2	78.2

4 Experiments

4.1 Experimental Setup

4.1.1 Datasets and Metrics

우리는 GMMFormer v2를 세 가지 PRVR 벤치마크 데이터셋, 즉 ActivityNet Captions [17], TV show Retrieval (TVR) [19], 그리고 Charades-STA [9]에서 평가한다. 특히, 이들 데이터셋에서 제공되는 moment annotation은 PRVR task에서는 사용할 수 없다.
선행 연구들 [6]에 따라, 우리는 검색 성능 평가를 위해 rank-based metric을 사용한다. 즉, $K$ 가 1, 5, 10, 100일 때의 **R@ $K$ (Recall@ $K$ )**와 **Sum of all Recalls (SumR)**를 사용한다. 더 자세한 내용은 appendix에 제공되어 있다.

4.1.2 Implementation Details

비디오 표현을 위해 ActivityNet Captions와 Charades-STA에서는 [48]의 I3D feature를 사용한다. TVR에서는 [19]에서 제공하는 대로, 프레임 수준의 ResNet152 [10] feature와 세그먼트 수준의 I3D [2] feature를 연결하여 3,072차원의 시각 feature를 얻는다. 문장 표현을 위해서는 ActivityNet Captions와 Charades-STA에서 [6]이 제공하는 1,024차원의 RoBERTa feature를 사용하고, TVR에서는 [19]가 제공하는 768차원의 RoBERTa feature를 사용한다. TC-GMMBlock에서는 8개의 Gaussian block을 사용하며, Gaussian variance는 각각 **0.1, 0.5, 1.0, 3.0, 5.0, 8.0, 10.0, $\infty$ **로 설정한다. 지면 제약으로 인해 더 자세한 구현 세부 사항은 부록에 제공한다.

Table 2: FLOPs, 파라미터 수 및 검색 효율성 측면에서의 모델 비교. 공정한 비교를 위해 보고된 런타임은 동일한 Nvidia RTX3080Ti GPU에서 측정되었다.

	MS-SL	GMMFormer	GMMFormer v2
FLOPs (G)	1.29	1.95	5.43
Params (M)	4.85	12.85	32.27
Runtime (ms)	12.93	4.56	6.73
Memory (M)	250.11	12.67	61.57

4.2 Comparison with State-of-the-art Methods

우리는 GMMFormer v2를 text-to-video retrieval (T2VR) [5, 27, 29], video corpus moment retrieval (VCMR) [49, 19, 3], general video understanding (GVU) [23, 38], 그리고 partially relevant video retrieval (PRVR) [6, 12, 7, 41]을 위해 설계된 경쟁 모델들과 비교한다.

Table 1에서 볼 수 있듯이, T2VR 모델들은 untrimmed video를 인지하는 능력 부족으로 인해 성능이 좋지 않다. VCMR 모델들은 moment supervision을 통해 T2VR 모델보다 한 단계 더 나아간다. 또한, 웹 규모의 text-video 쌍으로 사전학습된 GVU 모델들은 좋은 성능을 보이지만, clip modeling의 부족으로 인해 여전히 PRVR 모델보다 성능이 떨어진다. PRVR 모델 중에서는 우리의 GMMFormer v2가 이전 연구들을 상당한 차이로 능가한다. 구체적으로, GMMFormer v2는 세 가지 벤치마크에서 GMMFormer보다 SumR에서 각각 6.1%, 7.1%, 7.3%의 상대적 성능 향상을 달성했으며, 사전학습된 vision-language model로부터 풍부한 일반화 지식을 활용하는 이전 SOTA 경쟁 모델인 DL-DKD를 능가한다. PRVR task의 특수성과 난이도를 고려할 때, 이러한 성능 향상은 매우 중요하다.

Table 3: ActivityNet Captions에서 fusion component에 대한 ablation study. FB, TC-GB, QDL, OM은 각각 frame-level branch, TC-GMMBlock, revamped query diverse loss, 그리고 설계된 optimal matching loss를 의미한다.

Exp.	FB	TC-GB	QDL	OM	R1	R5	R10	R100	SumR
1					6.8	22.8	34.8	75.3	139.7
2	$\checkmark$				7.5	23.5	35.8	76.7	143.5
3	$\checkmark$	$\checkmark$			8.2	25.5	38.1	77.1	149.0
4	$\checkmark$	$\checkmark$	$\checkmark$		8.6	26.3	39.5	78.4	152.7
5	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\mathbf{8 . 9}$	$\mathbf{27 . 1}$	$\mathbf{40 . 2}$	$\mathbf{7 8 . 7}$	$\mathbf{1 5 4 . 9}$

이전 SOTA 방법들과 비교했을 때, GMMFormer v2의 주요 장점은 다양한 길이의 video moment를 포착하는 더 나은 능력에 있다. 설계된 temporal consolidation module을 통해, 모델은 주어진 텍스트 쿼리와 관련된 정확한 video moment를 더 잘 찾아낼 수 있다.

4.3 Complexity Analyses

이 섹션에서는 GMMFormer v2의 복잡도 분석을 제공한다. 실제 상황에서의 검색 효율성을 반영하기 위해, 우리는 먼저 TVR 데이터셋에서 2,500개의 비디오로 데이터베이스를 구축한다. 그런 다음, 단일 텍스트 쿼리에 대한 검색 프로세스를 완료하는 데 필요한 FLOPs, 파라미터 수, 런타임 및 메모리 사용량을 측정하기 위해 몇 가지 경쟁 모델을 선택한다.
Table 2에서 볼 수 있듯이, temporal consolidation module과 더 광범위한 Gaussian block의 도입은 GMMFormer v2의 계산 복잡도를 증가시킨다. 그러나 이러한 추가 계산은 비디오 브랜치에 위치하며, 이는 미리 오프라인으로 계산될 것이다. 실제 추론 과정에서 GMMFormer v2는 효율적이다 (예: 고전적인 PRVR 모델인 MS-SL보다 약 2배 빠르며, 저장 공간 오버헤드는 MS-SL보다 4배 작다).

4.4 Ablations and Analyses

우리는 설계된 프레임 레벨 브랜치, TC-GMMBlock, 개선된 query diverse loss, 그리고 제안된 optimal matching loss에 대한 ablation study를 제시한다. 주요 결과는 ActivityNet Captions 데이터셋을 기반으로 보고한다.

4.4.1 Fusion Components

Tab. 3에서 볼 수 있듯이, 순수한 baseline (Exp.1)에서 시작하여, GMMFormer v2는 비디오 레벨 branch를 프레임 레벨 branch로 대체함으로써 SumR에서 2.7%의 성능 향상을 얻는다 (Exp.2). 그 다음, GMMFormer v2는 바닐라 Transformer encoder layer를 설계된 TCGMMBlock으로 대체함으로써 SumR에서 3.8%의 성능 향상을 얻는다 (Exp.3). Revamped query diverse loss를 추가하면 baseline 대비 9.3%의 추가적인 개선을 가져온다 (Exp.4). 설계된 프레임 레벨 branch, TC-GMMBlock, query diverse loss 및 optimal matching loss를 함께 사용함으로써, GMMFormer v2는 SumR에서 10.9%의 성능 향상을 달성한다 (Exp.5). 이러한 ablation 결과들은 설계된 구성 요소들이 검색 성능을 향상시키는 데 효과적임을 보여준다.

4.4.2 Aggregation Strategy

GMMFormer v2에서는 다양한 유형의 aggregation 전략을 사용할 수 있다. 우리는 모델에 가장 적합한 방법을 선택하기 위해 몇 가지 대표적인 방법들을 탐구한다: average pooling, weighted aggregation, dynamic aggregation, 그리고 우리가 설계한 temporal consolidation module이다.
Table 4에서 보듯이, average pooling이 가장 낮은 성능을 보인다. 그 이유는 Gaussian block의 수가 많을 때(예: 8개), average pooling이 광범위한 관련 없는 클립 정보를 도입하여 관련 클립 정보의 비율을 감소시키기 때문이다.
Weighted aggregation은 average pooling보다 더 나은 성능을 보이며, 이는 핵심적인 Gaussian block을 강조함으로써 그 효과를 입증한다.
Dynamic aggregation은 한 단계 더 나아가 각기 다른 비디오에 대해 다른 aggregation 가중치를 생성한다.
그리고 우리가 설계한 temporal consolidation module은 가장 좋은 성능을 달성하는데, 이는 적응형 aggregation 가중치를 학습하고 비디오 내의 다른 시점에 대해 다양한 receptive field를 할당하는 능력 덕분이다. 더 자세한 내용은 appendix에 제공된다.

Table 4: ActivityNet Captions에서 다양한 aggregation 접근 방식 비교. AP, WA, DA, TCM은 각각 average pooling, weighted aggregation, dynamic aggregation, temporal consolidation module에 해당한다.

Aggregation	R1	R5	R10	R100	SumR
AP	8.5	25.5	37.9	77.1	149.0
WA	8.7	26.2	38.8	78.0	151.7
DA	8.6	26.6	39.3	78.3	152.8
TCM	$\mathbf{8 . 9}$	$\mathbf{27 . 1}$	$\mathbf{40 . 2}$	$\mathbf{7 8 . 7}$	$\mathbf{1 5 4 . 9}$

Figure 5: (a) Eq. 4의 하이퍼파라미터 $\gamma$ 의 영향과 (b) Gaussian variance $\sigma$ 가 ActivityNet Captions에 미치는 영향. $\sigma=\infty$ 는 vanilla Transformer encoder layer를 의미한다.

4.4.3 Impact of the Focusing Parameter $\gamma$

**초점 매개변수(focusing parameter) $\gamma$ **는 잘 보존된 텍스트 쌍의 가중치를 낮추는 속도를 부드럽게 조절한다. Figure 5(a)는 Equation 4에서 $\gamma$ 가 미치는 영향을 보여준다.
관찰 결과, $\gamma$ 가 증가함에 따라 성능은 처음에는 증가하다가 이후 감소하는 경향을 보인다. 이는 다음과 같은 이유 때문이다:

$\gamma$ 가 작을 때: query diverse loss의 pushing 정도가 거의 동일해져, retrieval 학습과 충돌할 가능성이 있다.
$\gamma$ 가 클 때: query diverse loss의 pushing 정도가 대부분의 텍스트 쌍에 대해 과도하게 강화되어, retrieval 학습을 압도(drown out)하게 된다.

4.4.4 Impact of the Gaussian Variance $\sigma$

**Gaussian variance $\sigma$ **는 입력 feature의 local receptive field를 제어한다. 이 하위 섹션에서는 GMMFormer v2에서 단일 Gaussian block을 사용할 때 **Gaussian variance $\sigma$ **의 영향을 조사한다. Fig. 5(b)에서 볼 수 있듯이, $\sigma$ 가 클수록 일반적으로 더 나은 성능을 보인다. 그 이유는 $\sigma$ 가 작을 때 모델은 feature 상호작용 시 작은 receptive field를 가지며 비디오 내의 temporal dynamics를 탐색하는 데 실패할 수 있기 때문이다. 반대로 $\sigma$ 가 크면 큰 receptive field를 가질 수 있으며, 이는 관련 없는 클립 정보를 도입할 수 있다. 그러나 모델은 이러한 불필요한 정보를 어느 정도 걸러내는 방법을 여전히 학습할 수 있다. 특히, TC-GMMBlock은 multi-scale 클립 정보를 포착할 수 있어 모든 단일 Gaussian block 변형을 능가한다.

4.4.5 Impact of the Number of Gaussian Blocks

이 하위 섹션에서는 GMMFormer v2에서 Gaussian block의 개수가 미치는 영향을 조사한다. 우리는 다양한 개수의 Gaussian block을 균일하게 샘플링하고, 그에 따른 SumR 결과를 Tab. 5에 제시한다.

GMMFormer의 경우, Gaussian block의 개수가 증가함에 따라 성능이 처음에는 증가하다가 감소하는 경향을 보인다.

Table 5: ActivityNet Captions에서 Gaussian block 개수가 미치는 영향.

	2	4	6	8
GMMFormer	142.2	146.0	145.4	144.6
GMMFormer v2	151.0	152.5	153.8	154.9

반면, GMMFormer v2는 항상 GMMFormer보다 우수한 성능을 보이며, Gaussian block 개수가 증가할수록 성능이 지속적으로 향상된다. 이는 설계된 temporal consolidation module 덕분에 다양한 Gaussian constraint를 활용하는 데 있어 GMMFormer v2의 확장성을 보여준다.

4.4.6 Versatility of Uncertainty-aware Text-clip Matching

PRVR을 위한 제안된 uncertainty-aware text-clip matching의 다용도성을 테스트하기 위해, 우리는 고전적인 PRVR 모델(MS-SL [6] 및 DL-DKD [7])에 우리의 query diverse loss $\mathcal{L}^{\text {div }}$ 와 optimal matching loss $\mathcal{L}^{o m}$ 를 추가하여 플러그인 실험을 수행한다. Tab. 6에 나열된 ActivityNet Captions에서의 SumR 결과는 우리의 query diverse loss와 optimal matching loss가 PRVR 모델의 검색 성능을 효과적으로 향상시킴을 보여준다.

Table 6: 두 가지 고전적인 PRVR 모델에 대한 다용도성 실험 결과.

	original	w/ $\mathcal{L}^{\text {div }}$	w/ $\mathcal{L}^{\text {div }}$ and $\mathcal{L}^{\text {om }}$
MS-SL	140.1	$144.3(+4.2)$	$146.6(+6.5)$
DL-DKD	147.6	$150.8(+3.2)$	$152.2(+4.6)$

5 Conclusions

본 논문에서는 PRVR(Phrase-grounding in Videos and Referring)을 위한 불확실성 인식 프레임워크인 GMMFormer v2를 제안한다. 다양한 길이의 비디오 순간(moment)을 더 잘 포착하기 위해, 우리는 GMMFormer [41]를 개선하여 temporal consolidation module을 설계하였다. 이 모듈은 적응형 aggregation 가중치를 학습하고, 비디오 내의 서로 다른 시점에 대해 다양한 receptive field를 할당한다. 텍스트 쿼리와 순간 간의 불확실한 대응 관계를 더 잘 해결하기 위해, 우리는 GMMFormer의 query diverse loss를 개선하여 균일하고 판별적인 semantic structure를 얻도록 하였고, 텍스트 쿼리와 관련 클립 간의 fine-grained alignment를 위한 optimal matching loss를 제안한다. 이러한 기법들은 semantic collapse 문제를 완화하고 PRVR을 위한 cross-modal learning을 효과적으로 촉진하는 플러그인 솔루션으로 활용될 수 있다. 세 가지 PRVR 벤치마크에 대한 광범위한 실험과 ablation study는 제안된 프레임워크의 효과를 입증한다.

Appendix

A Implementation Details

A. 1 Architecture

A.1.1 Simple Attention Pooling

텍스트 쿼리를 표현할 때, 우리는 contextualized word embedding vector를 compact sentence embedding으로 통합하기 위해 마지막 단계에서 simple attention pooling (SAP) 모듈을 활용하며, 이는 다음과 같이 공식화될 수 있다:

q=\operatorname{SAP}(Q)=\sum_{i=1}^{N} l_{i} \times q_{t_{i}}, \quad l=\operatorname{softmax}\left(b Q^{T}\right)

여기서

$Q=\left\{q_{t_{i}}\right\}_{i=1}^{N} \in \mathbb{R}^{N \times d}$ 는 contextualized word embedding vector를 나타낸다.
$N$ 은 시퀀스 길이, $d$ 는 차원이다.
$b \in \mathbb{R}^{1 \times d}$ 는 학습 가능한 벡터이며, $l \in \mathbb{R}^{1 \times N}$ 은 attention vector를 나타낸다.
SAP는 simple attention pooling 모듈이며, 그 출력은 $q$ 로 표기된다.

A.1.2 Detailed Formulas for GMMBlock

GMMFormer [41]의 GMMBlock은 **일련의 Gaussian-constrained Transformer block (Gaussian block)**과 정적 aggregation 모듈로 구성된다. 각 Gaussian block은 attention score를 재조정하기 위해 특정 Gaussian matrix를 미리 정의하며, 이는 다음과 같이 정식화될 수 있다:

\begin{gathered} \operatorname{GA}(X)=\operatorname{softmax}\left(\mathcal{M}_{\sigma}^{g} \odot \frac{X W^{q}\left(X W^{k}\right)^{T}}{\sqrt{d_{h}}}\right) X W^{v} \\ X_{\sigma}^{\prime}=\operatorname{GA}(\operatorname{LN}(X))+X \\ X_{\sigma}=\operatorname{FFN}\left(\operatorname{LN}\left(X_{\sigma}^{\prime}\right)\right)+X_{\sigma}^{\prime} \end{gathered}

여기서

$\mathcal{M}_{\sigma}^{g} \in \mathbb{R}^{M \times M}$ 는 Gaussian matrix이며, $\mathcal{M}_{\sigma}^{g}(i, j)=\frac{1}{2 \pi} e^{-\frac{(j-i)^{2}}{\sigma^{2}}}$ 로 정의된다.
$\sigma^{2}$ 는 Gaussian 분포의 분산이다.
$X \in \mathbb{R}^{M \times d}$ 는 입력 feature 시퀀스이며, $M$ 은 시간 지점(time point)의 수, $d$ 는 feature 차원이다.
$W^{q}, W^{k}, W^{v}$ 는 $X$ 를 query, key, value 세 행렬로 투영하는 세 가지 파라미터이다.
$d_{h}$ 는 attention의 latent 차원이며, $\odot$ 는 element-wise 곱셈 함수를 나타낸다.
GA는 Gaussian attention 모듈이다.
LN은 Layer Normalization [1]을 의미하며, FFN은 두 개의 FC layer로 구성된 Feed-Forward Network이다.

GMMFormer는 multi-scale contextual feature를 추출한 후, **평균 풀링(average pooling)을 사용하여 이를 집계(aggregate)**하며, 이는 다음과 같이 정식화될 수 있다:

\tilde{X}=\frac{1}{K} \sum_{k=1}^{K} X_{\sigma_{k}}

여기서 $X_{\sigma_{k}}$ 는 $k$ -번째 Gaussian block의 출력이며, $K$ 는 Gaussian block의 수, $\tilde{X}$ 는 GMMBlock의 출력이다. 이러한 정적 집계(static aggregating) 방식은 관련 없는 클립 정보를 도입하고 올바른 클립 정보의 비율을 감소시킬 수 있는 잠재적 단점을 가진다. 또한, 예상치 못한 M/V(Moment/Video) 순간을 포함하는 비디오를 처리할 때, 목표 순간을 놓칠 수 있다.

A.1.3 Weighted Aggregation

다중 스케일 contextual feature의 aggregation을 개선하기 위한 간단한 아이디어는 서로 다른 Gaussian block에 독립적이고 학습 가능한 aggregation weight를 할당하는 것이다. 모델은 다양한 Gaussian block의 aggregation weight를 중요도에 따라 적응적으로 학습한다:

\tilde{X}=\sum_{k=1}^{K} \tilde{w}_{k} X_{\sigma_{k}}, \tilde{w}_{k}=\frac{e^{w_{k} / \tau}}{\sum_{i=1}^{K} e^{w_{i} / \tau}},

여기서 $w_{k} \in \mathbb{R}^{1}$ 는 $k$ -번째 Gaussian block에 대한 weight를 나타낸다.

A.1.4 Dynamic Aggregation

Dynamic Aggregation은 다중 스케일 contextual feature를 통합하는 또 다른 실용적인 아이디어이다. 구체적으로, 우리는 **학습 가능한 query $\varphi \in \mathbb{R}^{d}$ **를 정의하고, Cross Attention (CA) layer와 FC layer (FC)를 사용하여 각 비디오에 대해 서로 다른 aggregation weight $w \in \mathbb{R}^{K}$ 를 생성하는 weight generator를 구축한다:

\tilde{X}=\sum_{k=1}^{K} \tilde{w}_{k} X_{\sigma_{k}}, \tilde{w}_{k}=\frac{e^{w_{k} / \tau}}{\sum_{i=1}^{K} e^{w_{i} / \tau}}, w=\mathrm{FC}(\mathrm{CA}(\varphi, X, X)) .

A. 2 Training Details

A.2.1 Basic Loss

우리는 기존 PRVR 연구들 [6, 41, 7]을 따라 triplet loss $\mathcal{L}^{\text {trip }}$ 와 InfoNCE loss $\mathcal{L}^{n c e}$ 를 듀얼 브랜치(dual branches)의 기본 목적 함수로 채택한다:

\mathcal{L}^{\text {basic }}=\mathcal{L}_{c}^{\text {trip }}+\mathcal{L}_{f}^{\text {trip }}+\lambda_{c} \mathcal{L}_{c}^{\text {nce }}+\lambda_{f} \mathcal{L}_{f}^{\text {nce }},

여기서 아래첨자 $f$ 와 $c$ 는 각각 frame-level 브랜치와 clip-level 브랜치에 대한 목적 함수를 나타낸다. 모든 목적 함수는 추정된 cross-modal 유사도를 기반으로 계산된다. 즉, **clip-level 브랜치의 $S_{c}=\max _{m=1}^{M_{c}} \cos \left(q, c_{m}\right)$ 와 frame-level 브랜치의 $S_{f}=\max _{m=1}^{M_{f}} \cos \left(q, f_{m}\right)$ **를 사용한다. $\lambda_{c}$ 와 $\lambda_{f}$ 는 InfoNCE 목적 함수의 기여도를 조절하는 하이퍼파라미터이다.

우리는 비디오에 텍스트와 관련된 순간이 있을 경우 텍스트-비디오 쌍을 positive로 정의하고, 관련 내용이 없을 경우 negative로 정의한다. **positive 텍스트-비디오 쌍 $(\mathcal{T}, \mathcal{V})$ **가 주어졌을 때, 미니배치 $\mathcal{B}$ 에 대한 triplet ranking loss는 다음과 같이 공식화된다:

\begin{aligned} \mathcal{L}^{\text {trip }}= & \frac{1}{n} \sum_{(\mathcal{T}, \mathcal{V}) \in \mathcal{B}}\left\{\max \left(0, m+S\left(\mathcal{T}^{-}, \mathcal{V}\right)-S(\mathcal{T}, \mathcal{V})\right)\right. \\ & \left.+\max \left(0, m+S\left(\mathcal{T}, \mathcal{V}^{-}\right)-S(\mathcal{T}, \mathcal{V})\right)\right\} \end{aligned}

여기서 $m$ 은 margin 상수이다. $\mathcal{T}^{-}$ 와 $\mathcal{V}^{-}$ 는 각각 $\mathcal{V}$ 에 대한 negative 텍스트와 $\mathcal{T}$ 에 대한 negative 비디오를 나타낸다.

**positive 텍스트-비디오 쌍 $(\mathcal{T}, \mathcal{V})$ **가 주어졌을 때, 미니배치 $\mathcal{B}$ 에 대한 InfoNCE loss는 다음과 같이 계산된다:

\begin{aligned} \mathcal{L}^{\text {nce }}= & -\frac{1}{n} \sum_{(\mathcal{T}, \mathcal{V}) \in \mathcal{B}}\left\{\log \left(\frac{S(\mathcal{T}, \mathcal{V})}{S(\mathcal{T}, \mathcal{V})+\sum_{\mathcal{T}_{i}^{-} \in \mathcal{N}_{\mathcal{T}}} S\left(\mathcal{T}_{i}^{-}, \mathcal{V}\right)}\right)\right. \\ & \left.+\log \left(\frac{S(\mathcal{T}, \mathcal{V})}{S(\mathcal{T}, \mathcal{V})+\sum_{\mathcal{V}_{i}^{-} \in \mathcal{N}_{\mathcal{V}}} S\left(\mathcal{T}, \mathcal{V}_{i}^{-}\right)}\right)\right\} \end{aligned}

여기서 $\mathcal{N}_{\mathcal{T}}$ 는 미니배치 내의 비디오 $\mathcal{V}$ 에 대한 모든 negative 텍스트를 나타내고, $\mathcal{N}_{\mathcal{V}}$ 는 미니배치 내의 쿼리 $\mathcal{T}$ 에 대한 모든 negative 비디오를 나타낸다.

A. 3 Datasets and Metrics

ActivityNet Captions [17]는 YouTube에서 가져온 약 20,000개의 비디오로 구성되어 있으며, 각 비디오는 평균 3.7개의 moment와 해당 문장 설명(sentence description)을 포함한다. 우리는 [49, 48]에서 널리 사용된 데이터 분할 방식을 따른다. TVR [19]은 6개의 TV 쇼에서 수집된 21,800개의 비디오를 포함하며, 각 비디오는 그 안의 다른 moment들을 설명하는 5개의 자연어 문장과 연결되어 있다. 우리는 [6]에 명시된 훈련 및 테스트 방법론을 따르며, 훈련에는 87,175개의 moment를 포함하는 17,435개의 비디오를, 테스트에는 10,895개의 moment를 포함하는 2,179개의 비디오를 사용한다. Charades-STA [9]는 6,670개의 비디오와 16,128개의 텍스트 쿼리를 포함한다. 각 비디오는 평균 약 2.4개의 moment와 해당 텍스트 쿼리를 포함한다. 우리는 모델 훈련 및 테스트를 위해 공식 데이터 분할을 사용한다. 선행 연구들 [6]에 따라, 우리는 rank-based metric인 R@K를 사용하여 순위 목록의 상위 K개 내에서 원하는 결과를 반환하는 쿼리의 비율을 측정한다. 성능은 백분율(%)로 보고된다. 또한, **Sum of all Recalls (SumR)**를 사용하여 검색 결과에 대한 전반적인 비교를 제공한다.

Table 7: ActivityNet Captions, TVR 및 Charades-STA의 하이퍼파라미터 설정.

Params	ActivityNet Captions	TVR	Charades-STA
learning rate	$2.5 \mathrm{e}-4$	3e-4	$2 \mathrm{e}-4$
$\alpha_{f}$	0.3	0.3	0.3
$\alpha_{c}$	0.7	0.7	0.7
$\alpha$	32	32	32
$\delta$	0.2	0.15	0.2
$\gamma$	1	1	1
$m$	0.2	0.1	0.2
$\tau$	$6 \mathrm{e}-1$	$9 \mathrm{e}-2$	$6 \mathrm{e}-1$
$\lambda_{c}$	$2 \mathrm{e}-2$	$5 \mathrm{e}-2$	$2 \mathrm{e}-2$
$\lambda_{f}$	$4 \mathrm{e}-2$	$4 \mathrm{e}-2$	$4 \mathrm{e}-2$
$\lambda_{d}$	$3 \mathrm{e}-3$	$8 \mathrm{e}-5$	$3 \mathrm{e}-3$
$\lambda_{o}$	$1.1 \mathrm{e}-1$	$9 \mathrm{e}-2$	$1 \mathrm{e}-1$

A. 4 More Implementation Details

A.4.1 Hyper-parameter

특히, 우리는 GMMFormer로부터 대부분의 하이퍼파라미터 설정을 직접 계승한다. 구체적으로, 다운샘플링을 위해 $M_c=32$ 를 사용하고, 최대 프레임 수 $M_f=128$ 로 설정한다. 만약 프레임 수가 $M_f$ 를 초과하면, 균일하게 $M_f$ 로 다운샘플링한다. 문장의 경우, ActivityNet Captions에서는 쿼리 단어의 최대 길이를 $N=64$ 로 설정하고, TVR 및 Charades-STA에서는 $N=30$ 으로 설정한다. 최대 길이를 초과하는 단어는 모두 버려진다.

attention module에 관해서는, hidden size $d=384$ 와 4개의 attention head를 사용한다. 모델 학습 중에는 Adam optimizer를 사용하며, mini-batch size는 128, epoch 수는 100으로 설정한다. 우리 모델은 Pytorch로 구현되었고, Nvidia RTX3080Ti GPU에서 학습되었다. **손실 함수의 정규화 항(regularization terms)**은 모든 손실 함수 값들이 동일한 크기(order of magnitude)를 갖도록 설정한다. 자세한 하이퍼파라미터 설정은 Tab. 7에서 확인할 수 있다. 학습 중 learning rate를 조정하기 위해 MS-SL [6]과 유사한 learning rate 조정 스케줄을 사용한다.

B More Experimental Results

B. 1 More Ablations on ActivityNet Captions

B.1.1 Choice of Constraint Type

TC-GMMBlock의 Gaussian 블록에는 **각 feature가 상호작용 시 인접 feature에 집중하도록 하는 여러 제약 조건 유형(constraint types)**이 있다. 이 하위 섹션에서는 세 가지 제약 조건 유형(즉, Boxcar, Bartlett, Gaussian)을 번갈아 적용하고 ActivityNet Captions에서의 성능을 Table 8에 보고한다. 이들 중 Boxcar 유형이 가장 낮은 성능을 보이는데, 이는 비디오 프레임이 가까운 프레임에 더 많은 attention을 기울여야 한다는 직관과 일치한다.

Table 8: ActivityNet Captions에서 다양한 제약 조건 유형(constraint types) 비교. CT는 constraint type을 의미한다.

CT	R1	R5	R10	R100	SumR
Boxcar	8.4	25.4	38.3	78.2	150.3
Bartlett	8.6	25.9	38.8	78.3	151.6
Gaussian	$\mathbf{8 . 9}$	$\mathbf{27 . 1}$	$\mathbf{4 0 . 2}$	$\mathbf{7 8 . 7}$	$\mathbf{15 4 . 9}$

또한, Gaussian 유형이 Bartlett 유형보다 우수한 성능을 보인다. 우리는 이를 Gaussian 분포의 부드럽고 자연스러운 특성 때문이라고 생각한다. Gaussian prior는 중심점과 확산(spread) 개념을 포함할 수 있으므로, 비디오의 시간적 측면을 모델링하는 데 도움이 된다. 이는 특정 지속 시간을 가진 중심 시간 프레임 주변에서 이벤트가 발생하는 아이디어와 잘 부합한다.

C Case Study

의미 붕괴(semantic collapse)의 원인과 우리가 제안하는 query diverse loss 및 optimal matching loss의 조합이 이 현상을 어떻게 완화할 수 있는지 직관적으로 보여주기 위해, 우리는 ActivityNet Captions에서 관련 텍스트 쿼리들의 평균 임베딩 거리를 측정하여 의미적으로 가까운 두 비디오를 무작위로 선택하고, t-SNE를 통해 해당 쿼리 및 클립 임베딩 분포를 시각화했다 (Fig 6 참조). 이 중 Fig. 6(a)는 query diverse loss와 optimal matching loss를 제거한 GMMFormer v2 변형 모델의 출력을 보여주며,

Figure 6: 의미적으로 가까운 두 비디오의 텍스트 쿼리 및 클립 임베딩에 대한 t-SNE 시각화. $\mathcal{L}^{q d l}$ 과 $\mathcal{L}^{o m}$ 은 각각 query diverse loss와 optimal matching loss를 나타낸다.

Fig. 6(b)는 완전한 GMMFormer v2의 출력을 보여준다.

Fig. 6(a)에서, 한편으로 쿼리에 의해 매칭된 클립 임베딩들은 **매우 동질적(homogeneous)**이다 (서로 가깝거나 심지어 동일한 몇몇 점들). cross-modal matching에서 유효한 영역은 녹색 원으로 표시된 붕괴된 작은 영역뿐이다. 순간(moment) 어노테이션의 부족으로 인해, 이 변형 모델에서는 세분화된 text-clip matching 패턴이 효과적으로 제약되지 않아, 모델이 지름길(shortcuts)을 학습하고 의미 붕괴 문제를 야기한다. 다른 한편으로, 대부분의 클립 임베딩은 학습 중에 활성화되지 않으므로 효과적으로 감독되지 않아, 다른 비디오에 속하는 클립 임베딩들이 서로 섞이고 비디오 표현의 판별력(discriminability)이 감소한다.

Fig. 6(b)에서, query diverse loss는 더 많은 의미 정보를 유지하고 쿼리들을 임베딩 공간에 더 균일하게 분포시킨다. 또한, optimal matching loss는 쿼리와 클립 간의 세분화된 정렬(fine-grained alignment)을 더욱 다양하게 만들어, 붕괴된 매칭으로 인한 노이즈가 많은 cross-modal correspondence를 줄이는 데 도움을 준다. 학습 중에 다양한 클립 임베딩들이 활성화되므로, 기본 loss의 coarse-grained (비디오 수준) 감독 신호를 통해 다른 비디오에 속하는 클립 임베딩들을 더 판별력 있게 만들 수 있으며, 이는 PRVR의 견고성(robustness)을 향상시키는 데 도움이 된다.

Figure 7: GMMFormer와 GMMFormer $\mathbf{v 2}$ 의 text-clip 유사도 히트맵 시각화. 검은색 점선 상자는 타겟 순간(target moment) 영역을 나타낸다. 히트맵의 어두운 색 영역은 모델이 타겟 순간일 가능성이 더 높다고 판단하는 위치이며, 우리는 검은색 실선 상자를 사용하여 모델이 가장 가능성이 높다고 판단하는 영역을 나타낸다. 더 나은 관찰을 위해 text-clip 유사도 간격을 부드럽게 처리했음에 유의하라.

Figure 8: ActivityNet Captions에서의 포지셔닝 분산(positioning variance) 분포 시각화. untrimmed 비디오와 그에 관련된 텍스트 쿼리가 주어졌을 때, 먼저 모델을 통해 클립 임베딩과 텍스트 쿼리 임베딩을 얻는다. 그런 다음, 최대 유사도 매칭을 통해 클립 임베딩 상의 텍스트 쿼리 임베딩 위치를 얻는다. 이후, 이 비디오의 포지셔닝 분산은 클립 임베딩 상의 텍스트 쿼리 매칭 위치들의 분산으로 정의된다.

D Visualizations

D. 1 Text-clip Similarity Heat Map

GMMFormer v2가 untrimmed 비디오에서 target moment를 인지하는 능력을 추가적으로 보여주기 위해, ActivityNet Captions 데이터셋에 대한 몇 가지 text-clip 유사도 예시를 제시한다. Fig. 7에서 볼 수 있듯이, GMMFormer와 비교하여 GMMFormer v2는 target moment를 더 정확하게 포착한다. 유사한 장면을 포함하거나 예상치 못한 M/V(Moment/Visual)가 있는 비디오의 경우, GMMFormer는 moment를 잘못 인지하거나 아예 인지하지 못하는 경향이 있는 반면, GMMFormer v2는 올바른 moment를 찾는 데 강건함(robustness)을 보인다.

D. 2 Positioning Variance Distribution

이 하위 섹션에서는 ActivityNet Captions에서 관련 텍스트 쿼리(relevant text queries)의 위치 분산(positioning variance) 분포를 제시한다. 이 분산은 클립 임베딩(clip embeddings)에서 관련 텍스트 쿼리의 매칭 위치 간의 분산으로 계산된다.
Fig. 8(a)에서 볼 수 있듯이, 학습 시작 시 모델이 무작위로 초기화될 때, 위치 분산이 0에 가까울 확률이 매우 높다. 이는 서로 다른 텍스트 쿼리들이 몇 개의 겹치는 클립에 할당되는 경향이 있음을 나타낸다.
Fig. 8(b), 8(c), 8(d)를 비교해보면, 설계된 query diverse loss와 optimal matching loss 모두 분산이 0에 가까울 확률을 감소시키는 것을 알 수 있다. 이는 이 두 loss가 동일한 비디오 내에서 서로 다른 텍스트 쿼리들이 관련 클립에 세밀하고 다양하게 정렬되도록 효과적으로 유도할 수 있음을 보여준다.

E Qualitative Retrieval Results

정성적인 방식으로 GMMFormer v2의 효과를 검증하기 위해, 우리는 ActivityNet Captions 데이터셋에서 몇 가지 대표적인 예시를 Figure 9에 제시한다. 이러한 검색 결과를 살펴보면,

Figure 9: ActivityNet Captions 데이터셋에 대한 Text-to-video retrieval 결과. 각 쿼리에 대한 상위 3개 검색 결과가 표시되어 있으며, 녹색 상자는 관련 비디오를, 빨간색 상자는 관련 없는 비디오를 나타낸다.

우리의 GMMFormer v2 모델이 GMMFormer 및 MS-SL과 같은 다른 경쟁 모델들에 비해 더욱 정확한 검색 결과를 반환할 수 있음을 알 수 있다.

F Limitations and Future Work

공정한 비교를 위해, 우리는 이전 연구들 [6, 7, 41]을 따라 사전학습된 모델(예: ResNet [10] 및 RoBERTa [30])을 사용하여 미리 feature를 추출한다. 이 방식은 만족스럽지 못한 retrieval 성능으로 이어질 수 있으며, 향후에는 CLIP [33] 및 ViCLIP [37]과 같은 더 발전된 multi-modal encoder를 backbone으로 활용하여 end-to-end 방식으로 모델을 학습할 예정이다.

G Society Impacts

우리의 불확실성 인식 text-clip matching 솔루션은 부분적으로 관련된 비디오 검색(partially relevant video retrieval, PRVR) 모델의 검색 성능을 향상시켜, 사람들이 일상 엔터테인먼트에서 원하는 비디오 콘텐츠를 더 쉽게 얻을 수 있도록 돕는다. 그러나 PRVR 모델은 아직 개발 단계에 있으며, 사람들이 원치 않는 비디오 콘텐츠를 검색할 수도 있다.