Zhang, Qun, et al. "Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval." ACM Transactions on Multimedia Computing, Communications and Applications (2025).

Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval

QUN ZHANG, College of Computer Science and Electronic Engineering, Hunan University, China
CHAO YANG*, College of Computer Science and Electronic Engineering, Hunan University, China
BIN JIANG, College of Computer Science and Electronic Engineering, Hunan University, China
BOLIN ZHANG, College of Computer Science and Electronic Engineering, Hunan University, China

Abstract

**Partially Relevant Video Retrieval (PRVR)**은 untrimmed 비디오에서 쿼리에 가장 적합한 비디오를 정확하게 검색하는 것을 목표로 한다. 비디오 콘텐츠 분석은 세 가지 다른 granularity로 수행될 수 있다: frame-level, clip-level, video-level. 이전 방법들은 이러한 레벨 중 하나 또는 두 가지에 초점을 맞춰 alignment를 수행하여, 비디오 semantics 탐색에 한계가 있었다. 또한, 일부 방법들은 video-level alignment를 사용하고 self-attention 메커니즘을 적용하여 video-level feature를 생성하지만, 전체 비디오가 쿼리와 관련이 없을 수 있으므로 이는 이상적이지 않을 수 있다.

우리는 **Multi-Grained Alignment framework with Knowledge Distillation (MGAKD)**를 제안한다. 이 프레임워크는 Contrastive Language-Image Pre-training (CLIP) 모델로부터 cross-modal alignment 지식을 정제하고 multi-grained alignment를 달성한다. MGAKD는 CLIP으로부터 cross-modal alignment 지식을 추출하여 설계된 student model에 이 지식을 전달한다.

student model을 위해 두 가지 branch가 설계되었다: inheritance branch와 exploration branch.

inheritance branch는 CLIP으로부터 cross-modal alignment 지식을 흡수한다.
exploration branch는 frame-level, clip-level, video-level의 세 가지 granularity에서 visual feature를 탐색한다.

구체적으로, 우리는 비디오에서 추출된 frame feature를 쿼리 feature와 직접적으로 alignment하여 frame-level alignment를 달성한다. clip-level alignment에서는 Gaussian mask를 사용하여 이벤트의 시작, 절정, 끝을 표현한다. Gaussian mask를 활용함으로써, 우리는 clip-level feature를 암묵적으로 모델링할 수 있으며, 이는 더 풍부한 contextual 정보를 포함하는 clip feature를 생성한다.

video-level feature 탐색을 더욱 강화하기 위해, 우리는 clip-guided attention을 적용하여 다양한 쿼리에 기반한 다양한 video-level feature를 생성한다. 이 전략은 관련 없는 비디오 순간들이 비디오와 쿼리의 alignment에 영향을 미치는 것을 효과적으로 방지한다.

우리는 두 개의 공개 데이터셋에 대해 광범위한 실험을 수행했으며, 실험 결과는 state-of-the-art 방법을 능가하여 제안된 방법의 우수한 성능을 입증한다.

CCS Concepts: • Information systems $\rightarrow$ Multimedia and multimodal retrieval; Novelty in information retrieval. Additional Key Words and Phrases: Text-Video Retrieval, Partially Relevant Video Retrieval, Multi-modal Alignment

1 INTRODUCTION

모바일 기기와 앱의 광범위한 사용은 일상생활에서 방대한 양의 비디오 콘텐츠를 만들어냈다. 이러한 비디오에서 원하는 정보를 검색하는 방법은 최근 몇 년간 더 많은 주목을 받고 있다. 이에 따라 **비디오 검색(video retrieval)**에 대한 수많은 연구들이 등장했는데, 예를 들어 Temporal Action Localization (TAL) [13, 26, 34, 41, 46, 48, 62], Temporal Sentence Grounding (TSG) [1, 12, 21, 31, 33, 60, 61, 68], Video Corpus Moment Retrieval (VCMR) [19, 20, 28, 63], 그리고 Text-Video Retrieval (T2VR) [16, 30, 44, 57] 등이 있다.

TAL은 비디오에서 특정 순간을 포함하는 액션을 검색하는 것을 목표로 하지만, 제한된 액션 세트에 의해 제약을 받아 풍부한 비디오 장면을 묘사하기 어렵다. 이와 대조적으로, 쿼리를 사용하여 검색 요구사항을 표현하는 것은 비디오를 검색하는 효과적인 방법이며, TSG는 주어진 쿼리에 해당하는 단일 untrimmed 비디오 내의 순간들을 식별하는 것을 목표로 한다 [65]. T2VR은 trimmed 비디오에서 검색하며, 검색된 비디오가 주어진 쿼리에 완전히 대응한다고 가정하는데, 이는 실제 시나리오와는 맞지 않는다.

이러한 한계를 해결하기 위해, Figure 1에서 보여주듯이, Dong et al.은 Partially Relevant Video Retrieval (PRVR) task [7]를 도입했다. 이 task는 쿼리에 대한 풍부한 자연어 설명을 제공할 뿐만 아니라, untrimmed 비디오에서 가장 관련성 높은 콘텐츠를 검색하는 강력한 능력을 가지고 있다. 쿼리 관련 비디오 세그먼트의 타임스탬프를 정확하게 얻는 것을 강조하는 VCMR task와 비교할 때, PRVR task는 부분적으로 관련 있는 비디오를 검색하는 데 더 중점을 둔다.

Fig. 1. PRVR Task Description. PRVR task는 검색 쿼리와 부분적으로 일치하는 untrimmed 비디오를 검색하도록 설계되었다. 이 task는 검색 쿼리와 관련된 순간을 포함하는 비디오를 찾는 것을 목표로 하며, 하나의 비디오가 여러 관련 쿼리를 포함할 수 있고, 각 쿼리는 비디오 내의 특정 순간과 일치할 수 있다.

PRVR은 새로운 관련 비디오 검색 task로서 최근 몇 년간 주목을 받아왔다. PRVR은 Dong et al.에 의해 처음 제안되었으며, 그들은 PRVR task를 multi-instance learning (MIL) 문제 [6, 38]로 설명했다. 그들은 multi-scale 비디오 표현을 기반으로 하는 MS-SL [7] 방법을 제안하여 비디오와 쿼리 간의 상관관계를 거친(coarse) 수준에서 미세한(fine) 수준으로 계산했다. 그러나 MS-SL 방법은 인접 프레임에 대해 평균 풀링(average pooling)만을 수행하여 클립 feature를 얻기 때문에, 각 프레임의 feature가 동등하게 처리된다. 실제로는 각 프레임의 상관관계가 다르며 이러한 차이가 계산에 고려되어야 한다. 또한, 슬라이딩 윈도우(sliding window)를 사용하여 다양한 후보 순간을 생성하는 것은 많은 중복 계산을 야기하여 비효율적이다.

이 외에도, DLDKD [10]는 **대규모 visual language pre-training 모델인 CLIP [42]**을 활용하여 dynamic knowledge distillation을 포함하는 dual learning framework를 제안했다. 이 방법은 두 개의 branch를 사용하여 비디오와 텍스트를 정렬함으로써 CLIP 사전학습의 결과를 잘 활용한다. 그러나 이 방법은 프레임 수준의 정렬만 수행하며, 프레임이 표현할 수 있는 정보는 제한적이어서 정보 표현력을 약화시킬 수 있다. 더욱이, 가장 높은 프레임 점수만을 비디오 점수로 사용하는 것은 다른 관련 프레임의 귀중한 정보를 무시하게 되어, 비디오 콘텐츠 이해에 도움이 되지 않고 검색 정확도에 영향을 미친다.

CLIP 기반 knowledge distillation을 사용하여 PRVR 문제를 해결하는 이전 방법이 큰 성공을 거두었음에도 불구하고, 여전히 두 가지 도전 과제가 남아있다:

CLIP은 이미지와 텍스트의 cross-modal alignment를 학습하기 위해 적용되는 대규모 pre-training 모델이며, CLIP만을 지침으로 사용하면 비디오의 시간적 정보(temporal information)를 무시하게 된다.
비디오가 텍스트 쿼리와 완전히 관련되어 있지 않다는 사실 때문에, 전체 비디오를 쿼리와 직접 정렬하는 것은 적합하지 않다. 이러한 직접적인 정렬은 동일한 비디오 내의 관련 순간들이 너무 가까워 구별하기 어렵게 만들 수 있다.

이러한 도전 과제를 해결하고 PRVR의 검색 정확도를 향상시키기 위해, 우리는 **Knowledge Distillation을 포함하는 Multi-Grained Alignment framework (MGAKD)**를 제안한다. 이 모델은 knowledge distillation을 사용하여 특정 task에 맞게 CLIP의 지식을 정제하고, multi-granularity alignment를 통해 시각 feature와 텍스트 feature의 정렬을 강화한다. 이를 통해 Multi-Grained Alignment를 통해 비디오와 쿼리 feature 간의 상관관계를 더 잘 이해한다.

우리는 CLIP 모델을 teacher로 사용하고, 두 개의 branch를 가진 student 모델을 설계한다. inheritance branch는 CLIP의 지침 아래 비디오 프레임과 쿼리를 의미론적으로 정렬하는 데 중점을 둔다. CLIP이 프레임별 정렬 전략으로 인해 비디오를 다룰 때 한계가 있기 때문에, 우리는 exploration branch를 설계했다. inheritance branch와 달리, exploration branch는 비디오와 쿼리 간의 관계를 완전히 탐색하기 위해 세 가지 수준의 granularity에서 의미론적 정렬을 구현한다.

구체적으로,

프레임 수준 정렬 학습에서는 텍스트와 가장 유사한 프레임만을 채택하고 다른 프레임은 버린다.
클립 수준 정렬 학습에서는 다양한 너비의 여러 Gaussian mask를 사용하여 길이가 다른 클립 feature를 집계하고, 이를 통해 다양한 길이의 비디오 클립을 고려한다.
비디오 수준 정렬 학습에서는 clip-guided attention mechanism을 사용하여 쿼리와 관련 없는 프레임 feature에 더 낮은 가중치를 할당함으로써 관련 없는 순간들을 제거한다.

우리의 동기는 얻어진 정보를 활용하여 쿼리 관련 비디오 수준 feature를 구성함으로써 더 나은 비디오 수준 정렬과 더 나은 multi-granularity 상호작용을 달성하는 것이다. 구체적으로, 우리는 프레임 수준에서 feature를 추출하는 것으로 프로세스를 시작한다. 그런 다음 Gaussian attention mechanism의 적용을 통해 클립 수준 비디오 feature가 암묵적으로 형성된다. 궁극적으로, 비디오 수준 feature의 합성은 key clip-guided attention의 작동 아래 프레임 feature의 집계를 조율함으로써 달성된다. 세 가지 다른 granularity의 상호작용은 비디오-쿼리 정렬 강화를 위한 비디오 및 쿼리 feature 학습을 개선하는 데 기여한다.

요약하면, 기여는 다음과 같다.

우리는 Knowledge Distillation을 포함하는 Multi-Grained Alignment framework를 제안한다. 이 모델은 student 모델의 inheritance branch에서 CLIP의 cross-modal alignment 지식을 정제한다. 다른 exploration branch에서는 프레임 수준, 클립 수준, 비디오 수준의 세 가지 granularity에 걸쳐 비디오 feature를 철저히 탐색하고, 관련 없는 비디오 feature를 제거하여 검색 정확도를 향상시킨다.
우리는 비디오 feature 학습을 위한 multi-granularity 방법을 제시한다. 이 모델은 클립 수준 탐색에서 클립-쿼리 정렬 결과를 활용하여 Key Clip Guided Attention을 사용하여 비디오 수준 feature를 도출함으로써 cross-modal alignment를 개선한다.
우리는 두 가지 데이터셋(TVR 및 ActivityNet Captions)에 대해 광범위한 실험 및 ablation study를 수행했으며, 기존 SOTA 방법들과의 세심한 비교를 통해 제안된 방법의 효능을 입증했다.

4 - Q. Zhang et al.

비디오 검색은 많은 연구가 진행되어 왔으며, 주요 연구 방향은 Temporal Sentence Grounding (TSG) [21, 31, 60, 61, 65, 68], Text-to-Video Retrieval (T2VR) [15, 16, 24, 30, 32, 44, 50, 57, 59], Video Corpus Moment Retrieval (VCMR) [19, 20, 28, 63], 그리고 Partially Relevant Video Retrieval (PRVR) [7, 10, 22, 23, 51]로 분류할 수 있다.

TSG는 주어진 쿼리에 해당하는 순간의 타임스탬프를 untrimmed 비디오 내에서 찾는 데 중점을 둔다.
T2VR는 특정 쿼리와 일치하는, 미리 trim된 클립들로 구성된 컬렉션에서 비디오를 검색하는 것을 목표로 한다.
VCMR는 쿼리를 기반으로 비디오 코퍼스에서 일치하는 비디오 세그먼트를 정확하게 찾아낸다.
PRVR은 최근 제안된 task로, 쿼리에 응답하여 편집되지 않은 비디오 코퍼스에서 가장 관련성 높은 비디오를 찾는 것을 목표로 한다.

TSG task는 자연어 쿼리를 비디오 내의 특정 시간적 순간에 매핑하는 과정으로, 텍스트 설명을 기반으로 이벤트나 객체를 정확하게 검색할 수 있게 한다. 이 방향의 현재 연구는 주로 full-supervised 방법과 weakly-supervised 방법 [65]으로 분류된다.

Full-supervised 방법 [60, 61]은 주로 시각 feature와 텍스트 feature의 cross-modal feature fusion을 사용한 다음, 융합된 feature를 기반으로 비디오를 지역화(localize)한다. 이 방향의 현재 연구는 주로 cross-modal fusion을 어떻게 더 잘 수행할지에 초점을 맞춘다. 두 가지 modality의 feature를 공통 공간으로 매핑하는 방법도 있다.
Weakly-supervised 방법 [21, 31, 68]은 비디오 내 각 쿼리의 정확한 타임스탬프를 제공하지 않으며, 이 방법들의 주요 어려움은 올바른 지역화 순간을 얻기 위해 적절한 제약 조건(constraints)을 설계하는 방법이다. 많은 현재 방법들은 문장 의미 보완(sentence semantic complementation) [31]을 통해 제약 조건을 수행한다. 특히, CNM [67] 및 CPL [68] 방법은 Gaussian mask를 통해 후보 순간을 생성하고, 이는 다시 제약 조건을 위한 긍정 및 부정 샘플 쌍을 구성한다.

T2VR은 지정된 쿼리와 일치하는, 미리 편집된 비디오를 curated 라이브러리에서 식별하는 데 중점을 둔 전문화된 task이다 [25, 30, 44, 49, 57]. 현재 주류 방법들은 쿼리 feature와 비디오 feature를 **공유 임베딩 공간(shared embedding space)**에 임베딩하여 **의미론적 정렬(semantic alignment)**을 달성한다. 이러한 방법들은 일반적으로 대규모 비디오-텍스트 쌍 데이터셋을 사용하며, 초기 비디오 feature extractor와 사전학습된 language model에서 파생된 텍스트 feature를 사용하여 cross-modal 유사성을 학습한다. feature 표현의 세부 수준에 따라 T2VR의 방법들은 두 가지 주요 그룹으로 분류될 수 있다: global feature 기반 방법 [40, 45, 49, 55, 58]과 local feature 기반 방법 [4, 52, 54].

Global feature 기반 방법은 비디오의 전체 표현 내에서 쿼리의 문맥 정보를 통합하여 비디오 검색 프로세스의 정확성과 관련성을 향상시키는 것을 목표로 한다.
Local feature 기반 방법은 종종 언어 설명 또는 비디오 콘텐츠에서 파생된 **의미론적 그래프(semantic graph)**를 구성하여 검색 task를 의미론적으로 상호 연결된 프레임워크 내의 검색 작업으로 변환한다.

VCMR task는 비디오 코퍼스에서 주어진 쿼리와 관련된 비디오를 검색하고 비디오의 순간을 지역화하는 것을 목표로 한다 [5, 19, 20, 28, 63, 66]. VCMR 방법은 크게 두 가지 유형으로 분류된다: single-stage 기반 방법 [28, 56, 63]과 two-stage 기반 방법 [5, 19, 66].

Single-stage 접근 방식에서는 일반적으로 단일 모델이 비디오 검색 및 시간적 지역화 헤드를 동시에 학습하는 데 활용된다.
Two-stage 방법은 task를 비디오 검색과 순간 지역화로 나누어, 각각 코퍼스에서 관련 비디오를 식별하고 그 안의 특정 순간을 찾는 것을 목표로 한다.

XML [28]은 VCMR task를 해결하기 위해 제안된 최초의 모델이며, 대규모 멀티모달 순간 검색 데이터셋인 TVR 데이터셋을 도입했다. ReLoCLNet [63]은 contrastive learning을 도입하여 비디오 encoder와 텍스트 encoder를 개선하여 비디오 및 텍스트 표현을 별도로 학습하면서 더 나은 정렬을 달성한다. 그러나 비디오 검색 단계에서는 frame-level contrastive learning만 사용한다. CONQUER [28]는 멀티모달 융합 및 표현 문맥을 탐색하여 순간 지역화를 위해 텍스트 feature와 비디오 feature를 융합한다. MRNet [20]은 멀티모달 Transformer 아키텍처에 새로운 유지 메커니즘을 도입하여 modality-specific attention 패턴을 통합하여 비디오 시퀀스 모델링을 향상시킨다. PRVR task는 VCMR의 첫 번째 단계와 일치하지만, VCMR에 비해 부분 비디오 검색 task에 더 중점을 둔다.

Fig. 2. 제안된 MGAKD의 그림. MGAKD는 inheritance branch를 통해 CLIP teacher model의 cross-modal alignment 지식을 정제한다. 동시에, 우리는 exploration branch를 통해 frame-level feature와 clip-level feature를 조사하고 Clip Guided Attention을 사용하여 video-level feature를 획득함으로써 세 가지 granularity에서 cross-modal alignment를 달성하는 것을 목표로 한다.

PRVR task는 주어진 텍스트를 기반으로 untrimmed 비디오 라이브러리에서 가장 관련성 높은 비디오를 식별하는 것을 목표로 하는 최근 제안된 task이며 [7], video-level 검색에만 초점을 맞춘다. 주어진 비디오가 편집되지 않았기 때문에 PRVR은 T2VR보다 실제 비디오 검색 요구 사항과 더 호환된다. 이전 PRVR 방법들은 비디오의 각 프레임에 대한 문맥 정보를 단순히 융합한 다음, 관련 비디오를 식별하기 위해 ranking 기반 추론을 수행했다. MS-SL [7] 방법은 주로 간단한 average pooling layer를 활용하여 clip-level feature를 얻는다. DLDKD [10]는 대규모 사전학습 모델인 CLIP [42]을 통합하여 더 나은 결과를 달성한다. GMMFormer [51]는 클립의 암시적 모델링을 고려한다. 그러나 이는 self-attention 메커니즘을 video-level feature에 직접 적용하여, 동일한 비디오와 일치하는 모든 문장에 대해 동일한 video-level feature를 생성한다. 이는 텍스트 feature 학습에 도움이 되지 않을 수 있다. 위의 문제들을 해결하기 위해 제안된 방법은 대규모 CLIP 모델의 지식을 통합할 뿐만 아니라 다중 granularity에서 비디오 feature를 완전히 활용한다. 이 독특한 방법은 검색 프로세스의 정확도를 크게 향상시켜 실제 시나리오에 더욱 실용적으로 만든다.

3 METHOD

본 챕터에서는 제안하는 **Knowledge Distillation (KD) 기반 Multi-Grained Alignment framework (MGAKD)**를 소개한다. Figure 2에서 보여주듯이, 제안하는 모델은 CLIP을 knowledge distillation을 위한 teacher model로 활용한다.
student model은 두 개의 branch로 구성된다.

inheritance branch: CLIP의 visual-text alignment 지식을 습득하고, 비디오 프레임과 쿼리 간의 alignment를 수행한다.
exploration branch: 세 가지 다른 granularity를 가진 시각 feature들 간의 alignment를 달성한다.

6 - Q. Zhang et al.

3.1 Problem Formulation

PRVR (Phrase-based Video Retrieval) task는 untrimmed video에서 쿼리 관련 비디오를 찾는 것을 목표로 한다. 여기서 하나의 비디오는 여러 쿼리와 연관될 수 있으며, 각 쿼리는 동일한 비디오 내의 다른 순간을 설명한다.
각 텍스트 $W$ 는 $l^w$ 개의 단어를 포함하며, $w_i$ 는 $i$ -번째 단어를 나타내므로 $W = \{w_i\}_{i=0}^{l^w-1}$ 이다.
비디오 라이브러리 $V$ 는 $m$ 개의 비디오를 포함하며, 즉 $V = \{V^1, V^2, V^3, \ldots, V^m\}$ 이다.
$v_i$ 는 $V^k$ 내의 프레임을 나타내며, $V^k = \{v_i\}_{i=0}^{l^k-1}$ 이다. 여기서 $k$ 는 $k$ -번째 비디오를 나타내고 $l^k$ 는 $k$ -번째 비디오의 길이를 나타낸다.
목표는 각 쿼리 $W$ 에 대해 비디오 라이브러리 $V$ 에서 가장 적절한 비디오 $V^*$ 를 검색하는 것이다.

3.2 Sentence Representation

쿼리를 처리하기 위해, 먼저 RoBerta [36]를 사용하여 단어 feature를 추출한다. 다음으로, fully connected layer를 이용해 쿼리 feature를 저차원 공간으로 매핑한다. 그 후, positional embedding과 Transformer [47]를 활용하여 쿼리의 문맥적 feature를 탐색하고, 단어 수준의 쿼리 feature $Q=\left\{q_{i}\right\}_{i=0}^{N-1} \in \mathbb{R}^{N \times d}$ 를 얻는다. 여기서 $q_i$ 는 $i$ -번째 단어의 feature이고, $N$ 은 쿼리의 단어 수, $d$ 는 feature 차원이다.
이어서 추가적인 attention mechanism [3, 47, 64]을 적용하여 문장 표현 $Q_b \in \mathbb{R}^d$ 를 얻는다:

Q_{b}=\sum_{i=0}^{N} a_{i}^{b} \times q_{i}, a_{i}=\operatorname{softmax}\left(w_{b} Q^{T}\right)

여기서 $b \in\{i, e\}$ 는 각각 inheritance branch와 exploration branch에 사용되는 쿼리 feature를 나타내며, $w_b$ 는 학습 가능한 파라미터이고, $a_i$ 는 attention vector이다.

3.3 Teacher Model

주어진 비디오 $V^{k}=\left\{v_{i}\right\}_{i=0}^{l^{k}-1}$ 는 $l^{k}$ 개의 프레임을 가지며, 우리는 비디오 프레임을 CLIP image encoder에 입력하여 feature를 추출하고, 비디오의 CLIP feature $V^{C L I P}=\left\{\widetilde{v}_{1}, \widetilde{v}_{2}, \ldots, \widetilde{v}_{l k}\right\}$ 를 얻는다. 마찬가지로, 쿼리 $W=\left\{w_{i}\right\}_{i=0}^{l^{w}-1}$ 는 CLIP text encoder에 입력되어 쿼리의 CLIP feature $S^{C L I P}$ 를 얻는다. 추출된 feature들에 대해 cosine similarity를 계산하여 teacher branch의 frame-query similarity를 얻으며, 이는 이후 student model의 inheritance branch를 학습하는 데 사용된다. **teacher model의 query-video similarity $C^{t}$ **는 다음과 같이 계산된다:

C^{t}=\left[\cos \left(\widetilde{v}_{1}, S^{C L I P}\right), \cos \left(\widetilde{v}_{2}, S^{C L I P}\right), \ldots, \cos \left(\widetilde{v}_{k}, S^{C L I P}\right)\right] .

3.4 Dual Branch Student Model

student model에서는 먼저 CNN 네트워크 [2]를 사용하여 비디오 프레임에서 feature를 추출한다. fully connected layer를 통해 visual feature와 query feature가 동일한 feature 차원을 갖도록 만들고, 최종적으로 프레임 feature 표현 $\widetilde{F^{f}} \in \mathbb{R}^{l_{f} \times d}$ 를 얻는다. 다음으로, 이 프레임 feature를 두 개의 브랜치에 각각 입력한다.

3.4.1 Inheritance Branch. inheritance branch에서는 DLDKD 방법 [10]을 따라 비디오의 프레임 수준(frame-level) feature를 탐색한다. 비디오 프레임 feature $\widetilde{F^{f}}$ 에 위치 정보 $PE$ 를 추가하고, 이어서 Transformer [47]의 multi-head attention 메커니즘을 활용하여 비디오 콘텐츠의 **맥락적 뉘앙스(contextual nuances)**를 발굴함으로써, inheritance branch 내 feature 이해를 풍부하게 한다. inheritance branch의 프레임 feature $F^{I}$ 는 다음과 같이 얻어진다:

F^{I}=\left\{F_{1}^{I}, F_{2}^{I}, \ldots, F_{l_{f}}^{I}\right\}=F C\left(\text { Transformer }_{i}\left(\widetilde{F^{f}}+P E\right)\right),

여기서 Transformer $_{i}$ 는 inheritance branch의 Transformer 네트워크이며, $l_{f}$ 는 프레임의 수, $d$ 는 feature 공간의 차원을 나타낸다. 우리는 inheritance branch의 비디오 프레임 feature와 query feature 간의 유사도를 계산하여 inheritance branch의 유사도 점수 $S_{I}$ 를 얻는다:

Fig. 3. Clip-guided Attention의 설명. 먼저, clip feature $F_{c}$ 와 query $Q_{e}$ 간의 유사도 점수를 계산하여 query와 가장 유사한 key clip을 얻는다. 동시에, frame feature $F_{f}$ 는 fully connected layer를 통해 $K$ 와 $V$ 로 매핑되며, 이들은 가중합되어 최종적으로 비디오 feature $F_{v}$ 를 얻는다.

S_{I}=\max \left(\cos \left(Q_{i}, F_{1}^{I}\right), \cos \left(Q_{i}^{m}, F_{2}^{I}\right), \ldots, \cos \left(Q_{i}, F_{l_{f}}^{I}\right)\right) .

3.4.2 Exploration Branch. exploration branch에서는 **프레임 수준(frame-level), 클립 수준(clip-level), 비디오 수준(video-level)**의 세 가지 **서로 다른 세분성(granularity)**으로 feature를 세심하게 추출했다. 이러한 다양한 세분성으로 캡처된 시각 feature 표현을 활용하여, cross-modal alignment를 촉진하고, 이는 서로 다른 세분성 간의 feature를 조화롭게 정렬하여 query와 관련된 비디오 콘텐츠에 대한 포괄적인 이해를 보장한다.

**위치 정보 $PE$ **는 프레임 feature $\widetilde{F^{f}}$ 에 통합되며, 이어서 multi-head attention 메커니즘 [47]이 **맥락적 통찰력(contextual insights)**을 추출하는 데 사용된다. 이러한 방식으로 프레임 수준 feature $F^{f} \in \mathbb{R}^{l_{f} \times d}$ 가 최종적으로 얻어진다:

F^{f}=\left\{F_{1}^{f}, F_{2}^{f}, \ldots, F_{l_{f}}^{f}\right\}=F C\left(\text { Transformer }_{e}\left(\widetilde{F^{f}}+P E\right)\right),

여기서 Transformer ${ }_{e}$ 는 inheritance branch의 Transformer 네트워크이며, $l_{f}$ 는 프레임의 수, $d$ 는 feature 공간의 차원을 나타낸다. 우리는 프레임 수준 feature와 query feature의 유사도 점수를 계산하고, 최대 점수를 프레임 수준 점수 $S_{f}$ 로 선택한다:

S_{f}=\max \left(\cos \left(Q_{e}, F_{1}^{f}\right), \cos \left(Q_{e}, F_{2}^{f}\right), \ldots, \cos \left(Q_{e}, F_{l_{f}}^{f}\right)\right) .

다음으로, 우리는 클립 수준(clip-level) feature를 암묵적으로 모델링한다. 프레임 수준 feature $\widetilde{F^{f}}$ 를 **다운샘플링하고 평균 풀링(mean-pool)**하여 클립 수준 feature $q^{c} \in \mathbb{R}^{l_{c} \times d}$ 를 얻으며, 여기서 $l_{c}$ 는 클립의 수이다.

q^{c}=\operatorname{Meanpool}\left(\widetilde{F^{f}}\right) .

위치 정보도 클립 feature에 추가되며, multi-head attention 메커니즘 [47]이 **맥락 학습(context learning)**에 사용되어 클립 feature $F^{c} \in \mathbb{R}^{l_{c} \times d}$ 를 얻는다. 프레임 feature와 달리, 클립 feature는 서로 다른 Gaussian mask와 Transformer에 의해 암묵적으로 모델링되어 다양한 크기의 여러 클립을 얻는다. 우리는 클립 수준 비디오 feature를 Transformer의 encoder에 입력하여 인코딩하고, $N$ 개의 서로 다른 Gaussian mask를 사용하여 다양한 길이의 클립 정보를 얻어 암묵적인 클립 모델링을 완료한다. Gaussian mask는 다음과 같이 생성된다:

m_{i}^{j}=\exp \left(-\frac{\alpha\left(i / l_{c}-c\right)^{2}}{w_{j}{ }^{2}}\right), i=1,2, \ldots, l_{c}, j=1,2, \ldots, N,

여기서 $m_{i}^{j}$ 는 길이가 $w_{j}$ 일 때 현재 클립에 집계된 $i$ -번째 클립의 마스크 가중치를 나타내며, $c$ 는 현재 클립의 위치, $w_{j}$ 는 Gaussian mask의 $j$ -번째 너비 하이퍼파라미터이다. 우리는 클립 feature $q^{c}$ 를 입력으로 받아 세 개의 행렬 $Q, K, V$ 로 투영하고 attention score 행렬 $X_{i, j}^{a t t n}$ 을 계산한다:

X_{i, j}^{a t t n}=\operatorname{softmax}\left(m_{i}^{j} \odot \frac{Q K^{T}}{\sqrt{d_{k}}}\right) V, Q=W_{q} q^{c}, K=W_{k} q^{c}, V=W_{v} q^{c}

여기서 $m_{i}^{j}$ 는 앞서 설명한 Gaussian mask이며, $W_{q}, W_{k}, W_{v}$ 는 학습 가능한 파라미터이다. 이어서, $X_{i, j}^{a t t n}$ 을 **feed-forward network (FFN)**와 **Layer Normalization (LayerNorm)**에 입력하여 고정된 길이의 클립 정보를 포함하는 단일 길이 클립 feature $X_{i, j}^{\text {output }}$ 을 얻는다:

X_{i, j}^{\text {output }}=F F N\left(\text { LayerNorm }\left(X_{i}^{\text {attn }}\right)\right)+X_{i}^{\text {attn }}

그런 다음, 우리는 **평균 풀링(mean pooling)**을 통해 서로 다른 길이의 클립 feature를 집계하고, 최종적으로 클립 수준 비디오 feature $F^{c}=\left\{F_{1}^{c}, F_{2}^{c}, \ldots, F_{l_{f}}^{c}\right\} \in \mathbb{R}^{l_{c} \times d}$ 를 얻는다:

F^{c}=\left\{F_{1}^{c}, F_{2}^{c}, \ldots, F_{l_{f}}^{c}\right\}=1 / N \sum_{j=1}^{j=N} X_{i, j}^{\text {output }}

이어서, 클립 수준 feature와 query feature를 비교하여 유사도 점수를 계산하고, 이를 통해 **클립 수준 정렬 점수(clip-level alignment score) $S_{c}$ **를 확인한다:

S_{c}=\max \left(\cos \left(Q_{e}, F_{1}^{c}\right), \cos \left(Q_{e}, F_{2}^{c}\right), \ldots, \cos \left(Q_{e}, F_{l_{c}}^{c}\right)\right)

$S_{c}$ 는 query와 비디오 클립 간의 일치 정도를 정량화하여 클립 세분성에서의 관련성 척도를 제공한다. Figure 3에 묘사된 바와 같이, 비디오 수준 시각 feature를 얻기 위해, 우리는 가장 높은 정렬 점수를 가진 key clip을 $k e y \in \mathbb{R}^{d}$ 로 얻고, multi-head attention 메커니즘 [47]을 사용하여 프레임 수준 시각 feature $F^{f}$ 에 대한 비디오 정보 $F^{v} \in \mathbb{R}^{d}$ 를 집계한다:

F^{v}=\operatorname{Softmax}\left(\operatorname{key}^{T} K\right) Z^{T}, K=W_{k} F^{f}, Z=W_{V} F^{f}

여기서 $W_{k} \in \mathbb{R}^{d \times d}$ 와 $W_{V} \in \mathbb{R}^{d \times d}$ 는 학습 가능한 파라미터이다. 그런 다음 비디오 수준 유사도 점수 $S_{v}$ 를 다음과 같이 계산한다:

S_{v}=\cos \left(Q_{e}, F^{v}\right)

3.5 Training and Inference

3.5.1 Loss function. 학습 전략은 관련 있는 비디오 feature-쿼리 feature 쌍을 가깝게 만들고, 관련 없는 쌍은 멀리 떨어뜨리는 데 중점을 둔다. 이를 위해 우리는 contrastive learning 접근 방식을 활용한다. Frame-level contrastive learning에서는 해당 비디오에서 가장 높은 점수를 받는 프레임과 쿼리 쌍을 positive frame-query pair로 구성하고, 다른 비디오에서 가장 높은 점수를 받는 프레임에 대한 쿼리 쌍을 negative sample pair로 구성한다. 유사하게, clip-level contrastive learning에서는 텍스트에 올바르게 대응하는 최대 점수 clip과 쿼리 쌍을 positive clip-query pair로 정의하고, 다른 비디오에서 최대 점수 clip과 쿼리 쌍을 negative clip-query pair로 구성한다. Video-level contrastive learning의 경우, 쿼리 feature에 올바르게 대응하는 비디오 feature를 positive video-text pair로 간주하고, 나머지 비디오 feature를 negative video-query pair로 간주한다.

주어진 positive sample pair에 대해, 배치 $\mathcal{B}$ 에 대한 Triplet Ranking Loss [43]는 positive sample과 해당 anchor 간의 거리가 negative sample과의 거리보다 작도록 모델이 feature space를 학습하도록 유도하기 위해 다음과 같이 공식화된다:

L_{a}^{t r i p}=\frac{1}{n} \sum_{(q, v) \in \mathcal{B}}\left\{\max \left(0, m+S_{a}\left(q^{-}, v\right)-S_{a}(q, v)\right)+\max \left(0, m+S_{a}\left(q, v^{-}\right)-S_{a}(q, v)\right)\right\},

여기서 $a \in\{f, c, v\}$ 는 각각 frame-level, clip-level, video-level에 대한 Triplet Ranking Loss를 나타내며, $S_{a}\left(q^{-}, v\right)$ 는 negative sample pair의 유사도 점수, $S_{a}(q, v)$ 는 positive sample pair의 유사도 점수, $m$ 은 경계(boundary) 파라미터이다.

우리는 또한 infoNCE loss [14, 17, 18, 39]를 사용하여 샘플을 평가했는데, 이는 신경망, 특히 negative sampling을 포함하는 task에서 일반적으로 사용되는 측정 지표이다. infoNCE loss는 다음과 같이 계산된다:

L_{a}^{n c e}=-\frac{1}{n} \sum_{q, v 0 \in \mathcal{B}} \log \left(\frac{S_{a}(q, v)}{S_{a}(q, v)+\sum_{q_{i}^{-} \in \mathcal{N}_{q}} S\left(q_{i}^{-}, v\right)}\right)+\log \left(\frac{S_{a}(q, v)}{S_{a}(q, v)+\sum_{v_{i}^{-} \in \mathcal{N}_{q}} S_{a}\left(q, v_{i}^{-}\right)}\right),

여기서 $a \in\{f, c, v\}$ 는 각각 frame-level, clip-level, video-level에 대한 infoNCE loss를 나타내며, $S_{a}\left(q^{-}, v\right)$ 는 negative sample pair의 유사도 점수, $S_{a}(q, v)$ 는 positive sample pair의 유사도 점수이다. 이 loss는 모델이 negative sample에 비해 positive sample에 더 높은 점수를 할당하도록 유도하여, 관련 있는 샘플 쌍과 관련 없는 샘플 쌍을 효과적으로 구별하는 feature representation을 학습하게 한다. 우리는 시각 feature와 쿼리 feature의 세 가지 granularity에 대한 Triplet Loss와 InfoNCE Loss를 각각 모델의 loss function으로 계산한다. $L^{f}, L^{c}$ , $L^{v}$ 는 각각 frame-level, clip-level, video-level의 loss function이다.

teacher model로부터 cross-modal 유사도에 대한 통찰력을 얻기 위해, 우리는 DLDKD [10]를 따른다. KL scatter는 teacher model의 점수와 inheritance branch의 점수 간의 유사도를 계산하는 데 사용되며, 이는 $L_{K L}$ 로 표시된다. 이는 inheritance branch의 유사도 점수를 teacher model에 더 가깝게 만든다. 그리고 inheritance branch의 최종 loss function $L^{I}$ 는 KL loss function과 위 두 loss function의 합이다:

L_{I}=L_{I}^{n c e}+L_{I}^{\text {trip }}+L_{K L} .

본질적으로, 최종 loss $L_{\text {all }}$ 은 앞서 언급된 네 가지 loss 구성 요소의 총합이다:

L_{\text {all }}=L^{f}+L^{c}+L^{v}+L^{I} .

3.5.2 Inference. 최종 비디오 점수는 각 granularity에 대한 alignment 점수의 가중합을 계산하여 결정된다. 그런 다음 이 점수를 기반으로 비디오 순위를 매긴다. 가장 높은 점수를 자랑하며 이 순위의 맨 위에 나타나는 비디오는 가장 관련성이 높은 것으로 간주되며, 결과적으로 검색 결과로 선택된다. 이 방법은 검색된 비디오가 쿼리의 의도 및 맥락과 밀접하게 일치하도록 보장하여 비디오 검색 프로세스를 최적화한다:

S_{\text {all }}=\alpha S_{f}+\beta S_{c}+\gamma S_{v}+\delta S_{I},

여기서 $\alpha$ 는 frame level 점수 $S_{f}$ 의 가중치, $\beta$ 는 clip level 점수 $S_{c}$ 의 가중치, $\gamma$ 는 video level 점수 $S_{v}$ 의 가중치, $\delta$ 는 inheritance branch 점수 $S_{I}$ 의 가중치이다.

Table 1. ActivityNet Captions 및 TVR 데이터셋 요약. 샘플 수, 평균 비디오 길이, 평균 타겟 모멘트 길이, 각 비디오에 대한 쿼리 수를 포함한다.

Dataset	Number of Videos	Video Durations	Target Durations	Number of Queries
TVR	17435	76.2	9.1	5.0
ActivityNet	71957	117.6	36.2	3.7

4 EXPERIMENT

4.1 Datasets and Evaluation Metrics

4.1.1 데이터셋 (Datasets)
제안된 모델의 효율성을 평가하기 위해, 우리는 Table 1에 제시된 두 가지 데이터셋에 대해 광범위한 실험을 수행하였다:

ActivityNet Captions [27]: 이 데이터셋은 이전에 TSG task에 사용되었다. 쿼리가 비디오의 특정 순간과 관련되어 있기 때문이다. 이 데이터셋은 약 2만 개의 비디오로 구성되며, 각 비디오는 최소 두 개의 관련 쿼리를 포함한다.
TV show Retrieval (TVR) [28]: 이 데이터셋은 여섯 개의 서로 다른 TV 프로그램에서 파생된 독특한 데이터셋이다. TVR은 총 12.8만 개의 비디오를 포함하며, 각 비디오에는 다섯 개의 관련 쿼리가 있다. 이 데이터셋은 다양하고 포괄적인 실험 플랫폼을 제공한다.

4.1.2 평가 지표 (Evaluation Metrics)
이전 방법들과의 공정한 비교를 위해, 우리는 **ranking-based metric인 Recall " $R@n, n=1,5,10,100$ "**을 평가 지표로 사용한다. 여기서 $R@n$ 은 상위 $n$ 개의 검색 결과 내에 타겟 비디오가 포함된 데이터셋 내 비디오의 비율을 나타낸다:

R @ n=\frac{T P}{T P+F N},

여기서 $TP$ 는 ranking의 상위 $n$ 개 내에 있는 정답의 합계를 나타내고, $FN$ 은 정답을 포함하지 않는 쿼리의 합계를 나타낸다. 전반적인 성능을 평가하기 위해, 우리는 모든 인스턴스에 대한 recall 점수의 총합인 SumR metric을 활용한다:

\operatorname{Sum} R=\sum_{n \in\{1,5,10,100\}} R @ n .

4.2 Implementation details

모든 실험 구현은 PyTorch 프레임워크를 활용하여 NVIDIA 3090 GPU에서 수행되었다. 모델의 hidden state는 384 차원으로 균일하게 설정되었다. 실험에서 사용된 Gaussian mask는 3개이며, 각각의 너비는 $w_{1}=0.5, w_{2}=1.0, w_{3}=5.0$ 이다. eq. 19에서 최종 점수를 계산하는 데 사용된 하이퍼파라미터는 $\alpha=0.2, \beta=0.2, \gamma=0.1, \delta=0.5$ 이다.

4.3 Comparison with the State-of-the-Art Method

제안된 방법의 효과를 입증하기 위해, 우리는 text to video retrieval (T2VR), video corpus moment retrieval (VCMR), 그리고 **partially relevant video retrieval (PRVR)**의 state-of-the-art 방법들과 비교한다. 구체적으로, T2VR은 텍스트와 완전히 유사한 비디오를 검색하는 것을 목표로 한다. VCMR의 목표는 편집되지 않은 비디오 시리즈 내에서 텍스트 설명과 일치하는 비디오 순간(moment)을 찾아내는 것이다. PRVR task에서는 비디오 콘텐츠가 쿼리와 부분적으로만 관련되어 있다.

우리가 제안하는 MGAKD 방법의 효과를 입증하기 위해, 우리는 다음 14가지 방법들과 비교한다. 이들 중 8개는 T2VR 방법, 3개는 VCMR 방법, 3개는 PRVR 방법이다:

HTM [40]: 이 방법은 두 개의 매핑 함수 학습을 통해 비디오와 쿼리를 공통 공간에 임베딩하여, 쿼리가 비디오 콘텐츠를 설명할 때 더 높은 코사인 유사도를 얻는다.
RIVRL [9]: 이 방법은 비디오의 본질을 캡슐화하기 위해 읽기 전략에서 영감을 받은 시각적 표현 학습을 제안한다. 의존성 모델링을 위해 Previewing-aware Attention을 사용하며, 비디오 feature를 추출하기 위한 상호 의존적인 두 갈래 네트워크를 제안한다.
W2VV++ [29]: 이 모델은 ad-hoc 비디오 검색을 위해 설계되었으며, 모든 GRU 출력 벡터를 활용하고 관련 없는 문장-비디오 쌍을 활용하는 개선된 triple tuple loss를 사용하는 W2VV의 향상된 버전이다.
VSE++ [11]: 이 방법은 멀티모달 임베딩에 공통적인 loss function을 수정하고 fine-tuning 및 데이터 증강을 통합하여 검색 성능을 향상시킨다.
DE++ [8]: 이 방법은 비디오와 쿼리의 다중 코딩을 수행한 다음, 벡터를 잠재 공간과 개념 공간으로 구성된 하이브리드 공통 공간에 투영하여 이중 코딩된 text-video retrieval을 구현한다.
CLIP4Clip [37]: 이 모델은 CLIP을 활용하여 비디오-언어 검색을 수행하는 end-to-end 모델로, 텍스트와 비디오 콘텐츠를 효과적으로 연결한다. CLIP의 기능을 최적화하여 정확한 비디오-텍스트 정렬을 통해 T2VR task를 개선한다.
Cap4Video [53]: 이 모델은 텍스트 비디오 검색을 돕기 위해 자막을 생성한다. 사전학습된 CLIP 및 GPT-2의 지식을 활용하는 비디오 자막 생성기를 사용한다.
CE [35]: 이 방법은 비디오 정보를 단일의 압축된 비디오 표현으로 응축한다. 또한, 다양한 사전학습된 전문가들의 통찰력을 종합하도록 설계된 협력적 전문가 프레임워크를 도입한다.
ReLoCLNet [63]: 이 방법에서는 비디오 인코더를 개선하기 위해 두 가지 contrastive learning objective가 도입되어, 비디오-텍스트 정렬을 위해 비디오와 텍스트 표현을 별도로 학습할 수 있도록 한다.
XML [28]: 이 방법은 비디오 코퍼스 검색 task를 처음으로 제안한다. 이 방법은 ConvSE와 결합된 late fusion 아키텍처를 사용하여 정확도와 운영 효율성을 향상시킨다.
CONQUER [19]: 이 방법은 비디오와 쿼리의 융합을 공동 표현으로 조사하기 위해 다양한 단계를 통해 텍스트 컨텍스트에서 멀티모달 융합 및 표현 학습을 탐구한다.
MS-SL [7]: 이 모델은 PRVR을 MIL 문제로 설명한다. 비디오와 쿼리는 다중 스케일 유사성 학습을 통해 프레임 스케일 및 클립 스케일 유사성을 텍스트와 공동으로 학습함으로써 공유 의미 공간에 투영된다.
GMMFormer [51]: 이 모델은 비디오 클립 feature를 암묵적으로 모델링하고, self-attention 메커니즘을 통해 비디오 수준 feature를 얻어 비디오와 쿼리를 공통 공간에 매핑한다.
DLDKD [10]: 이 모델은 사전학습된 CLIP 모델의 지식을 정제하고 비디오 및 쿼리 feature를 공통 feature 공간에 임베딩하여 비디오와 텍스트 간의 프레임 수준 유사성을 학습한다.

Table 2와 3에 나타난 결과와 같이, 두 개의 공개 데이터셋에 대한 실험은 PRVR 방향에서 MGAKD의 상당한 이점을 보여주었다. MGAKD는 TVR 데이터셋에서 이전에 가장 좋은 성능을 보인 방법보다 R@1 metric에서 1.6% 앞서며 10%의 개선을 보였고, SumR metric에서는 벤치마크보다 10.6%를 초과했다. 제안된 방법의 R@1 metric은 Activitynet Captions 데이터셋에서 GMMFormer 방법보다 약간 낮지만, 현재 state-of-the-art 방법들과 비교하여 다른 모든 metric에서 우수한 성능을 보여 제안된 방법의 뛰어난 정확성을 확인시켜준다. 또한, 제안된 방법은 ActivityNet Captions 데이터셋에 비해 TVR 데이터셋에서 더 큰 개선을 보인다. 우리는 이러한 차이가 ActivityNet Captions 데이터셋에 비해 TVR 데이터셋의 비디오 길이가 더 짧기 때문일 수 있다고 가정한다. 클립 feature를 추출할 때, 우리는 두 데이터셋 모두에 대해 down-sampling 및 mean pooling 연산을 적용하는데, 이는 비디오 길이가 더 긴 ActivityNet Captions 데이터셋에서 더 많은 정보 손실로 이어질 수 있다.

Table 2. TVR 데이터셋 성능 비교, 최적 성능은 굵게 표시됨

Method	R@1	R@5	R@10	R@100	SumR
T2VR models:
HTM[40]	3.8	12.0	19.1	63.2	98.2
W2VV++[29]	5.0	14.7	21.7	61.8	103.2
VSE++[11]	7.5	19.9	27.7	66.0	121.1
DE++[8]	8.8	21.9	30.2	67.4	128.3
CLIP4Clip[37]	9.9	24.3	34.3	72.5	141.0
Cap4Video[53]	10.3	26.4	36.8	74.0	147.5
VCMR models:
ReLoCLNet[63]	10.7	28.1	38.1	80.3	157.1
XML[28]	10.0	26.5	37.3	81.3	155.1
CONQUER[19]	11.0	28.9	39.6	81.3	160.8
PRVR models:
MS-SL[7]	13.5	32.1	43.4	83.4	172.4
GMMFormer[51]	13.9	33.3	44.5	84.9	176.6
DLDKD[10]	14.4	34.9	45.8	84.9	179.9
Ours	16.0	37.8	49.2	87.5	190.5

T2VR 및 VCMR은 PRVR task를 해결하는 데 있어 특정 한계점을 가진다는 점에 주목해야 한다. T2VR 방법들은 주로 전체 비디오와 쿼리 간의 전반적인 관련성에 중점을 둔다. 그러나 PRVR task에서는 비디오 콘텐츠가 항상 쿼리와 완벽하게 일치하지 않기 때문에, 이러한 T2VR 방법들의 성능에 영향을 미친다. 또한, VCMR 방법들은 비디오의 부분적인 관련성을 고려하기 때문에 T2VR 방법들보다 성능이 우수하다. T2VR 방법들과 달리, VCMR 방법들은 부분적인 관련성을 고려함으로써 최종 검색 순간을 정확하게 식별하는 데 더 능숙하다. 하지만 PRVR 방법들은 실제 비디오 검색 시나리오와 더 일치하는 PRVR task 해결에 중점을 두기 때문에 더 우수한 결과를 달성했다.

현재 PRVR 방법들에도 한계점이 있다. 예를 들어, MS-SL은 단순히 mean pooling을 사용하여 클립 수준 feature를 생성하므로, 비디오 컨텍스트 정보 탐색이 불충분하다. GMMFormer는 클립 수준 및 비디오 수준 정렬을 수행하지만, 비디오 수준 feature에 대해서만 self-attentive 메커니즘을 사용하여 비디오의 부분적인 관련성을 간과한다. DLDKD의 경우, CLIP 모델의 cross-modal 정렬 지식을 정제하지만, 비디오 feature와 쿼리의 프레임 수준 정렬만 수행하여 클립 granularity 및 비디오 granularity를 무시한다. 이와 대조적으로, 제안된 방법은 대규모 CLIP 모델의 지식을 정제할 뿐만 아니라, 여러 granularity에서 비디오 feature를 완전히 탐색한다. 전반적으로, 제안된 방법은 두 데이터셋 모두에서 뛰어난 결과를 달성하여 최고 또는 두 번째로 좋은 순위를 확보했다.

4.4 Ablation Studies

제안된 MGAKD의 각 설계 요소의 효과를 입증하기 위해, 우리는 TVR 데이터셋에 대한 포괄적인 ablation study를 수행하였다. 이 실험들은 세 가지 granularity alignment learning의 영향, Gaussian distribution의 효능, 그리고 CLIP-guided attention mechanism이 제공하는 성능 향상을 경험적으로 검증하기 위해 신중하게 계획되었다.

Table 3. ActivityNet Captions에서의 성능 비교 (최적 성능은 굵게 표시)

Method	R@1	R@5	R@10	R@100	SumR
T2VR models:
HTM[40]	3.7	13.7	22.3	66.2	105.9
RIVRL[9]	5.2	18.0	28.2	66.4	117.8
DE++[8]	5.3	18.4	29.2	68.0	121.0
CE[35]	5.5	19.1	29.9	71.1	125.6
CLIP4Clip[37]	5.9	19.3	30.4	71.6	127.3
Cap4Video[53]	6.3	20.4	30.9	72.6	130.2
VCMR models:
ReLoCLNet[63]	5.7	18.9	30.0	72.0	126.6
XML[28]	5.3	19.4	30.6	73.1	128.4
CONQUER[19]	6.5	20.4	31.8	74.3	133.1
PRVR models:
MS-SL[7]	7.1	22.5	34.7	75.8	140.1
GMMFormer[51]	8.3	24.9	36.7	76.1	146.0
DLDKD[10]	8.0	25.0	37.5	77.1	147.6
Ours	7.9	25.7	38.3	77.8	149.6

Table 4. TVR 데이터셋에서 세 가지 granularity 학습의 효과에 대한 실험

Frame	Clip	Video	R@1	R@5	R@10	R@100	SumR
$\checkmark$			14.5	34.5	45.3	84.5	178.8
	$\checkmark$		13.5	33.4	44.8	84.8	176.5
$\checkmark$	$\checkmark$		15.5	37.1	48.3	85.7	186.6
$\checkmark$	$\checkmark$	$\checkmark$	$\mathbf{1 6 . 0}$	$\mathbf{3 7 . 8}$	$\mathbf{4 9 . 2}$	$\mathbf{8 7 . 5}$	$\mathbf{1 9 0 . 5}$

4.4.1 세 가지 granularity alignment learning의 효과

우리는 frame-level alignment learning만 사용한 경우, clip-level alignment learning만 사용한 경우, frame-level과 clip-level alignment learning을 모두 사용한 경우, 그리고 완전한 세트에 대해 각각 실험을 수행하여 세 가지 다른 granularity 학습의 효과를 검증한다. Table 4에서 볼 수 있듯이, 우리는 먼저 frame-level alignment learning과 clip-level alignment learning에 초점을 맞춘 다음, clip-level 및 video-level alignment learning을 통합한다.

clip-only 모델의 정확도가 frame-only 모델보다 낮음을 알 수 있는데, 이는 exploration branch의 frame-level alignment learning이 inheritance branch의 부족함을 보완하기 때문이라고 추론한다. 특히, clip-level alignment의 추가는 실험 결과를 크게 향상시키며, 이는 frame-level alignment에만 의존하는 것이 한계가 있음을 나타낸다. 또한, frame granularity만 고려하는 것은 전달될 수 있는 정보를 제한하여 포괄적인 비디오 이해를 방해한다. 이어서 video-level alignment의 포함은 정확도를 더욱 향상시키지만, clip-level alignment에 비해 그 정도는 미미하다. 우리는 이러한 효과가 clip-level alignment learning 과정에서 더 긴 clip duration을 부분적으로 고려하기 때문이라고 생각한다.

Table 5. TVR 데이터셋에서 clip-guided attention mechanism 및 Gaussian distribution에 대한 실험

Model	R@1	R@5	R@10	R@100	SumR
Full set	$\mathbf{16 . 0}$	$\mathbf{3 7 . 8}$	$\mathbf{4 9 . 2}$	$\mathbf{8 7 . 5}$	$\mathbf{1 9 0 . 5}$
w/o Gaussian mask	14.9	35.6	47.4	86.2	184.1
w/o clip guided attention	15.7	37.1	48.8	86.4	187.9
w/o Exploration branch	13.1	33.0	44.4	84.9	175.4
w/o Inheritance branch	15.3	36.9	48.4	86.8	187.4

4.4.2 clip-guided attention mechanism 및 Gaussian distribution에 대한 실험

clip-guided attention mechanism과 Gaussian distribution의 효과를 검증하기 위해, 우리는 비교를 위한 다음과 같은 변형 모델들을 설계한다:

w/o Gaussian mask: MGAKD 모델에서 Gaussian mask 구성 요소를 제거하고, 일반적인 multi-head attention mechanism만을 사용하여 clip-level feature를 얻는다.
w/o clip guided attention: 이 변형 모델에서는 clip guided attention을 제거하고 self-attention mechanism을 사용하여 contrastive learning을 위한 video-level feature를 얻는다.
w/o Exploration branch: 이 모델에서는 exploration branch를 제거하고 inheritance branch를 통해서만 비디오 검색을 구현한다.
w/o Inheritance branch: 이 모델에서는 inheritance branch를 제거하고 exploration branch를 통해서만 비디오 검색을 구현한다.

Table 5에서 볼 수 있듯이, 두 번째 행의 w/o Gaussian mask 모델은 일반적인 multi-head attention mechanism만을 사용하여 context 정보를 탐색하므로 실험 결과가 좋지 않다. Gaussian distribution은 이벤트의 시작, 절정, 끝을 효과적으로 나타내며, Gaussian mask를 사용하여 clip-level visual feature를 얻는 것이 이벤트와 쿼리 간의 상관관계 변화를 더 잘 포착한다.

대조적으로, 세 번째 행의 w/o clip guided attention 모델은 대신 self-attention mechanism을 사용한다. 이는 관련 없는 비디오 순간에 의해 방해를 받게 된다. 또한, 하나의 비디오가 여러 쿼리에 해당하므로, 이 변형 모델은 이러한 쿼리들이 서로 가까워지게 하여 실제 상황과 명백히 일치하지 않는다.

더 나아가, 네 번째 행의 w/o Exploration branch 모델은 Inheritance branch만을 사용하는데, 이는 CLIP 모델에 의해 제약을 받으면서도 여러 granularity에서 비디오를 완전히 탐색하지 못하므로 좋지 않은 결과를 얻는다. 주목할 점은 다섯 번째 행의 w/o Inheritance branch 모델이 CLIP 모델의 guidance를 받지 않음에도 불구하고 다른 방법들보다 우수한 결과를 달성한다는 것이다. 이는 우리의 multi-granularity 접근 방식의 효과를 보여준다. 전반적으로, full-set 모델이 최적의 결과를 달성한다.

4.4.3 다른 granularity 점수의 영향에 대한 실험

우리는 지금까지 학습한 여러 다른 granularity 점수가 검색 정확도에 미치는 영향을 탐색한다. 결과는 Table 6에 나와 있다. 우리는 w/o $S_I$ , w/o $S_f$ , w/o $S_c$ , w/o $S_v$ 네 가지 모델을 설계하여 각각 inheritance branch에서 frame-level feature의 유사도 점수를 제외한 모델, exploration branch에서 frame-level feature의 유사도 점수를 제외한 모델, clip-level feature의 유사도 점수를 제외한 모델, 그리고 추론 과정에서 video-level feature의 유사도 점수를 제외한 모델을 나타낸다. 실험 결과는 모든 유사도 점수가 검색 정확도에 영향을 미친다는 것을 보여준다. 특히, clip-level 비디오 feature의 유사도 점수를 제거하는 것은 정확도에 상당한 영향을 미치는데, 이는 이들이 제공하는 contextual 정보 때문일 가능성이 높다.

4.5 Hyper-Parameter Study

4.5.1 MGAKD에서 Gaussian mask 너비의 영향.
포괄적인 실험 분석에서 우리는 제안된 모델 설계에서 Gaussian mask의 너비(width) 파라미터가 미치는 영향을 조사했다. 우리는 두 개의 고정된 Gaussian 너비( $w_1=0.5$ 및 $w_2=1.0$ )를 가진 baseline을 설정하고, $w_3$ 값을 $2.0, 3.0, 4.0, 5.0, 6.0$ 으로 체계적으로 변경했다.
SumR metric으로 정량화된 세심한 평가 결과는 Figure 4에 그래프로 나타나 있다. 시각적 표현은 $w_3=5.0$ 에서 성능이 최고점에 도달함을 명확히 보여준다.
SumR은 $w_3$ 가 증가함에 따라 먼저 증가하다가, $w_3=5.0$ 에서 최적의 효과를 달성한 후, 5.0보다 커지면 감소하기 시작하는 것을 볼 수 있다. 또한, $w_3$ 를 사용한 후의 실험 결과가 사용하지 않은 경우보다 전반적으로 더 좋았는데, 이는 세 가지 다른 너비를 설정하는 것이 효과적임을 증명한다. 이는 세 가지 너비를 설정함으로써 다양한 moment 길이를 고려할 수 있기 때문이다. 이러한 결과는 다단계 너비 전략의 중요성을 강조하며, 비디오에 존재하는 복잡한 시간적 내러티브를 모델이 이해하고 정렬하는 능력을 향상시킨다.

Table 6. TVR 데이터셋에서 다양한 granularity에 대한 점수 영향 실험

Model	R@1	R@5	R@10	R@100	SumR
Full set	$\mathbf{16 . 0}$	$\mathbf{37 . 8}$	$\mathbf{49 . 2}$	$\mathbf{87 . 5}$	$\mathbf{190 . 5}$
w/o $S_{I}$	15.3	36.9	48.4	86.8	187.4
w/o $S_{f}$	15.5	36.4	48.4	86.7	187.0
w/o $S_{c}$	15.2	36.5	47.9	86.8	186.3
w/o $S_{v}$	15.7	37.8	48.7	87.2	189.4

Fig. 4. 하이퍼파라미터 $w_3$ 에 대한 실험 결과 분석.

4.5.2 점수 계산 시 하이퍼파라미터의 영향.
우리는 총점 계산 시 네 가지 점수에 대한 다양한 가중치 부여 방식을 탐색했다. Figure 5에서 볼 수 있듯이, 최적의 구성은 파라미터가 $\alpha=0.2, \beta=0.2, \gamma=0.1, \xi=0.5$ 로 설정되었을 때 달성된다. 이 연구는 실험 결과가 파라미터 $\gamma$ 에 더 민감하다는 것을 확인시켜준다.
또한, 세 가지 다른 granularity의 비디오 feature를 통합한 학습 이후, 모델은 단일 점수 파라미터에만 집중하더라도(다른 파라미터를 0으로 설정) 추론 단계에서 인상적인 성능을 유지하는 것을 관찰할 수 있다.

Fig. 5. Eq. 19의 하이퍼파라미터에 대한 실험.

이 결과는 multi-grained alignment가 비디오 feature를 적절히 탐색하고 비디오 검색의 정확도를 크게 향상시킨다는 것을 보여준다. Figure 5의 결과에서 SumR에 대해 실험적으로 더 나은 결과 설정이 하나 이상 있음을 알 수 있지만, 우리는 R@1에 대한 최상의 결과를 최종 결과로 선택했음에 유의해야 한다.

4.6 Qualitative Analysis

Figure 6에서 우리는 TVR 데이터셋의 단일 비디오에 대한 **exploration branch의 다양한 쿼리에 대한 프레임 수준 점수(frame-level scoring)**를 제시한다. 이 시각화는 제안된 모델이 식별한 핵심 클립과 비디오 콘텐츠가 쿼리와 정확히 일치하는 지점을 명확하게 보여준다. 점수는 관련 있는 순간에 최고치를 기록하며, 비디오 내 쿼리 컨텍스트에 대한 모델의 민감도를 분명히 나타낸다.
대부분의 쿼리에 대해 모델은 높은 정확도를 보이지만, 두 번째 쿼리는 뚜렷한 도전 과제를 제기한다. 비언어적 단서를 포착하는 데 능숙한 모델의 시각적 예리함이 음성 대화의 복잡성에 미치지 못하는 것이다. 이 관찰을 통해 우리는 자막 feature를 통합하면 이러한 격차를 해소하고, 비디오 콘텐츠에 대한 보다 포괄적이고 텍스트 기반의 이해를 제공할 수 있다고 제안한다.
멀티모달 융합 전략을 옹호하며, 우리는 시각, 텍스트, 그리고 잠재적으로 청각 데이터의 원활한 통합이 비디오 검색 정확도에서 새로운 차원을 열 수 있다고 제안한다. 이러한 포괄적인 통합은 모델의 이해 능력을 향상시켜, 인간 의사소통의 복잡성과 일치하는 보다 미묘하고 효과적인 검색 프로세스를 가져올 수 있다.

5 CONCLUSION

우리는 PRVR task를 해결하기 위해 **지식 증류(knowledge distillation)**를 활용한 혁신적인 다중-세분성 정렬(multi-granularity alignment) 프레임워크를 설계했다. 제안된 방법은 **프레임-레벨(frame-level), 클립-레벨(clip-level), 비디오-레벨(video-level)**의 세 가지 세분성 수준에서 비디오 feature를 철저히 탐색하는 데 중점을 두어, PRVR 정확도를 향상시킨다. 우리는 Gaussian mask를 사용하여 클립-레벨 비디오 feature를 암묵적으로 구성하고, key clip guided attention을 활용하여 비디오-레벨 feature를 생성한다. 이러한 방식으로 우리는 세 가지 고유한 세분성 수준에서 비디오 feature를 구축한다.

Fig. 6. 동일한 비디오에 대한 다른 쿼리의 실험 결과 시연.

이후, 우리는 제안된 MGAKD의 효과를 검증하기 위해 두 가지 데이터셋에 대해 광범위한 실험을 수행했다. 그러나 시각적 feature만으로는 언어적 표현을 완전히 이해하기 어려울 수 있으므로, 추가적인 모달 정보나 자막 feature를 통합하면 검색 결과가 더욱 향상될 수 있다고 제안한다. 또한, 클립 feature 추출에 직접 적용되는 mean pooling 연산은 정보 손실의 위험이 있으며, 더 긴 비디오에서는 효과가 감소할 수 있다. 향후 연구에서는 클립-레벨 feature를 더 잘 통합하고 얻는 방법을 고려할 가치가 있다.

ACKNOWLEDGMENTS

본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 No. 62072169 및 No. 62172156 과제 지원을 받아 수행되었다.