Zhang, Long, et al. "Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning." arXiv preprint arXiv:2509.01383 (2025). Accepted at EMNLP 2025

Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning

Long Zhang ${ }^{\mathbf{1}}$ , Peipei Song ${ }^{\mathbf{1}}$ , Jianfeng Dong ${ }^{\mathbf{3}}$ , Kun $\mathbf{Li}^{\mathbf{4}}$ and Xun Yang ${ }^{\mathbf{12} \boldsymbol{*}}$ ${ }^{1}$ 중국과학기술대학교 (University of Science and Technology of China) ${ }^{2}$ 중국과학기술대학교 뇌 영감 지능형 인지 및 인식 교육부 핵심 연구소 (MoE Key Laboratory of Brain-inspired Intelligent Perception and Cognition, University of Science and Technology of China) ${ }^{3}$ 저장공상대학교 (Zhejiang Gongshang University) ${ }^{4}$ 저장대학교 ReLER, CCAI (ReLER, CCAI, Zhejiang University) dragonzhang@mail.ustc.edu.cn, beta.songpp@gmail.com dongjf24@gmail.com, kunli.hfut@gmail.com, xyang21@ustc.edu.cn

Abstract

**Partially Relevant Video Retrieval (PRVR)**은 주어진 쿼리에 부분적으로 관련된 untrimmed 비디오를 검색하는 것을 목표로 한다. 핵심 과제는 내재된 데이터 불확실성으로 인해 발생하는 **허위 의미론적 상관관계(spurious semantic correlations)**에 강건한 쿼리-비디오 정렬(alignment)을 학습하는 것이다. 이러한 불확실성은 다음 두 가지 요인에서 비롯된다:

쿼리 모호성(query ambiguity): 쿼리가 대상 비디오를 불완전하게 특징화하며 종종 정보가 없는 토큰을 포함한다.
부분적인 비디오 관련성(partial video relevance): 쿼리와 관련 없는 풍부한 세그먼트들이 cross-modal 정렬에 문맥적 노이즈를 유발한다.

기존 방법들은 종종 multiscale clip representation을 강화하고 가장 관련성 높은 clip을 검색하는 데 중점을 둔다. 그러나 PRVR의 내재된 데이터 불확실성으로 인해 이러한 방법들은 **허위 유사성(spurious similarities)**을 가진 distractor 비디오에 취약하여 최적의 성능을 달성하지 못한다. 이러한 연구 격차를 해소하기 위해 우리는 데이터의 불확실성을 명시적으로 모델링하는 Robust Alignment Learning (RAL) 프레임워크를 제안한다. 주요 혁신은 다음과 같다:

우리는 비디오와 쿼리를 **다변량 가우시안 분포(multivariate Gaussian distributions)**로 인코딩하여 PRVR을 위한 **확률론적 모델링(probabilistic modeling)**을 개척한다. 이는 데이터 불확실성을 정량화할 뿐만 아니라, proxy-level 매칭을 가능하게 하여 cross-modal 대응 관계의 가변성을 포착한다.
우리는 쿼리 단어들의 **이질적인 정보성(heterogeneous informativeness)**을 고려하고, 학습 가능한 confidence gate를 도입하여 유사도에 동적으로 가중치를 부여한다.

플러그 앤 플레이(plug-and-play) 솔루션으로서 RAL은 기존 아키텍처에 원활하게 통합될 수 있다. 다양한 검색 backbone에 걸친 광범위한 실험은 그 효과를 입증한다.

1 Introduction

**Text-to-Video Retrieval (T2VR)**은 텍스트 개념을 비디오 엔티티와 연결하는 것을 가능하게 하여, vision 및 language 연구에서 오랫동안 도전 과제로 남아 있었다 (Wang et al., 2025; Jin et al., 2023; Bogolin et al., 2022; Yang et al., 2022, 2024b). 그러나 주류 T2VR 방법들 (Li et al., 2024; Wu et al., 2023; Wang et al., 2023)은 비디오가 사전 트리밍되어 있고 텍스트 쿼리가 비디오와 완전히 일치한다고 가정한다 (Dong et al., 2023).

Figure 1: (a) Spurious semantic correlation의 예시. (b-c) 우리 방법과 GMMFormer v2의 검색 점수. GMMFormer v2는 불확실성을 처리하지 못하고, distractor 비디오에 가장 높은 점수를 할당한다.

실제 시나리오에서는 비디오가 종종 untrimmed 상태이며, 주어진 쿼리는 불완전하고 모호하여 대상 비디오의 일부만을 설명할 수 있다. 이러한 현실적인 요구는 Partially Relevant Video Retrieval (PRVR) task의 등장을 이끌었다 (Wang et al., 2024e; Dong et al., 2022). PRVR은 주어진 텍스트 쿼리와 부분적으로만 관련된 untrimmed 비디오를 찾는 것을 목표로 한다.

PRVR은 쿼리 모호성(query ambiguity)과 비디오의 부분적 관련성(partial video relevance)으로 인해 spurious semantic correlation이라는 근본적인 문제를 안고 있다. Figure 1 (a)에 나타난 바와 같이, 이러한 spurious correlation은 두 가지 측면에서 나타난다: 쿼리 "Monica tells Ross never knew he did that"는 다른 맥락에서 유사한 행동을 특징으로 하는 여러 비디오 세그먼트와 관련될 수 있으며 (query ambiguity), 대상 비디오는 여러 문장으로 설명되는 다양한 내용을 포함한다 (video partial relevance). 이러한 요인들은 강건한 쿼리-비디오 정렬(robust query-video alignment)을 설정하기 어렵게 만든다. 기존 PRVR 방법들은 주로 multi-scale clip representation을 학습하여 쿼리 모호성을 완화하고, 긍정적인 쿼리-비디오 쌍 내에서 쿼리-클립 유사성을 최대화하려고 시도한다 (Dong et al., 2023; Wang et al., 2024e). 그러나 이들은 결정론적인 쿼리-클립 매핑을 암묵적으로 가정하고 PRVR의 내재된 데이터 불확실성을 간과하여, 본질적으로 복잡한 semantic 매핑을 결정론적인 pointwise 정렬로 축소시킨다. 게다가, moment-level annotation이 없으면 이러한 방법들은 최적의 clip representation을 학습하는 데 어려움을 겪어 성능 병목 현상을 초래한다. 또한, Figure 1 (b)에서 보듯이, 유사한 세그먼트를 가진 distractor 비디오에 영향을 받아 잘못된 검색 결과를 제공할 수 있다.

위에서 언급한 문제들을 해결하기 위해, 우리는 **데이터의 불확실성을 명시적으로 모델링하고 활용하여 검색 강건성(retrieval robustness)을 향상시키는 Robust Alignment Learning (RAL)**을 제안한다. 우리의 RAL은 PRVR이 pointwise 쿼리-클립 feature 정렬이 아니라 불확실성을 고려하는 확률적 정렬 문제로 다루어져야 한다는 통찰력에 기반한다. 확률적 분포 표현 (Jin et al., 2022)에서 영감을 받아, 우리는 비디오 및 쿼리 임베딩을 Gaussian 분포로 모델링하며, 여기서 분산(variance)은 각 인스턴스의 내재된 aleatoric uncertainty를 정량화한다. 분포 표현을 기반으로, 우리는 Gaussian 기반 텍스트 및 비디오 프록시(proxy)를 자연스럽게 구성한다. 이 프록시들은 여러 잠재적인 정렬 후보 역할을 하여 모델이 다양한 cross-modal 관계를 포착할 수 있도록 한다. 또한, 대부분의 검색 방법은 word-frame 유사성 행렬에서 단어에 대한 mean-pooling을 적용하여 유사성 점수를 계산한다 (Zhang et al., 2023, 2025b). 우리는 이 접근 방식이 모든 단어가 검색에 동일하게 기여하지 않기 때문에 검색 편향을 악화시키고, 의미 없는 단어(예: "a")가 유사성 추정을 왜곡할 수 있음을 발견했다. 이를 해결하기 위해, 우리는 쿼리 단어에 동적으로 신뢰도 가중치를 할당하는 confidence-aware alignment를 도입한다.

Figure 2에 나타난 바와 같이, 우리의 RAL은 두 가지 핵심 구성 요소로 이루어져 있다: (1) **Multimodal Semantic Robust Alignment (MSRA)**는 샘플을 다변량 Gaussian 분포로 표현하여 각 양식(modality)의 semantic 분포를 정량화한다. 비디오 및 쿼리 임베딩이 주어지면, 우리는 먼저 multi-granularity aggregation을 사용하여 충분한 context를 가진 전체적인 semantic을 얻은 후 Gaussian 파라미터를 추정한다. 비디오에 대한 쿼리의 불완전성을 고려하여, 우리는 모든 비디오 관련 쿼리를 결합하는 쿼리 support set으로부터 텍스트 분포를 구성한다. 그런 다음, 이러한 분포 표현을 사용하여 cross-modal learning을 수행하여 비디오 및 텍스트 도메인을 공동으로 학습한다. 구체적으로, MSRA는 두 가지 손실로 최적화된다: 강건한 cross-modal 일관성을 위한 비디오 및 텍스트 분포 간의 확률적 정렬을 강제하는 분포 정렬 손실 $\mathcal{L}_{\text {DA }}$ , 그리고 **다양한 semantic 관계를 포착하기 위해 여러 정렬 후보를 활용하는 프록시 매칭 손실 $\mathcal{L}_{\text {PM }}$ **이다. (2) **Confidence-aware Set-to-Set Alignment (CSA)**는 각 쿼리 단어의 기여도를 동적으로 조정하여 쿼리-비디오 매칭을 향상시키는 것이다. 모든 단어를 동일하게 취급하는 대신, CSA는 각 단어에 대한 신뢰도 점수(confidence score)를 예측하고 이를 사용하여 word-frame 유사성 행렬에 가중치를 부여한다. 이는 의미 없는 단어의 영향을 효과적으로 완화하고 비디오 검색을 개선한다.

우리의 기여는 다음과 같이 요약될 수 있다:

우리는 PRVR을 위한 새로운 강건한 정렬 학습(robust alignment learning) 방법을 제안한다. 이 방법은 데이터 불확실성을 명시적으로 모델링하고 활용하며, 여러 잠재적인 매칭 관계를 고려하여 검색 강건성을 향상시킨다.
우리는 쿼리 단어에 대한 confidence-aware dynamic weighting mechanism을 제안한다. 이는 의미 없는 단어로 인한 매칭 노이즈를 효과적으로 완화하여 검색 정확도를 향상시킨다.
벤치마크 데이터셋 (즉, TVR (Lei et al., 2020) 및 ActivityNet (Krishna et al., 2017))에 대한 광범위한 실험은 우리의 RAL이 기존 방법들을 크게 개선하여 PRVR에서 state-of-the-art 결과를 달성함을 입증한다.

**Partially Relevant Video Retrieval (PRVR)**은 주어진 쿼리에 부분적으로 관련된 untrimmed 비디오를 검색하는 것을 목표로 한다. 이 task는 기존의 T2VR에 비해 실제 애플리케이션 시나리오와 더 밀접하게 연관되어 있다. 기존 연구들 (Dong et al., 2022; Wang et al., 2024e,d; Jiang et al., 2023; Nishimura et al., 2023; Dong et al., 2023; Song et al., 2025; Cho et al., 2025; Zhang et al., 2025b)은 주로 multi-scale clip representation을 구성하여 PRVR을 해결했다. 구체적으로, MS-SL (Dong et al., 2022)은 sliding window를 적용하여 clip representation을 형성하고 clip 및 frame 수준에서 유사도 계산을 수행한다. GMMFormer (Wang et al., 2024e)는 여러 Gaussian window를 사용하여 frame 간 상호작용을 제약함으로써, 암묵적으로 multi-scale clip feature를 생성한다. 이의 개선 버전인 GMMFormer v2 (Wang et0 al., 2024d)는 학습 가능한 feature fusion 메커니즘을 도입하여 multi-scale clip들을 통합한다. 이러한 방법들은 유망한 발전을 보였음에도 불구하고, 데이터 불확실성으로 인한 spurious semantic correlation을 무시하고 복잡한 semantic alignment를 단순화하여 성능 병목 현상을 겪는다. 이는 우리의 robust alignment learning 방법론을 개발하게 된 동기가 되었다.

Multimodal Learning에서의 불확실성 (Uncertainty in Multimodal Learning)
불확실성 모델링은 multimodal learning 분야에서 널리 탐구되어 왔다 (Gao et al., 2024). HIB (Oh et al., 2019)는 이미지 representation의 불확실성을 포착하기 위해 **확률적 임베딩(probabilistic embedding)**을 처음 도입했다. 유사한 아이디어는 감성 분석 (Gao et al., 2024) 및 instance segmentation (Zhang and Wonka, 2021)과 같은 task에도 적용되었다. cross-modal retrieval 분야에서는 PCME (Chun et al., 2021)가 시각 개념의 불확실성을 포착하기 위해 확률적 임베딩을 선구적으로 사용했다. UATVR (Fang et al., 2023)은 T2VR에서 최적의 매칭 granularity를 탐색하기 위해 결정론적(deterministic) 임베딩과 확률적 임베딩을 결합했다. T-MASS (Wang et al., 2024a)는 text-mass 기반 방법을 도입하여 텍스트 임베딩을 확률 변수로 취급한다. 그러나 이러한 방법들은 일반적으로 trimmed 비디오를 위해 설계되었으며 PRVR에서는 제한적인 효과를 보인다. 이에 영감을 받아, 우리는 PRVR을 위해 특별히 설계된 robust alignment learning을 제안한다.

3 Method

3.1 Preliminaries

본 논문에서는 PRVR (Partial Video Retrieval) task를 다룬다. 텍스트 쿼리 $q$ 와 untrimmed 비디오 갤러리 $\mathcal{V}$ 가 주어졌을 때, PRVR의 목표는 텍스트 쿼리 $q$ 에 부분적으로 해당하는 비디오가 가능한 한 높은 순위로 랭크되도록 모든 비디오 $v \in \mathcal{V}$ 를 순위화하는 것이다.
기존 방법들은 주로 multi-scale clip modeling에 의존하여 쿼리와 untrimmed 비디오 간의 일대일 대응 관계를 암묵적으로 포착한다 (Wang et al., 2024e; Dong et al., 2023).
여기서는 먼저 일반적인 검색 파이프라인을 검토한다. 쿼리-비디오 쌍 ( $q, v$ )에 대해, unimodal encoder는 **프레임 feature $\mathbf{V} \in \mathbb{R}^{N_{f} \times d}$ **와 **단어 feature $\mathbf{Q} \in \mathbb{R}^{L \times d}$ **를 추출한다. 여기서 $N_{f}$ 와 $L$ 은 각각 프레임 수와 단어 수를 나타낸다. 두 feature는 cross-modal retrieval을 위해 $d$ 차원 feature 공간으로 투영된다.
그 다음, **clip modeling module (예: sliding windows (Dong et al., 2022) 및 Gaussian windows (Wang et al., 2024e))**이 $\mathbf{V}$ 에 적용되어 **clip embedding $\left\{\mathbf{c}_{1}, \ldots, \mathbf{c}_{N_{c}}\right\}$ **를 형성한다. 동시에, attention pooling은 $\mathbf{Q}$ 를 sentence embedding $\mathbf{q}$ 로 요약한다. 최종 검색 점수 $S(q, v)$ 는 문장 embedding과 clip embedding 간의 최대 코사인 유사도로 계산된다:

S(q, v)=\max \left(\cos \left(\mathbf{q}, \mathbf{c}_{1}\right), \ldots, \cos \left(\mathbf{q}, \mathbf{c}_{N_{c}}\right)\right) .

cross-modal alignment를 강화하기 위해, 기존 방법들은 일반적으로 **InfoNCE contrastive loss $\mathcal{L}_{\text {nce }}$ (Miech et al., 2020)**와 **triplet ranking loss $\mathcal{L}_{\text {trip }}$ (Dong et al., 2022)**의 조합을 최적화한다:

\mathcal{L}_{\text {base }}=\lambda_{1} \mathcal{L}_{\text {nce }}+\lambda_{2} \mathcal{L}_{\text {trip }},

여기서 $\lambda_{1}$ 과 $\lambda_{2}$ 는 손실의 균형을 맞추는 하이퍼파라미터이다. $\mathcal{L}_{\text {base }}$ 는 긍정적인 쿼리-비디오 쌍 내에서 높은 쿼리-클립 유사도 $S(q, v)$ 를 장려하는 동시에 부정적인 쌍들을 멀리 밀어낸다.

동기 (Motivation)
다시 말해, 이 일반적인 파이프라인은 쿼리와 비디오 클립 사이에 결정론적인 매핑을 암묵적으로 가정한다. 그러나 이러한 가정은 쿼리 모호성(query ambiguity)과 비디오의 부분적 관련성(partial video relevance), 즉 데이터의 불확실성(uncertainty)을 고려할 때 문제가 된다. 이러한 한계를 해결하기 위해, 우리는 데이터 불확실성을 명시적으로 모델링하고 이를 활용하여 쿼리 및 비디오 표현을 강화함으로써 검색의 견고성을 향상시키는 데 전념한다.

3.2 Multimodal Semantic Robust Alignment

쿼리 모호성(query ambiguity)과 비디오의 부분적인 관련성(partial video relevance)을 고려하여, 우리는 먼저 두 모달리티 내의 aleatoric uncertainty를 정량화하는 MSRA 모듈을 제안한다. 이 uncertainty를 모델링함으로써, 우리는 cross-modal correspondence의 가변성을 더 잘 포착하고 이를 활용하여 cross-modal learning을 강화할 수 있으며, 이는 **텍스트와 비디오의 더욱 견고한 표현(robust representation)**을 가능하게 한다.

(1) Uncertainty Modeling. uncertainty 추정 이론(Chun et al., 2021; Gao et al., 2024)에 따르면, aleatoric uncertainty는 딥러닝 모델을 통해 Gaussian variance로 예측될 수 있다. 이에 영감을 받아, 우리는 feature representation을 Gaussian 분포로 취급함으로써 PRVR에서 uncertainty를 모델링한다. 입력 $m(m \in\{q, v\})$ 의 예비 임베딩 $\mathbf{X}^{m}$ 이 주어졌을 때, 우리는 두 개의 fully connected layer를 통해 평균 벡터 $\boldsymbol{\mu}^{m} \in \mathbb{R}^{d}$ 와 분산 벡터 $\boldsymbol{\sigma}^{m 2} \in \mathbb{R}^{d}$ 를 추정한다:

\boldsymbol{\mu}^{m}=h_{\mu}^{m}\left(g^{m}\left(\mathbf{X}^{m}\right)\right), \boldsymbol{\sigma}^{m}=h_{\sigma}^{m}\left(g^{m}\left(\mathbf{X}^{m}\right)\right),

여기서 $h_{\mu}^{m}(\cdot)$ 와 $h_{\sigma}^{m}(\cdot)$ 는 입력 $m$ 에 대한 평균 및 분산 추정기이며, $g^{m}(\cdot)$ 는 feature aggregator 역할을 한다. 나아가, 우리는 확률적 표현(probabilistic representation) $\mathbf{z}^{m}$ 을 $d$ 개의 변수를 가진 다변량 Gaussian 분포로 정의한다:

p\left(\mathbf{z}^{m} \mid \mathbf{X}^{m}\right) \sim \mathcal{N}\left(\boldsymbol{\mu}^{m}, \boldsymbol{\sigma}^{m 2} \mathbf{I}\right),

Figure 2: 제안된 프레임워크의 개요. 이 프레임워크는 주로 두 가지 구성 요소로 이루어져 있다: (1) Multimodal Semantic Robust Alignment (MSRA) 및 (2) Confidence-aware Set-to-Set Alignment (CSA). untrimmed 비디오와 쿼리가 주어졌을 때, 우리는 먼저 비디오 및 텍스트 인코더를 통해 각각 프레임 feature $\mathbf{V}$ 와 단어 feature $\mathbf{Q}$ 를 추출한다. MSRA의 경우, 비디오와 관련된 모든 쿼리를 포함하는 쿼리 support set을 수집하여, 풍부한 context를 가진 feature $\mathbf{Q}_{s}$ 를 얻는다. 그런 다음, multi-granularity aggregation을 적용하여 전체적인 의미(holistic semantics)를 얻고, 평균 벡터 $\boldsymbol{\mu}$ 와 분산 벡터 $\boldsymbol{\sigma}$ 로 매개변수화된 분포 표현(distributional representation)을 생성한다. **proxy matching loss $\mathcal{L}_{\mathrm{PM}}$ **와 **distribution alignment loss $\mathcal{L}_{\mathrm{DA}}$ **는 비디오와 텍스트 도메인을 통합하는 데 사용된다. CSA의 경우, 각 단어에 confidence weight를 할당하기 위해 confidence predictor를 채택하며, 이는 비디오 검색을 위한 단어-프레임 유사도 행렬을 조정하는 데 사용된다.

여기서 $\mathbf{I}$ 는 항등 행렬(identity matrix)이다. **uncertainty-aware representation $p\left(\mathbf{z}^{m} \mid \mathbf{X}^{m}\right)$ **는 모델이 의미론적 정렬(semantic alignment)의 가변성을 포착할 수 있도록 한다.

Query Support Set: 텍스트 모달리티의 경우, 단일 쿼리는 비디오에 대한 불완전한 설명을 제공하여, 확률적 표현의 신뢰성을 제한한다. 이를 위해 우리는 단독 쿼리 임베딩 $\mathbf{Q}$ 를 풍부한 쿼리 support set 임베딩 $\mathbf{Q}_{s}$ 로 대체하여, 더 나은 텍스트 uncertainty 모델링을 수행한다. 구체적으로, 각 비디오 $v$ 에 대해 우리는 모든 관련 쿼리 $q_{n}$ 을 집계하여 쿼리 support set $\mathcal{D}^{v}$ 를 구성한다. $\mathbf{Q}_{s}$ 는 $\mathcal{D}^{v}$ 내의 모든 $q_{n}$ 의 임베딩을 연결하여 얻어진다:

\mathbf{Q}_{s}=\| q_{n} \in \mathcal{D}^{v}\left(\mathbf{Q}_{n}\right), \mathcal{D}^{v}=\left\{q_{n} \mid q_{n} \Leftrightarrow v\right\},

여기서 $\mathbf{Q}_{n}$ 은 쿼리 $q_{n}$ 의 텍스트 임베딩을 나타내고, $\|$ 는 행 단위 연결(row-wise concatenation)을 나타내며, $\Leftrightarrow$ 는 쿼리와 비디오 간의 레이블링된 대응 관계를 나타낸다. 따라서 Eq. (3)에서 $\mathbf{X}^{q}=\mathbf{Q}_{s}$ 이고 $\mathbf{X}^{v}=\mathbf{V}$ 이다.

Multi-granularity Aggregation: Gaussian 분포를 추정하려면 전체적인 feature를 추출하는 효과적인 aggregator $g^{m}(\cdot)$ 가 필요하다. 표현의 충실도(representation fidelity)를 보장하기 위해, 우리는 순차적인 $\mathbf{V}$ 와 $\mathbf{Q}_{s}$ 에 대해 multi-granularity aggregation을 도입한다. 이는 확률 공간으로 투영하기 전에 local-global contextual cue를 보존한다. 구체적으로, 우리는 mean pooling과 linear mapping을 적용하여 global feature $\mathbf{x}^{m, g}$ 를 얻고, gated attention (Lin et al., 2017; Vaswani, 2017)을 사용하여 fine-grained local semantics $\mathbf{x}^{m, l}$ 를 추출한다. 공식적으로는 다음과 같다:

\left\{\begin{aligned} \mathbf{x}^{m, g} & =\mathrm{FC}^{m}\left(\operatorname{MeanPool}\left(\mathbf{X}^{m}\right)\right), \\ \mathbf{x}^{m, l} & =\operatorname{Softmax}\left(\mathbf{w}_{2} \operatorname{Tanh}\left(\mathbf{W}_{1} \mathbf{X}^{m}\right)\right) \cdot \mathbf{X}^{m}, \end{aligned}\right.

여기서 $\mathbf{W}_{1} \in \mathbb{R}^{d \times d}$ 와 $\mathbf{w}_{2} \in \mathbb{R}^{d}$ 는 학습 가능한 파라미터이다. 그런 다음, 우리는 local 및 global 정보를 통합하여 $\mathbf{X}^{m}$ 의 multi-granularity holistic representation을 다음과 같이 얻는다:

g^{m}\left(\mathbf{X}^{m}\right)=\text { LayerNorm }\left(\mathbf{x}^{m, g}+\mathbf{x}^{m, l}\right) .

(2) Joint Video and Text Domain. 비디오와 텍스트에 대한 확률 분포를 얻은 후, 우리는 두 가지 보완적인 손실 함수를 사용하여 구조화된 joint embedding space를 강제한다.

Distribution Alignment Loss: 비디오와 텍스트 분포 간의 일관성을 확립하기 위해, 우리는 확률적 표현 간의 Kullback-Leibler (KL) divergence를 최소화하는 distribution alignment loss $\mathcal{L}_{\text {DA }}$ 를 도입한다. 또한, 보조 KL regularization 항은 두 분포가 표준 정규 사전 분포(standard normal prior) $\mathcal{N}(0, I)$ 에 접근하도록 장려하는 데 사용된다 (Wang et al., 2024b). $\mathcal{L}_{\text {DA }}$ 는 다음과 같이 정의된다:

\begin{aligned} \mathcal{L}_{\mathrm{DA}}= & \mathrm{KL}\left(p\left(\mathbf{z}^{q} \mid \mathbf{x}^{q}\right) \| p\left(\mathbf{z}^{v} \mid \mathbf{x}^{v}\right)\right) \\ & +\sum_{m \in\{q, v\}} \operatorname{KL}\left(p\left(\mathbf{z}^{m} \mid \mathbf{x}^{m}\right) \| \mathcal{N}(0, \mathbf{I})\right) \end{aligned}

Proxy Matching Loss: PRVR에서는 쿼리와 untrimmed 비디오 사이에 여러 의미론적 관계가 존재하므로, 일대일 매칭만으로는 불충분하다. 따라서 우리는 여러 후보 정렬(candidate alignment)을 고려하여 표현 학습의 견고성을 향상시키는 proxy matching loss $\mathcal{L}_{\mathrm{PM}}$ 를 채택한다. reparameterization 기법 (Kingma, 2013)을 사용하여, 학습된 분포로부터 $K$ 개의 proxy embedding을 다음과 같이 생성한다:

\hat{\mathbf{z}}_{k}^{m}=\boldsymbol{\mu}^{m}+\boldsymbol{\sigma}^{m} \cdot \epsilon_{k}, \quad k=\{1, . ., K\},

여기서 $\epsilon^{k} \sim \mathcal{N}(0, \mathbf{I})$ 이고 $\hat{\mathbf{z}}_{k}^{m}$ 는 입력 $m$ 에 대한 $k$ -번째 proxy embedding이다. $\boldsymbol{\mu}^{m}, \boldsymbol{\sigma}^{m}$ 는 Eq. (3)에 의해 계산된 평균 및 표준 편차이다. 이를 통해 모델은 다양하지만 의미론적으로 관련된 임베딩을 샘플링할 수 있으며, 의미론적 정렬의 견고성을 촉진한다.

각 텍스트 proxy $\hat{\mathbf{z}}_{k}^{q}$ 에 대해, positive video set $\mathcal{P}=\left\{\hat{\mathbf{z}}_{k}^{v}\right\}_{k=1}^{K}$ 는 $v$ 로부터의 $K$ 개 비디오 proxy로 구성되며, negative video set $\tilde{P}=\left\{\hat{\mathbf{z}}_{k}^{\tilde{v}}\right\}_{\tilde{v}, k}, \tilde{v} \neq v$ 는 배치 내의 다른 비디오로부터의 proxy를 포함한다. 그런 다음, 우리는 multi-instance InfoNCE loss (Miech et al., 2020; Fang et al., 2023)를 사용하여 positive 쌍 간의 유사도를 최대화하고 negative 쌍을 멀리 떨어뜨린다:

\mathcal{L}_{\mathrm{PM}}=-\frac{1}{|\mathcal{B}|} \sum_{(q, v) \in \mathcal{B}} \log \frac{\sum_{\hat{\mathbf{z}}_{k}^{v} \in \mathcal{P}} e^{\cos \left(\hat{\mathbf{z}}_{k}^{q}, \hat{\mathbf{z}}_{k}^{v}\right) / \tau}}{\sum_{\hat{\mathbf{z}}_{k}^{v} \in\{\mathcal{P} \cup \widetilde{\mathcal{P}}\}} e^{\cos \left(\hat{\mathbf{z}}_{k}^{q}, \hat{\mathbf{z}}_{k}^{v}\right) / \tau}},

여기서 $\tau$ 는 온도 계수(temperature factor)이고 $\mathcal{B}$ 는 미니 배치(mini-batch)이다.

3.3 Confidence-aware Set-to-Set Alignment

쿼리 및 비디오 표현인 $\mathbf{V}= \left\{\mathbf{v}_{j}\right\}_{j=1}^{N_{f}}$ 와 $\mathbf{Q}=\left\{\mathbf{q}_{i}\right\}_{i=1}^{L}$ 를 사용하여, 우리는 dot product를 통해 유사도 행렬 $\mathbf{S} \in \mathbb{R}^{L \times N_{f}}$ 를 얻을 수 있다. 여기서 각 요소는 $i$ -번째 쿼리 단어와 $j$ -번째 비디오 프레임 간의 유사도를 나타낸다. 먼저, 각 쿼리 단어에 대해 가장 관련성이 높은 프레임을 max-pooling을 통해 포착하고, 이들 간의 코사인 유사도를 단어-비디오 유사도 $s_{i}$ 로 사용한다:

s_{i}=\max \left(\cos \left(\mathbf{q}_{i}, \mathbf{v}_{1}\right), \ldots, \cos \left(\mathbf{q}_{i}, \mathbf{v}_{N_{f}}\right)\right),

쿼리-비디오 유사도 점수를 추가로 얻기 위해, 기존 방법들은 종종 $\left\{s_{i}\right\}_{i=1}^{L}$ 에 대해 mean-pooling을 적용한다. 그러나 일부 단어(예: 기능어)는 cross-modal alignment에 노이즈를 유발할 수 있다. 이러한 한계를 극복하기 위해, 우리는 학습 가능한 predictor를 통해 단어 수준의 신뢰도 점수 $\mathbf{g}=\left\{g_{i}\right\}_{i=1}^{L} \in \mathbb{R}^{L}$ 를 동적으로 할당하는 방법을 제안한다. 예측된 $\mathbf{g}$ 를 사용하여, 유사도 $s_{i}$ 에 가중치를 부여하여 최종 쿼리-비디오 유사도를 계산한다:

S(q, v)=\sum_{i=1}^{L} g_{i} s_{i}, \quad \mathbf{g}=\operatorname{MLP}(\mathbf{Q})

여기서 MLP는 두 개의 선형 레이어와 활성화 함수로 구성된다. $S(q, v)$ 는 기본 retrieval loss $\mathcal{L}_{\text {base}}$ 에 의해 직접적으로 지도 학습된다 (Dong et al., 2022; Wang et al., 2024e). 따라서, MSRA 및 CSA 모듈을 포함한 전체 모델은 총 손실(total loss)에 의해 end-to-end로 공동 최적화된다:

\mathcal{L}=\mathcal{L}_{\text {base }}+\lambda_{3} \mathcal{L}_{D A}+\lambda_{4} \mathcal{L}_{P M},

여기서 $\lambda_{3}$ 와 $\lambda_{4}$ 는 손실들의 균형을 맞추기 위한 하이퍼파라미터이다.

4 Experiments

4.1 Experimental Setup

데이터셋 및 평가 지표 (Datasets and Metrics)
우리는 두 개의 대규모 비디오 데이터셋인 ActivityNet Captions (ActivityNet) (Krishna et al., 2017)과 TV Show Retrieval (TVR) (Lei et al., 2020)을 사용한다. 특히, PRVR의 경우 타임스탬프 어노테이션은 제공되지 않는다.
TVR은 6개의 TV 쇼에서 수집된 21,793개의 비디오를 포함한다. 각 비디오는 서로 다른 순간을 설명하는 5개의 자연어 문장과 연결되어 있다. 비디오의 평균 길이는 약 76초이다.
ActivityNet은 20,000개의 YouTube 비디오를 포함하며, 평균 길이는 약 118초이다. 각 비디오는 평균 3.7개의 순간과 해당 문장 설명을 가지고 있다. 우리는 (Dong et al., 2022)에서 사용된 일반적인 데이터 분할 방식을 따른다.

(Wang et al., 2024e; Jiang et al., 2023)에 따라, 우리는 모델 평가를 위해 R@M (M = 1, 5, 10, 100) 이라는 순위 기반 지표를 사용한다. R@M은 상위 M개의 결과 내에서 타겟 비디오를 정확하게 검색한 쿼리의 비율을 측정한다. 또한, 전반적인 비교를 위해 **모든 R@M 점수의 합(SumR)**도 보고한다. 모든 지표는 백분율(%)로 보고된다.

구현 세부 사항 (Implementation Details)
기존 방법들 (Dong et al., 2022)에 따라, 우리는 ActivityNet과 TVR 데이터셋에서 시각 feature 추출을 위해 ResNet (He et al., 2016)과 I3D (Carreira and Zisserman, 2017)를, 텍스트 feature 추출을 위해 RoBERTa (Liu et al., 2019)를 사용한다.
$\mathcal{L}_{P M}$ 에서 프록시(proxy)의 개수는 $K=6$ 으로 설정한다. 손실 계수는 $\lambda_{1}=0.05, \lambda_{2}=1, \lambda_{3}=0.001, \lambda_{4}=0.004$ 로 설정한다. 우리는 Adam optimizer를 사용하며, 학습률은 $1e-4$ , 배치 크기는 128, 학습 epoch는 100으로 설정한다.

Table 1: 성능 비교. 모델은 TVR의 SumR 기준으로 오름차순 정렬되어 있다.

Model	Venue	TVR				ActivityNet
		R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR
T2VR models:
DE++ (Dong et al., 2021)	TPAMI'21	8.8	21.9	30.2	67.4	128.3	5.3	18.4	29.2	68.0	121.0
CLIP4Clip (Luo et al., 2022)	ArXiv'21	9.9	24.3	34.3	72.5	141.0	5.9	19.3	30.4	71.6	127.3
Cap4Video (Wu et al., 2023)	CVPR'23	10.3	26.4	36.8	74.0	147.5	6.3	20.4	30.9	72.6	130.2
UMT-L (Li et al., 2023)	ICCV'23	13.7	32.3	43.7	83.7	173.4	6.9	22.6	35.1	76.2	140.8
InternVideo2 (Wang et al., 2024c)	ECCV'24	13.8	32.9	44.4	84.2	175.3	7.5	23.4	36.1	76.5	143.5
VCMR models w/o moment localization:
XML (Lei et al., 2020)	ECCV'20	10.0	26.5	37.3	81.3	155.1	5.3	19.4	30.6	73.1	128.4
ReLoCLNet (Zhang et al., 2021)	SIGIR'21	10.7	28.1	38.1	80.3	157.1	5.7	18.9	30.0	72.0	126.6
QCLPL(Zhang et al., 2025a)	TCSVT'25	11.0	28.9	39.6	81.3	160.8	6.5	20.4	31.8	74.3	133.1
JSG (Chen et al., 2023)	ACM MM'23	11.3	29.1	39.6	80.9	161.0	6.7	22.5	34.8	76.2	140.3
PRVR models:
MS-SL (Dong et al., 2022)	ACM MM'22	13.5	32.1	43.4	83.4	172.4	7.1	22.5	34.7	75.8	140.1
PEAN (Jiang et al., 2023)	ICME'23	13.5	32.8	44.1	83.9	174.2	7.4	23.0	35.5	75.9	141.8
GMMFormer (Wang et al., 2024e)	AAAI'24	13.9	33.3	44.5	84.9	176.6	8.3	24.9	36.7	76.1	146.0
BGM-Net (Yin et al., 2024)	TOMM'24	14.1	34.7	45.9	85.2	179.9	7.2	23.8	36.0	76.9	143.9
DL-DKD (Dong et al., 2023)	ICCV'23	14.4	34.9	45.8	84.9	179.9	8.0	25.0	37.4	77.1	147.6
ARTVL (Cho et al., 2025)	AAAI'25	15.6	36.3	47.7	86.3	185.9	8.3	24.6	37.4	78.0	148.3
GMMFormer v2 (Wang et al., 2024d)	ArXiv'24	16.2	37.6	48.8	86.4	189.1	8.9	27.1	40.2	78.7	154.9
MGAKD (Zhang et al., 2025b)	TOMM'25	16.0	37.8	49.2	87.5	190.5	7.9	25.7	38.3	77.8	149.6
MS-SL + RAL	-	14.5	34.3	45.8	84.5	179.1	7.4	23.4	35.4	76.7	143.0
GMMFormer + RAL	-	15.8	36.4	47.9	86.0	186.1	8.4	25.1	37.2	77.0	147.7
GMMFormer $\mathbf{2} \mathbf{2}$ + RAL	-	18.2	40.4	52.1	88.0	198.8	8.9	27.7	40.4	79.1	156.1

Figure 3: 쿼리의 불확실성 수준에 따른 우리 모델과 GMMFormer v2의 성능 비교. 우리 모델은 특히 극심한 불확실성 상황에서 GMMFormer v2보다 지속적으로 우수한 성능을 보인다.

early stopping 전략을 적용하여, SumR이 10 epoch 동안 개선되지 않으면 학습을 중단한다. 모든 실험은 단일 A800 GPU에서 수행된다.
제안된 접근 방식의 효과와 일반화 능력을 파악하기 위해, 우리는 MSRA 및 CSA 모듈을 세 가지 baseline 모델에 통합한다: MS-SL (Dong et al., 2022), GMMFormer (Wang et al., 2024e), 그리고 GMMFormer-v2 (Wang et al., 2024d). 더 자세한 구현 세부 사항은 supplementary에 제공된다.

4.2 Performance Comparison

PRVR Task에서의 효과
우리의 방법은 다양한 baseline 모델에 원활하게 통합될 수 있다. Table 1에서 볼 수 있듯이, 우리는 이 방법을 세 가지 고급 PRVR 모델(MS-SL, GMMFormer, GMMFormer v2)에 적용하였다. 실험 결과는 두 가지 주요 발견을 보여준다: (1) 우리의 방법은 모든 baseline 모델을 일관되게 향상시키고, 두 데이터셋에서 상당한 성능 향상을 달성한다. (2) 우리의 방법은 PRVR에서 새로운 state-of-the-art 성능을 설정하며, TVR에서 SumR 198.8을 기록하여 이전 최고 모델(GMMFormer v2)을 9.7점이라는 놀라운 차이로 능가한다. 이러한 발견들은 다양한 아키텍처에 걸쳐 우리 접근 방식의 효과를 검증한다. 다음 부분에서는 GMMFormer v2를 추가 분석 및 비교를 위한 기본 벤치마크 모델로 채택한다.

불확실한 샘플에 대한 모델 견고성
제안된 방법의 견고성과 안정성을 검증하기 위해, 우리는 다양한 불확실성 수준을 가진 쿼리에 대해 더 많은 비교를 수행하고 R@1 점수를 관찰한다. 명확성을 위해, 우리는 TVR 테스트 세트의 부분집합(즉, M/V 비율 $\in[0.2,0.4]$ 인 쿼리 (Dong et al., 2022))을 선택하고 5개의 쿼리마다 하나의 세트로 그룹화한다. 각 쿼리 세트의 불확실성 수준은 Eq. (3)의 $\boldsymbol{\sigma}^{q}$ 의 기하 평균(geometric mean) (Gao et al., 2024)을 사용하여 정량화된다. Figure 3의 실험 결과를 관찰하면 다음을 알 수 있다: (1) 우리의 방법은 다양한 불확실성 수준에서 GMMFormer v2를 일관되게 능가한다. (2) 불확실성이 증가함에 따라 우리 방법과 GMMFormer v2 간의 성능 격차가 확대된다. (3) 극심한 불확실성 하에서 GMMFormer v2는 R@1이 거의 0에 가까워지며 붕괴하는 반면, 우리 모델은

Figure 4: 다양한 유형의 쿼리에 대한 성능. 쿼리는 M/V 비율 $r$ 에 따라 그룹화된다. $r$ 이 작을수록 쿼리에 덜 관련되거나 더 많은 관련 없는 콘텐츠를 나타낸다.

안정적으로 거의 20에 가까운 R@1을 달성한다. 이러한 발견들은 데이터 불확실성의 영향을 완화하고, 매우 모호한 경우에도 견고한 쿼리-비디오 정렬을 보장하는 우리 방법의 효과를 입증한다.

M/V 성능 분석
PRVR에서 쿼리는 비디오 콘텐츠의 부분적인 측면만을 포착한다. 여기서는 M/V 비율 $r$ 이 다른 쿼리에 대한 성능을 분석한다. 여기서 $r$ 은 쿼리 관련 순간의 총 비디오 길이에 대한 비율을 의미한다. $r$ 이 작을수록 대상 비디오에 관련 콘텐츠가 적다는 것을 나타낸다. 쿼리와 비디오 간의 이러한 의미론적 불균형은 검색을 더욱 어렵게 만든다. (Dong et al., 2022)에 따라, 우리는 테스트 쿼리를 세 그룹으로 분류한다: 짧음( $r \in(0,0.2]$ ), 중간( $r \in(0.2,0.4]$ ), 김( $r \in(0.4,1.0]$ ). Figure 4에서 볼 수 있듯이, 우리 모델은 다른 모델들을 일관되게 능가하며, 다양한 관련성 수준의 쿼리에 대한 효과와 견고성을 보여준다.

4.3 Further Analysis

노이즈 환경에서의 모델 강건성 (Model Robustness Under Noise)
노이즈 조건에서의 성능은 모델 강건성에 더 큰 도전 과제를 제기한다 (Yang et al., 2024a; Pan et al., 2024). (Yang et al., 2021)에 따라, 우리는 테스트 비디오의 시작 부분에 $h \times p$ 초 길이의 무작위로 생성된 세그먼트를 삽입한다. 여기서 $h$ 는 테스트 비디오의 길이, $p$ 는 노이즈 수준을 나타낸다. Figure 5에서 볼 수 있듯이, 우리 모델은 다양한 노이즈 수준에서 비교 방법들보다 지속적으로 우수한 성능을 보이며, 노이즈 강도가 증가함에 따라 성능 하락폭이 가장 작다. 이는 불확실성을 인지하는(uncertainty-aware) 정렬 전략이 노이즈 입력에 대해 뛰어난 회복 탄력성을 가지고 있음을 강조한다.

Figure 5: TVR 데이터셋에서 다양한 노이즈 수준에 따른 여러 방법들의 성능. 노이즈 수준이 증가함에 따라 우리 모델은 가장 작은 성능 하락을 보인다.

Table 2: TVR 데이터셋에서 모델 구조에 대한 Ablation study.

MSRA	CSA	R@1	R@5	R@10	R@100	SumR	$\Delta$ SumR
		16.2	37.6	48.8	86.4	189.1	-
$\checkmark$		17.5	39.2	50.7	87.4	194.8	+5.7
	$\checkmark$	17.0	38.5	51.0	88.1	194.5	+5.4
$\checkmark$	$\checkmark$	$\mathbf{1 8 . 2}$	$\mathbf{4 0 . 4}$	$\mathbf{5 2 . 1}$	$\mathbf{8 8 . 0}$	$\mathbf{1 9 8 . 8}$	+9.7

모델 구조 분석 (Analysis on Model Structure)
Table 2에서는 TVR 데이터셋에 대해 불확실성 학습(MSRA)과 신뢰도 인지 정렬(CSA) 측면에서 ablation study를 제공한다.
첫째, 우리는 baseline GMMFormer v2의 성능을 보여준다 (맨 위 행). 이를 기반으로 MSRA 모듈을 도입하면 (2번째 행), R@1에서 5.7의 성능 향상을 얻는다. 이는 단순한 semantic feature보다 분포 표현에 대한 멀티모달 학습을 도입하는 것의 우수성을 보여준다.
또한 CSA 모듈의 효과도 평가한다 (3번째 행). 비교 결과, 쿼리의 단어 수준 신뢰도를 고려하는 것이 성능을 크게 향상시킨다. 이는 쿼리 내의 무의미한 단어가 관련 없는 배경 프레임을 포착하여 검색을 오도할 수 있기 때문이다.
설계된 MSRA와 CSA를 함께 사용함으로써, 우리 방법은 SumR에서 9.7의 개선을 달성한다 (4번째 행). 이러한 ablation 결과는 PRVR baseline을 개선하는 데 있어 우리 방법의 각 구성 요소의 효과를 입증한다.

Figure 6에서는 TVR 데이터셋의 쿼리와 상위 10개 검색된 비디오 간의 cosine 유사도를 다른 모델들과 비교하여 보여준다. 전반적으로 우리 모델은 0.5 이상의 유사도를 생성하는 반면, 다른 모델들은 0.2에서 0.5 범위에 머무른다. 우리 모델은 우수한 검색 성능을 보여줄 뿐만 아니라, 더 높은 유사도를 가진 비디오를 검색하여 더 안정적이고 신뢰할 수 있는 쿼리-비디오 정렬을 달성할 수 있음을 나타낸다.

Figure 6: TVR 데이터셋의 테스트 쿼리와 상위 10개 검색된 비디오 간의 쿼리-비디오 cosine 유사도.

분포 최적화 분석 (Analysis on Distribution Optimization)
Table 3에서는 MSRA 모듈의 학습 목표에 대한 ablation study를 수행한다. $\mathcal{L}_{D A}$ 는 각 쿼리-비디오 쌍의 분포 간 KL 거리를 최소화한다. $\mathcal{L}_{P M}$ 은 contrastive learning 프레임워크에서 무작위 비디오 및 텍스트 프록시의 semantic 유사도를 촉진한다. Table 3을 통해 다음과 같은 결론을 도출했다:
(1) 어떤 손실 항을 제거하더라도 성능 저하가 발생하지만, 두 변형 모두 분포 최적화가 없는 baseline보다 여전히 우수하다.
(2) $\mathcal{L}_{D A}$ 와 $\mathcal{L}_{P M}$ 을 함께 사용하면 최고의 성능을 달성하며, 이는 멀티모달 분포 및 무작위 프록시에 대한 제약 조건의 상보성과 효과를 보여준다.

Table 3에서는 $\mathcal{L}_{P M}$ 을 위한 샘플링 프록시 수에 대해서도 추가적으로 논의한다. "w/o sampling"의 경우, 학습 중에 가우시안 분포의 평균을 프록시로 직접 사용한다. 이는 데이터 불확실성을 활용하기보다는 feature를 고정하기 때문에 차선책의 성능을 제공한다. 프록시 수 $K$ 가 2에서 6으로 증가함에 따라, 우리 방법은 불확실성을 기반으로 데이터 표현을 점진적으로 증강하여 더 나은 성능을 가능하게 한다. 성능과 계산 비용 간의 trade-off를 고려하여 최종 모델에서는 $K=6$ 을 선택한다.

불확실성 모델링 분석 (Analysis on Uncertainty Modeling)
Table 4는 불확실성 모델링에서 우리의 핵심 설계 선택의 효과를 강조한다.
첫째, 우리는 쿼리 support set의 영향을 조사한다. 쿼리 support set을 단일 쿼리로 줄이면, 텍스트 분포가 더 넓은 문맥적 의미를 포착하지 못한다. 이는 텍스트와 비디오 분포 간의 심각한 semantic 불일치를 초래하여 최적화 프로세스를 방해하고 성능을 크게 저하시킨다.
다음으로, 데이터 불확실성을 정량화하는 데 있어 다중 granular feature aggregation의 역할을 탐구한다. Global aggregation은 전체적인 문맥을 요약하는 반면, local aggregation은 세분화된 세부 정보를 보완한다. 결과는 global-local aggregation의 조합이 강건한 불확실성 모델링에 기여하고 최고의 성능을 달성함을 보여준다.

Table 3: TVR 데이터셋에서 분포 최적화 및 프록시 수에 대한 Ablation study.

Loss	$\mathrm{R} @ 1$	$\mathrm{R} @ 5$	$\mathrm{R} @ 10$	$\mathrm{R} @ 100$	SumR
$w / o \mathcal{L}_{D A}$	17.7	39.9	51.8	88.0	197.4
$w / o \mathcal{L}_{P M}$	17.4	39.7	51.6	87.8	196.5
Proxy	R 1	R 5	R 10	R 100	SumR
$w / o$ sampling	17.6	39.8	51.7	87.6	196.7
$K=2$	17.9	40.1	51.8	87.7	197.5
$K=4$	18.0	40.3	51.8	87.9	198.0
$K=\mathbf{6}$	$\mathbf{1 8 . 2}$	40.4	$\mathbf{5 2 . 1}$	$\mathbf{8 8 . 0}$	$\mathbf{1 9 8 . 8}$

Table 4: TVR 데이터셋에서 다양한 불확실성 모델링 방법의 효과.

Method	R@1	R@5	R@10	R@100	SumR
$\mathbf{X}^{q}=\mathbf{Q}$	17.6	39.8	51.5	87.9	196.9
$g^{m}\left(\mathbf{X}^{m}\right)=\mathbf{x}^{m, l}$	17.9	40.2	51.2	87.4	196.7
$g^{m}\left(\mathbf{X}^{m}\right)=\mathbf{x}^{m, g}$	18.0	40.1	51.6	88.2	197.9
Ours	$\mathbf{1 8 . 2}$	$\mathbf{4 0 . 4}$	$\mathbf{5 2 . 1}$	$\mathbf{8 8 . 0}$	$\mathbf{1 9 8 . 8}$

4.4 Qualitative Results

도전적인 검색 사례 (Challenging Retrieval Cases)
데이터 불확실성의 영향을 추가적으로 조사하기 위해, 우리는 데이터 불확실성이 있는 두 가지 도전적인 검색 사례를 분석한다. Figure 7에서 보듯이, 우리는 ground-truth (GT) 비디오 내의 다른 순간을 참조하는 두 가지 쿼리를 보여주고, 우리 모델과 GMMFormer v2의 Top-1 검색 결과를 비교한다.
GMMFormer v2는 두 경우 모두에서 실패하여, 유사한 동작(카드를 펼치거나 섞는 것)을 포함하는 distractor 비디오를 검색하고 GT 비디오를 9위와 15위에 랭크시킨다. 이와 대조적으로, 우리 모델은 데이터 내의 의미론적 관계를 효과적으로 발굴하여 GT 비디오를 Rank-1으로 검색한다.

신뢰도 인식 정렬 (Confidence-aware Alignment)
여기서는 우리가 제안한 CSA가 검색 성능을 어떻게 향상시키는지 조사한다. Figure 8a는 단어-프레임 유사도 행렬을 보여주는데, 여기서 "to be"와 같은 단어들은 **쿼리와 관련성이 낮은 프레임(회색 상자로 강조 표시)**과 정렬된다.

Figure 7: TVR에 대한 PRVR 결과: 우리 방법과 GMMFormer v2 (Wang et al., 2024d)에 의해 검색된 top-1 비디오. 녹색 및 빨간색 상자는 각각 ground truth 및 distractor 비디오를 나타낸다.

Figure 8: CSA 메커니즘 시각화. (a) 단어-프레임 유사도는 정보가 없는 단어(예: "to be")가 관련 없는 프레임(회색 상자)과 정렬됨을 보여준다. (b) CSA를 사용하면 정보가 없는 단어는 낮은 신뢰도를 받아 검색 성능이 향상된다. (c) 고정된 평균 가중치는 성능 저하를 유발하며, GT 비디오는 6위로 랭크된다.

CSA를 도입함으로써 (Figure 8b), "to be"와 같은 단어들은 더 낮은 신뢰도를 받게 되어 GT 비디오를 정확하게 검색한다. 이와 대조적으로, 신뢰도를 고정된 평균 가중치로 대체하면 (Figure 8c), GT 비디오는 6위로 떨어지며, 이는 정확한 검색을 위한 동적 신뢰도 가중치의 중요성을 보여준다.

4.5 Versatility on T2VR

T2VR은 비디오가 쿼리에 맞춰 잘려진(trimmed) PRVR의 간단한 경우로 볼 수 있다. Table 5에서 우리는 T2VR task에 우리의 RAL을 적용하고, 두 가지 다른 visual backbone 하에서 CLIP4Clip (Luo et al., 2022)과 비교하였다. RAL을 CLIP4Clip과 결합하면 ViT-B/32 및 ViT-B/32에서 R@1이 각각 약 6.1%와 6.6% 향상되는 것을 확인할 수 있다. 이 결과는 cross-modal alignment를 향상시키는 우리 프레임워크의 효과성과 다용도성을 더욱 입증한다.

5 Conclusion

본 논문에서는 **쿼리 모호성(query ambiguity)과 부분적인 비디오 관련성(partial video relevance)**으로 인해 발생하는 **가짜 의미론적 상관관계(spurious semantic correlations)**라는 근본적인 문제에 대해 연구한다.

Table 5: T2VR task에 대한 MSR-VTT 데이터셋에서 우리 방법의 텍스트-비디오 성능.

Method	R@1	R@5	R@10	MdR $\downarrow$	MnR $\downarrow$
CLIP4Clip (ViT-B/32)	44.5	71.4	81.6	2.0	15.3
+RAL	$\mathbf{4 7 . 2}$	$\mathbf{73 . 6}$	$\mathbf{8 3 . 1}$	$\mathbf{2 . 0}$	$\mathbf{12 . 5}$
CLIP4Clip (ViT-B/16)	47.1	74.1	81.8	2.0	14.9
+RAL	$\mathbf{5 0 . 2}$	$\mathbf{76 . 1}$	$\mathbf{8 5 . 2}$	$\mathbf{1 . 0}$	$\mathbf{1 2 . 7}$

우리는 비디오 및 텍스트 feature를 확률 분포로 표현하여 데이터 불확실성(data uncertainty)을 명시적으로 모델링하는 새로운 Robust Alignment Learning (RAL) 프레임워크를 제안하며, 이를 통해 더욱 견고한 cross-modal alignment를 가능하게 한다. 우리는 **동일한 비디오에 대한 여러 설명을 집계하는 쿼리 지원 세트(query support set)**와 **데이터 불확실성을 보다 효과적으로 정량화하기 위한 다중 세분화 feature 집계(multi-granularity feature aggregation)**를 도입한다. 또한, 쿼리 단어에 적응형 가중치를 할당하여 검색 정확도를 향상시키는 confidence-aware set-to-set alignment 메커니즘을 설계한다. 벤치마크 데이터셋에 대한 광범위한 실험은 우리 RAL의 효과성과 다용성을 입증하며, PRVR 및 T2VR 모두에서 상당한 성능 향상을 달성한다.

Limitations

TVR 데이터셋에 대한 validation 실험에서, 우리는 검색 실패 사례에 대한 **귀인 분석(attribution analysis)**을 수행했고, 누락된 named entity로 인한 cross-modal alignment bias라는 두드러진 패턴을 확인했다. 예를 들어, "Beckett confronts a friend at the bar"라는 쿼리에서, 모델이 검색한 결과와 groundtruth (GT) 비디오 간의 불일치는 모델이 텍스트의 캐릭터 entity "Beckett"를 비디오 내의 해당 시각적 표현과 연결하지 못했기 때문이다. 구체적으로, GT 비디오에는 빨간 재킷과 곱슬머리와 같이 이 캐릭터와 관련된 뚜렷한 시각적 단서가 포함되어 있다. 대조적으로, 검색된 distractor 비디오는 유사한 바 장면을 배경으로 하고 있음에도 불구하고, 이러한 세밀한 신원 지표(fine-grained identity indicators)가 부족하다. 우리의 현재 접근 방식은 쿼리 내의 named entity와 비디오 내의 특정 캐릭터 간의 대응 관계를 명시적으로 모델링하지 않아 **검색 모호성(retrieval ambiguity)**을 초래한다. 이러한 한계는 향후 연구의 잠재적 방향을 제시한다: 캐릭터의 텍스트 언급을 비디오 내의 시각적 대응물과 연결하기 위한 identity-aware modeling을 통합하는 것이다 (Song et al., 2024b; Zhou et al., 2025b,a). 이는 지식 그래프(knowledge graphs)에서 entity 속성 정보를 통합하고, attention mechanism을 사용하여 모델이 신원 관련 시각적 단서로 향하도록 유도함으로써, 실제 검색 시나리오에서의 적용 가능성을 향상시키는 것을 포함할 수 있다 (Zhang et al., 2024; Song et al., 2024a).

Acknowledgements

본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 Grant 62402471, Grant U22A2094, Grant 62472385, Grant 62272435의 지원을 받아 수행되었다. 또한 저장성(Zhejiang)의 Pioneer and Leading Goose R&D Program (Grant 2024C01110)의 지원에도 감사드린다. 본 연구는 USTC 슈퍼컴퓨팅 센터(Supercomputing Center of the USTC)에서 제공하는 고급 컴퓨팅 자원의 지원을 받았다. 또한 USTC 정보과학기술연구소 MCC Lab에서 구축한 GPU 클러스터의 지원에도 감사드린다.

Example Appendix

이 보충 문서는 다음 내용을 포함한다: (i) 구현 세부 사항에 대한 추가 정보 (Section A); (ii) 추가 실험 결과 및 분석 (Section B), 여기에는 학습 중 불확실성과 성능의 변화 추이 (Section B.1), loss 계수의 영향 (Section B.2), 그리고 다양한 PRVR 방법의 retrieval 효율성에 대한 연구 (Section B.3)가 포함된다; (iii) 우리 방법의 추가적인 정성적 예시 및 향후 연구에 대한 논의 (Section C).

A Implementation Details

Figure 9는 **MS-SL (Dong et al., 2022), GMMFormer (Wang et al., 2024e), GMMFormer v2 (Wang et al., 2024d)**를 포함한 기존 baseline에 제안된 URAL 프레임워크를 적용하기 위한 실험 세부 사항을 설명한다. 특히, URAL은 baseline의 frame-level branch에만 통합된다. 이러한 설계 선택은 다음을 고려한 것이다: (1) frame-level branch는 세밀한 시간 정보를 제공하며, 이는 cross-modal alignment에 내재된 불확실성을 처리하는 데 필수적이면서도 불필요한 계산 오버헤드를 피할 수 있다는 점, (2) frame-level feature가 제안된 confidence-aware set-to-set alignment module과 같은 모듈을 통합하는 데 더 적합하다는 점.

Figure 9: RAL과 PRVR baseline의 통합. 여기서 MSRA와 CSA는 각각 제안된 multimodal semantic robust alignment 및 confidence-aware set-to-set alignment module을 의미한다. RAL은 frame-level branch에 통합되며, 최종 검색 점수는 frame-level 및 clip-level 점수의 조합이다.

구현 시, 공정한 비교를 위해 baseline의 원래 비디오 및 텍스트 인코더를 유지한다. 추출된 **비디오 프레임 feature $\mathbf{V}_{f}$ **와 **쿼리 단어 feature $\mathbf{Q}$ **는 MSRA (Multimodal Semantic Robust Alignment) 모듈에 입력되며, 이 모듈은 불확실성을 명시적으로 모델링하고 완화하여 cross-modal alignment를 향상시킨다. 결과적으로 얻어진 **robust한 $\mathbf{Q}$ 와 $\mathbf{V}_{f}$ **는 이어서 CSA (Confidence-aware Set-to-set Alignment) 모듈에 의해 적응형 confidence weighting을 통한 query-video alignment를 위해 처리된다. CSA 모듈은 신뢰할 수 있는 frame-level 검색 점수 $S_{f}(q, v)$ 를 생성하며, 이 점수는 clip-level 점수 $S_{c}(q, v)$ 와 합산되어 최종 검색 결과를 산출한다.

B More Experimental Results

B. 1 Uncertainty Mitigation During Training

학습 중 비디오 및 쿼리 불확실성의 변화와 이것이 성능에 미치는 영향을 조사하기 위해, 우리는 5 학습 epoch마다 불확실성을 정량화하고 해당 SumR 성능을 테스트 세트에서 보고한다. 우리는 학습이 진행됨에 따라 비디오와 쿼리 모두의 불확실성이 감소하고, 모델의 검색 성능이 향상되는 것을 관찰한다.

Figure 10: 학습 중 데이터 불확실성 및 검색 성능의 변화 추세. 학습이 진행됨에 따라 불확실성이 감소하면 검색 정확도가 향상된다.

Figure 11: 분포 정렬 손실 $\mathcal{L}_{D A}$ 및 프록시 매칭 손실 $\mathcal{L}_{P M}$ 의 손실 계수 $\lambda_{3}$ 및 $\lambda_{4}$ 의 영향.

이는 불확실성을 완화하는 것이 검색 정확도를 향상시키는 데 중요하다는 것을 나타낸다. 또한, 우리는 비디오가 쿼리보다 더 높은 불확실성을 보인다는 것을 발견한다. 트리밍되지 않은 비디오에 존재하는 중복된 콘텐츠는 PRVR에 있어 주요한 도전 과제이다. 이는 향후 연구를 위한 중요한 방향을 제시한다.

B. 2 Hyper-parameter Analysis

기본 retrieval loss $\mathcal{L}_{\text {base }}$ (Dong et al., 2022) 외에도, 우리 모델은 정렬(alignment)을 강화하기 위해 보조적인 **distribution alignment loss $\mathcal{L}_{D A}$ **와 **proxy matching loss $\mathcal{L}_{P M}$ **를 통합한다. Figure 11에서 우리는 TVR 데이터셋에서 두 loss 계수 $\lambda_{3}$ 와 $\lambda_{4}$ 의 민감도를 연구한다. 초기 설정은 각 loss 항목이 동일한 크기를 유지하도록 $\lambda_{3}=0.001$ 및 $\lambda_{4}=0.00025$ 이다. 우리는 이 하이퍼파라미터들을 특정 범위 내에서 조정하여 그 영향을 평가한다. Figure 11에서 볼 수 있듯이, 우리 모델은 안정적인 성능을 유지하며 $\lambda_{3}=0.004$ 및 $\lambda_{4}=0.001$ 에서 최적의 균형에 도달한다.

Figure 12: TVR 및 ActivityNet에 대한 추가 시각화 결과. 우리 방법과 GMMFormer v2 (Wang et al., 2024d)에서 검색된 Top-1 비디오가 표시되어 있다. 녹색 상자는 ground truth 비디오를, 빨간색 상자는 distractor 비디오를 나타낸다.

Table 6: FLOPs (G) 및 파라미터 (M) 측면에서의 비교. $\Delta$ 는 다양한 지표에 대해 baseline (GMMFormer v2) 대비 우리의 상대적 변화를 나타낸다.

	MS-SL	GMMFormer	GMMFormer v2	Ours	$\Delta$
FLOPs	1.29	1.95	5.43	5.75	+0.32
Params	4.85	12.85	32.27	35.53	+3.26
SumR	172.4	176.6	189.1	198.8	+9.7

Table 7: PRVR 모델의 런타임 (ms) 비교.

Database Size	500	1,000	1,500	2,000	2,500
MS-SL (Dong et al., 2022)	4.89	6.11	8.06	10.42	12.93
GMMFormer (Wang et al., 2024e)	2.68	2.93	3.40	3.94	4.56
GMMFormer v2 (Wang et al., 2024d)	3.95	4.32	5.02	5.81	6.73
Ours	4.61	5.05	5.86	6.79	7.86

B. 3 Retrieval Efficiency

모델 효율성을 평가하기 위해, 우리는 여러 PRVR 방법들의 **FLOPs(floating-point operations)**와 모델 파라미터 수를 비교한다. 우리의 방법은 GMMFormer v2를 baseline으로 삼으면서 **불확실성 학습(uncertainty learning)**과 **신뢰도 인식 정렬(confidence-aware alignment)**을 도입한다. Table 6에서 볼 수 있듯이, 우리 모델은 FLOPs를 0.32 G, 파라미터 수를 3.26 M 증가시키지만, SumR에서 9.7%라는 상당한 성능 향상을 달성한다. 이는 계산 비용과 성능 향상 사이의 유리한 trade-off를 보여준다.

실제 상황에서의 검색 효율성을 위해, 우리는 Table 7에 나타난 바와 같이 **검색 속도(밀리초 단위)**를 측정한다. 구체적으로, 우리는 TVR 데이터셋에서 비디오 subset을 구성하고, 다양한 데이터베이스 크기 설정에서 단일 텍스트 쿼리에 대한 검색 프로세스를 완료하는 평균 실행 시간을 측정한다. 검색 과정에서 confidence-aware alignment를 도입했음에도 불구하고, 우리 모델의 실행 시간은 GMMFormer v2와 비슷한 수준을 유지한다. 더욱이, 데이터베이스 크기가 증가함에 따라 실행 시간은 미미하게 증가하여, 대규모 애플리케이션에 대한 잠재력을 보여준다.

Query: Beckett takes a sip of her drink from a coffee mug.

Figure 13: TVR에서의 실패 사례. 빨간색 상자는 우리 방법과 GMMFormer v2 (Wang et al., 2024d)에 의해 검색된 top-1 비디오를 나타낸다. 녹색 상자는 ground truth 비디오를 나타낸다.

C More Visualization Results

C. 1 Qualitative Retrieval Results

Figure 12는 TVR (Lei et al., 2020) 및 ActivityNet (Krishna et al., 2017) 데이터셋에서 얻은 두 가지 추가 시각화 예시를 제시하며, 우리 모델의 top-1 검색 결과와 GMMFormer v2 (Wang et al., 2024d)의 결과를 비교한다. 두 경우 모두, GMMFormer v2는 대상 비디오를 검색하는 데 실패하고, 대신 "휴대폰" 및 "검은 고양이"와 같이 유사한 장면을 포함하는 distractor 비디오를 선택하며, ground-truth (GT) 비디오를 각각 4위와 3위에 랭크한다. 이와 대조적으로, 우리 모델은 의미론적 관계를 효과적으로 파악하여 GT 비디오를 성공적으로 1위에 랭크한다. 예를 들어, Figure 12 (a)에서 우리 모델은 "puts his cellphone"이라는 동작에 민감하게 반응하는 반면, GMMFormer v2는 "pull out phone"이라는 다른 동작을 특징으로 하는 distractor 비디오를 검색한다. Figure 12 (b)에서 "yarn ball"은 GMMFormer v2가 간과하는 미묘하지만 중요한 시각적 단서인데, 우리 모델은 이를 성공적으로 감지하여 정확한 검색을 수행한다. 이러한 정성적 결과는 우리 접근 방식이 쿼리와 비디오에서 중요한 의미론적 세부 사항을 포착함으로써 검색 정확도를 크게 향상시킨다는 것을 보여준다.

C. 2 Failure Cases and Future Work

Figure 13은 TVR 데이터셋에서 발생한 실패 사례를 보여주며, 우리 모델과 GMMFormer v2의 top-1 retrieval 결과를 비교한다. 쿼리는 커피를 마시는 일반적인 시나리오를 설명한다. 두 모델 모두 GT 비디오를 top-1 결과로 검색하는 데 실패했지만, 우리 모델은 쿼리의 핵심 구문(즉, "takes a sip of her drink")을 정확하게 포착하여 매우 관련성 높은 비디오를 검색했으며, GT 비디오를 2위로 랭크했다. 대조적으로, GMMFormer v2는 "a man carrying a coffee cup" 비디오를 검색했고 GT 비디오는 8위에 불과했다.

추가 분석 결과, GT 비디오와 우리 모델이 검색한 비디오를 구별하는 결정적인 요소는 쿼리에 있는 고유 명사(named entity) "Beckett"의 존재였다. 우리 접근 방식은 쿼리의 고유 명사와 비디오 내 특정 인물 간의 대응 관계를 고려하지 않아 **검색 모호성(retrieval ambiguity)**을 초래한다. 이러한 한계점은 향후 연구의 잠재적 방향을 제시한다: 사람에 대한 텍스트 언급을 비디오 내 시각적 대응물과 연결하는 identity-aware 모델링을 통합하여 실제 검색 시나리오에 더 적합하게 만드는 것이다.