Ran, Ran, et al. "CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. No. 6. 2025.

CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer

Ran Ran ${ }^{1}$ , Jiwei Wei ${ }^{1 *}$ , Xiangyi Cai ${1}$ , Xiang Guan ${1}$ , Jie Zou ${1}$ , Yang Yang ${1}$ , Heng Tao Shen ${1,2}$ <br> ${ }^{1}$ School of Computer Science and Engineering, University of Electronic Science and Technology of China<br> ${ }^{2}$ School of Computer Science and Technology, Tongji University<br>ranran@std.uestc.edu.cn, mathematic6@gmail.com, caixiangyi@std.uestc.edu.cn, duochuan.gx@gmail.com,<br>{jie.zou, yang.yang} @uestc.edu.cn, shenhengtao@hotmail.com

Abstract

**Video Moment Retrieval (VMR)**은 자연어 쿼리를 기반으로 비디오 내의 특정 순간을 찾아내는 task이다. 그러나 다양한 cross-modal alignment 전략을 사용하는 기존 VMR 방법들은 **세분화된 의미(fine-grained semantics) 이해 부족, 의미 중복(semantic overlap), 희소한 제약(sparse constraints)**과 같은 문제에 직면해 있다. 이러한 한계점을 해결하기 위해 우리는 VMR을 위한 새로운 Concept Decomposition Transformer (CDTR) 모델을 제안한다.

CDTR은 의미 개념 분해(semantic concept decomposition) 모듈을 도입하여 비디오 순간과 문장 쿼리를 **개념 표현(concept representations)**으로 분해한다. 이는 다양한 개념 간의 관련성을 반영하고, cross-modal matching에 필수적인 세분화된 의미를 포착한다. 이렇게 분해된 개념 표현은 pseudo-label로 사용되며, **적응형 개념별 임계값(adaptive concept-specific thresholds)**에 의해 긍정 또는 부정 샘플로 결정된다.

이후, 비디오 intra-modal 및 textual-visual cross-modal에서 **세분화된 개념 정렬(fine-grained concept alignment)**이 수행된다. 이는 feature 내의 서로 다른 개념적 구성 요소를 정렬하여, 모델의 세분화된 의미 구별 능력을 향상시키고, 의미 중복 및 희소한 제약과 관련된 문제를 완화한다.

종합적인 실험 결과는 CDTR의 효과를 입증하며, 널리 사용되는 세 가지 데이터셋인 QVHighlights, Charades-STA, TACoS에서 state-of-the-art 방법들보다 뛰어난 성능을 보여준다.

Introduction

Video Moment Retrieval (VMR)은 자연어 쿼리를 기반으로 비디오 내의 특정 순간을 찾아내는 task를 의미한다 (Gao et al. 2017; Jiang et al. 2022). 구체적으로, 정제되지 않은(untrimmed) 비디오 내의 특정 순간을 설명하는 쿼리가 주어졌을 때, VMR은 관련 비디오 순간의 시작 및 종료 타임스탬프를 결정하는 것을 목표로 한다 (Qu et al. 2020; Li et al. 2024a; Moon et al. 2023b). 비디오 이해 분야에서 이 도전적이고 의미 있는 task는 비디오 콘텐츠와 언어 쿼리 모두에 대한 정확한 이해와 cross-modal 공간에서 이들의 표현을 정렬(alignment)하는 능력을 요구한다 (Wang et al. 2022; Liu et al. 2024; Zhu et al. 2022).

기존 VMR 방법들은 cross-modal alignment를 위해 다양한 전략을 사용한다 (Wei et al. 2023; Liu et al. 2022a; Qi et al. 2024). 일부 접근 방식은 비디오 순간을 제안하고

Figure 1: 비디오와 쿼리는 **개념 표현(concept representation)**으로 분해되어 개념 관련성을 나타낸다. **주석된 데이터(annotated data)**는 **개념 공간 정렬(concept space alignment)**을 용이하게 한다. 개념 표현을 pseudo-label로 사용하여, 비디오 intra-modal 및 텍스트-시각 cross-modal 공간 내의 개념적 구성 요소를 정렬함으로써 **세분화된 개념 정렬(fine-grained concept alignment)**이 달성된다.

순간(moment) 수준에서 feature를 추출하여, 이를 문장(sentence) 수준의 쿼리 feature와 정렬하고 랭킹 구조를 사용하여 가장 잘 일치하는 순간을 식별한다 (Wang et al. 2022; Li et al. 2023; Ning et al. 2021). 다른 접근 방식은 clip 수준의 비디오 feature와 단어(word) 수준의 쿼리 feature를 cross-modal 상호작용에 사용한 다음, prediction head를 통해 비디오 순간을 예측하거나 (Mun, Cho, and Han 2020; Liu, Qu, and Hu 2022) DETR 기반의 Transformer decoder를 사용한다 (Jang et al. 2023; Lin et al. 2023; Sun et al. 2024).

상당한 발전에도 불구하고, 이러한 방법들은 여전히 몇 가지 문제에 직면해 있다. 첫째, cross-modal 의미론의 복잡성으로 인해 현재 방법들은 시각 및 언어 요소에 대한 이해가 제한적이며, 의미론 내의 다양한 독립적인 개념들을 설명하지 못한다 (Li et al. 2024a; Moon et al. 2023b). 이들은 개념의 세분화된 의미론을 이해하고 인식하지 못한다 (Qu et al. 2020; Fang et al. 2023; Qi et al. 2024). 또한, 이전 방법들은 일반적으로 contrastive learning을 사용하여 의미적으로 유사한 긍정 샘플을 가깝게 당기고, 의미적으로 유사하지 않은 부정 샘플을 멀리 밀어낸다. 그러나 잘못 정렬된 부정 샘플은 종종 상당한 의미론적 중첩을 보여, 정확한 정렬을 방해하는 모순된 feature 표현을 초래한다 (Liu, Qu, and Hu 2022; Li et al. 2024a; Zhu et al. 2022). 더욱이 VMR은 희소한 제약(sparse constraints) 문제에 직면하는데, 순간의 작은 부분만 주석 처리되어 대부분의 순간이 제약 없는 부정 샘플로 남게 된다 (Li et al. 2023; Jung et al. 2023; Wang et al. 2022).

이러한 문제들을 해결하기 위해, 우리는 VMR을 위한 새로운 Concept Decomposition Transformer (CDTR) 모델을 제안한다. CDTR은 개념 분해(concept decomposition)를 통해 비디오 순간과 쿼리를 의미론적 개념으로 명시적으로 분리한다. 복잡한 cross-modal 데이터를 자연어의 의미론적 개념으로 매핑함으로써, 우리는 cross-modal 매칭을 위한 본질적인 세분화된 의미론을 효과적으로 포착한다. 구체적으로, 개념 분해 모듈은 입력 데이터의 모든 의미론적 개념 간의 의미론적 관련성을 정량화한다. Fig. 1의 상단 부분에 나타난 바와 같이, 개념 분해 모듈에 의해 처리된 후, 순간과 쿼리는 'teen', 'girl', 'car'와 같은 특정 개념의 관련 벡터로 분리된다. 다음으로, 분해된 개념들은 세분화된 개념 정렬을 위한 pseudo-label로 사용되어, 서로 다른 비디오 순간 내의 관련 의미론적 개념을 식별한다. 다양한 개념적 구성 요소를 정렬함으로써, 의미론적 중첩 문제가 효과적으로 완화된다. 또한, pseudo-label의 사용은 레이블이 없는 순간의 정보를 활용하여 희소한 제약을 완화한다.

**세분화된 개념 정렬(Fine-grained concept alignment)**은 Fig. 1의 하단 부분에 나타난 바와 같이 텍스트-시각 cross-modal 정렬과 비디오 intra-modal 정렬을 포함한다. 텍스트-시각 cross-modal 정렬을 위해, 우리는 분해된 순간 개념을 pseudo-label로 사용하고 이를 텍스트 개념, 즉 쿼리의 단어와 매칭한다. 두 task에 대한 긍정 및 부정 샘플은 적응형 개념별 임계값(adaptive concept-specific thresholds)을 기반으로 선택된다. 이어서, 개념 추출 및 contrastive learning을 통해 특정 개념의 관련성을 반영하는 유사도 평가를 통해 개념적 구성 요소가 정렬된다. 유사하게, 비디오 intra-modal 정렬을 위해, pseudo-label은 주석된 비디오 순간의 두드러진 개념과 다른 순간의 개념적 구성 요소를 정렬하는 데 사용된다.

요약하면, 본 논문의 기여는 다음과 같다:

우리는 의미론적 개념 분해를 활용하여 비디오 순간과 쿼리를 독립적인 개념으로 명시적으로 분리하고, 본질적인 세분화된 의미론을 효과적으로 포착하는 VMR을 위한 새로운 CDTR 모델을 제안한다.
분해된 개념을 세분화된 개념 정렬을 위한 pseudo-label로 사용함으로써, 모델은 시각 및 텍스트 개념 구성 요소를 정렬하여 미묘한 의미론적 feature를 구별하는 능력을 향상시킨다.
우리는 CDTR의 효과를 검증하기 위해 QVHighlight, Charades-STA, TACoS의 세 가지 널리 사용되는 데이터셋에 대해 포괄적인 실험 분석을 수행한다.

**Video Moment Retrieval (VMR)**은 주어진 쿼리에 기반하여 가장 관련성 높은 비디오 순간을 식별하는 task로, (Gao et al. 2017; Anne Hendricks et al. 2017; Zhang et al. 2023)의 연구에 뿌리를 두고 있다. 기존 VMR 방법론은 일반적으로 **후보 기반(candidate-based)**과 **직접 예측(direct-prediction)**의 두 가지 범주로 분류된다 (Lan et al. 2023; Chen et al. 2023).

후보 기반 방법은 일반적으로 여러 잠재적 순간들을 생성하고, 멀티모달 feature fusion을 사용하여 쿼리와의 관련성을 평가한 후, 가장 높은 관련성 점수를 가진 후보를 선택한다. 일부 기술은 multiscale sliding window를 사용하여 후보를 생성하고, 2차원 행렬에 대한 연산을 통해 점수를 예측하며 (Liu et al. 2021a), metrics learning을 통해 정렬 능력(alignment capabilities)을 향상시킨다 (Wang et al. 2022; Li et al. 2023). 최근에는 Transformer decoder 기반 방법이 탐구되어, 직접 예측을 출력하는 end-to-end 솔루션으로 주목할 만한 성공을 거두었다 (Cao et al. 2021; Lei, Berg, and Bansal 2021; Moon et al. 2023b,a).

직접 예측 방법은 명시적인 후보 세그먼트를 생성하는 것을 피하고, 대신 비디오와 문장 feature 간의 상호작용 학습을 통해 타겟 순간을 직접 예측하는 데 중점을 둔다 (Zhang et al. 2020a; Mun, Cho, and Han 2020). 일부 방법은 attention mechanism 설계 (Zeng et al. 2021), salient feature 분석 (Liu et al. 2022a; Liu, Qu, and Hu 2022), 그리고 모델 일반화 능력 향상 (Liu et al. 2024; Li et al. 2022; Mun, Cho, and Han 2020)을 통해 VMR 성능을 개선한다.

VMR의 발전에도 불구하고, 비효율적인 fine-grained semantic understanding, semantic overlap, 그리고 sparse constraints와 같은 도전 과제들이 남아있다. 이러한 문제들을 해결하기 위해, 우리는 semantic concept decomposition을 사용하여 복잡한 멀티모달 데이터를 명확한 semantic concept으로 매핑하는 모델을 제안한다. pseudo-label과 adaptive threshold를 활용하여, 시각 및 언어 요소의 정렬(alignment)을 개선하고, 레이블이 없는 순간들을 처리하며, VMR 성능을 향상시키는 것을 목표로 한다.

Cross-modal Alignment
최근 contrastive learning은 cross-modal alignment task에서 상당한 성공을 거두었다 (Khosla et al. 2020; Wei et al. 2024a). 예를 들어, text-image (Luo et al. 2023; Wei et al. 2020, 2024b) 및 text-video retrieval (Wang, Zhu, and Yang 2021; Ma et al. 2022; Wei et al. 2021a)과 같은 task에서, contrastive learning은 긍정 및 부정 샘플을 선택하거나 데이터 증강을 사용하여 시각 및 텍스트 모달리티의 공동 표현(joint representations)을 학습하고, 표현 간의 상호 정보(mutual information)를 최대화한다 (Hjelm et al. 2018). 일부 접근 방식은 계층적 표현(hierarchical representations)을 채택하여 비디오와 텍스트 간의 정렬을 학습했지만 (Jin et al. 2023; Chen et al. 2020), 주로 쿼리 분석에 의존한다. VMR task에서는 일부 방법이 causal reasoning (Nan et al. 2021), geodesic distance (Li et al. 2023)를 도입하거나, contrastive learning에서 순간의 맥락(context of moments)을 고려하여 정확도를 향상시킨다 (Jung et al. 2023).

Figure 2: 제안하는 **Concept Decomposition Transformer (CDTR)**의 개요. 모델은 concept decomposition module을 통해 clip-level 및 word-level concept representation을 추출하는 동시에, 이러한 concept representation을 희소화(sparsify)하기 위한 쿼리 관련성(query relevance)을 생성한다. 그 후, annotated data는 moment-query level에서 concept space alignment를 감독하는 데 사용된다. 이어서 sparse merge module은 **쿼리 관련성을 가진 관련 concept에 초점을 맞춘 feature들을 집계(aggregate)**한다. Concept representation은 모든 순간에 대한 pseudo-label로 활용되어, 특정 concept에 대한 긍정 및 부정 샘플을 식별하는 데 도움을 준다. CDTR은 concept extraction을 통해 얻은 conceptual component의 contrastive learning을 통해 비디오 intra-modal 및 textual-visual cross-modal 맥락 모두에서 fine-grained concept alignment를 가능하게 한다.

Methodology

Problem Formulation

주어진 untrimmed video를 $V$ , 문장 query를 $Q$ 라고 하자. 비디오는 $V=\left\{f_{i}\right\}_{i=1}^{N_{f}}$ 로 표현되며, 여기서 $N_{f}$ 는 프레임 수를 나타낸다. 문장 query는 $Q=\left\{w_{i}\right\}_{i=1}^{N_{w}}$ 로 표현되며, $N_{w}$ 는 단어 수를 나타낸다. VMR(Video Moment Retrieval)의 목표는 query $Q$ 와 의미적으로 일치하는 $V$ 내의 타겟 비디오 순간을 지역화(localize)하는 것이다. 이 과정은 시작 및 종료 타임스탬프 $\left(t_{s}, t_{e}\right)$ 를 예측하는 것을 포함한다.

Overview

Fig. 2는 CDTR의 아키텍처를 보여준다. 먼저, 텍스트 및 비디오 인코더를 통해 클립 레벨(clip-level) 및 단어 레벨(word-level) feature 표현이 추출된다. 다음으로, concept decomposition을 통해 concept representation이 생성되고, 가장 관련성 높은 concept dimension에 집중하여 concept representation을 희소화(sparsify)하기 위한 query relevance vector가 생성된다. **주석된 정보(annotated information)**는 문장-순간 레벨(sentence-moment level) concept space alignment에 사용되어, 데이터 내의 **세분화된 의미론적 concept들을 분리(disentangle)**한다.

이후 sparse merge module은 concept representation들을 통합하고, 비디오 intra-modal 및 텍스트-비디오 cross-modal fine-grained alignment가 적용되어 순간(moment)과 쿼리 내의 세분화된 concept들을 이해한다. 구체적으로, 비디오 순간의 concept representation은 positive 및 negative sample을 선택하기 위한 pseudo-label로 사용되며, concept extraction은 feature representation의 특정 개념적 구성 요소를 분리한다. Contrastive learning은 비디오와 텍스트에서 의미론적으로 유사한 concept들을 더 가깝게 만든다. Cross-attention을 통해 cross-modal interaction이 이루어지며, sequential attention mechanism은 interaction 후 더 중요한 feature에 집중하고, 최종적으로 moment decoder를 통해 타겟 순간(target moment)을 예측한다.

Feature Extractors

대부분의 기존 VMR 방법들(Liu et al. 2024; Moon et al. 2023b)에 따라, 우리는 고정된 feature extractor를 사용하여 원본 데이터로부터 사전 추출된 feature를 얻는다. 이는 각각 비디오 $V$ 와 쿼리 $Q$ 의 의미론(semantics)을 포착하기 위함이다. 일반적으로 feature encoder는 video encoder와 text encoder로 나뉜다. 우리는 MLP를 사용하여 추출된 비디오 feature와 쿼리 feature를 공통 공간(common space)으로 매핑한다.
획득된 비디오 feature는 $\mathcal{F}_{v} \in \mathbb{R}^{N_{t} \times D}$ 로 표현될 수 있으며, 여기서 $N_{t}$ 는 비디오 클립의 수, $D$ 는 feature의 차원을 나타낸다. 쿼리 feature는 $\mathcal{Q}=\left\{q_{n}\right\}_{n=1}^{N_{w}} \in \mathbb{R}^{N_{w} \times D}$ 로 표현될 수 있다.

Concept Decomposition

우리는 **개념 분해(concept decomposition)**를 통해 입력을 **개념 공간 표현(concept space representations)**으로 변환한다. 활용되는 개념을 위해, 우리는 BERT tokenizer (Kenton and Toutanova 2019)의 어휘를 사용하여 다양한 개념을 표현하고, SpellChecker 라이브러리를 이용해 철자 검사를 수행한다. 최종 개념 라이브러리는 17,533개의 사용 가능한 단어로 구성되며, 이를 $C=\left\{c_{i}\right\}_{i=1}^{N_{s}}$ 로 표기한다. 여기서 $N_{s}$ 는 $\|C\|$ 를 나타내며, 그 값은 17,533이다. 이어서, CLIP text encoder를 사용하여 개념 라이브러리의 각 단어에 대한 고차원 벡터를 도출한다. 최종 개념 벡터 집합은 $\left\{S\left(c_{i}\right)\right\}_{i=1}^{N_{s}}$ 로 표현되며, 여기서 $S\left(c_{i}\right)$ 는 쿼리 관련성(query relevance) 및 개념 정렬(concept alignment)을 위한 $E$ -차원 개념 벡터를 의미한다.

구체적으로, 우리는 **비디오 및 텍스트 feature를 개념 공간으로 분리(disentangle)**한다. 비디오 feature의 경우, 개념 분해 전에 여러 self-attention을 포함하는 semantic mining 모듈을 사용하여 입력 비디오 $\mathcal{F}_{v}$ 에서 **의미론적 정보(semantic information)**를 추출하여 $\mathcal{V}=\left\{v_{t}\right\}_{t=1}^{N_{t}} \in \mathbb{R}^{N_{t} \times D}$ 를 얻는다. 그런 다음, 비디오의 각 클립 feature는 **개념 분해(concept decomposition)**를 사용하여 $N_{s}$ 차원의 개념 표현으로 분해되며, 개념 표현의 각 값은 해당 단어 개념과의 관련성을 정량화한다. 유사하게, 쿼리 feature도 개념 분해를 사용하여 텍스트 개념 표현으로 분해된다.

**개념 분해 모듈(concept decomposition module)**은 정규화(normalization), 매핑(mapping), 활성화(activation) layer를 포함한다. 비디오 클립 또는 쿼리 feature의 경우 다음과 같이 표현할 수 있다:

\mathcal{V}_{d}=\psi\left(\operatorname{norm}(\mathcal{V}) \cdot W_{v}\right), \mathcal{Q}_{d}=\psi\left(\operatorname{norm}(\mathcal{Q}) \cdot W_{q}\right)

여기서 $\mathcal{V}_{d} \in \mathbb{R}^{N_{t} \times N_{s}}, \mathcal{Q}_{d} \in \mathbb{R}^{N_{w} \times N_{s}}$ 이며, $\operatorname{norm}(\cdot)$ 은 layer normalization을 나타내고, $W_{v}, W_{q} \in \mathbb{R}^{D \times N_{s}}$ 는 **학습 가능한 매핑 행렬(learnable mapping matrix)**이며, $\psi(\cdot)$ 는 softplus 함수를 나타낸다.

쿼리 관련성 벡터 (Query Relevance Vector)
일반적으로 개념 세트 내 개념의 의미는 쿼리 및 시각 feature에 비해 너무 풍부하다. 따라서 feature 간의 유사성을 평가하는 데 어떤 차원이 더 많이 기여해야 하는지 결정하기 위해 얻어진 개념 표현을 **희소화(sparsify)**해야 한다. 구체적으로, 우리는 쿼리 $Q$ 를 기반으로 쿼리 관련성 $R$ 을 생성한다. 쿼리 관련성 $R(Q) \in \mathbb{R}^{N_{s}}$ 는 쿼리 $Q$ 와 개념 표현 내 해당 단어 간의 상관관계를 나타낸다. 쿼리 내 단어는 제한적이며 더 많은 관련 개념을 유도할 수 없으므로, 우리는 쿼리 내 단어와 가장 관련성이 높은 개념을 식별하여 개념 세트를 구성한다:

R(Q)[i]= \begin{cases}\max _{c_{n} \in Q} \cos \left(S\left(c_{n}\right), S\left(c_{i}\right)\right) & \text { if } c_{i} \in \operatorname{top}_{L}\left(c_{n}\right), \forall c_{n} \in Q \\ 0 & \text { otherwise }\end{cases}

여기서 $\cos (\cdot)$ 은 **코사인 유사도(cosine similarity)**를 나타내고, $\operatorname{top}_{L}\left(c_{n}\right)$ 은 $\cos (\cdot)$ 을 기반으로 $c_{n}$ 과 가장 관련성이 높은 상위 L개 개념을 나타낸다.

개념 공간 정렬 (Concept Space Alignment)
우리는 배치에서 클립 수준 개념 표현을 포함하는 모든 순간(즉, $\mathcal{V}_{d}$ 내의 GT 순간 및 비-GT 순간)을 $\left\{\mathcal{M}^{b}\right\}_{b=1}^{B}$ 로 나타내고, $\mathcal{M}^{g}$ 는 쿼리 $Q$ 에 해당하는 GT 순간의 개념 표현을 나타낸다. max pooling을 사용하여 순간 및 쿼리의 개념 표현을 $N_{s}$ -차원 **전역 개념 표현(global concept representations)**으로 집계한다. 관련 의미론에서 순간 수준 및 쿼리 수준 개념 표현 간의 유사성은 다음과 같이 계산된다:

\operatorname{sim}(\mathcal{M}, \mathcal{Q})=\pi(\mathcal{M}) \cdot \pi(\mathcal{Q}) \cdot R(Q)

여기서 $\mathcal{M}$ 과 $\mathcal{Q}$ 는 각각 순간과 쿼리의 개념 표현을 나타내고, $\pi$ 는 max pooling 연산을 나타낸다. 양식(modalities) 간의 세분화된 개념 표현(fine-grained concept representations)을 정렬하기 위해, 우리는 주석된 순간을 기반으로 contrastive loss를 사용하여 모델을 감독한다:

\begin{gathered} \mathcal{L}_{c s a}=-\sum_{\mathcal{Q} \in \mathbb{Q}} \log p\left(\mathcal{M}^{g} \mid \mathcal{Q}\right)-\sum_{\mathcal{M} \in \mathbb{M}^{g}} \log p\left(\mathcal{Q}^{g} \mid \mathcal{M}\right) \\ p\left(\mathcal{M}^{g} \mid \mathcal{Q}\right)=\frac{\exp \left(\operatorname{sim}\left(\mathcal{M}^{g}, \mathcal{Q}\right) / \tau\right)}{\sum_{\mathcal{M}^{b} \in \mathbb{M}} \exp \left(\operatorname{sim}\left(\mathcal{M}^{b}, Q\right) / \tau\right)} \\ p\left(\mathcal{Q}^{g} \mid \mathcal{M}\right)=\frac{\exp \left(\operatorname{sim}\left(\mathcal{M}, \mathcal{Q}^{g}\right) / \tau\right)}{\sum_{\mathcal{Q}^{b} \in \mathbb{Q}} \exp \left(\operatorname{sim}\left(\mathcal{M}, Q^{b}\right) / \tau\right)} \end{gathered}

여기서 $\mathbb{M}$ 과 $\mathbb{Q}$ 는 각각 학습 배치 내 비디오 순간 및 문장 쿼리의 개념 표현이다. $\mathbb{M}^{g}$ 는 ground truth 세트의 순간을 나타낸다. $\mathcal{M}^{g}$ 와 $\mathcal{Q}^{g}$ 는 현재 $\mathcal{Q}$ 와 $\mathcal{M}$ 에 매칭되는 비디오 순간 및 문장 쿼리에 해당한다. 또한, 비활성 차원(inactive dimensions)은 적절한 감독을 보장하기 위해 순차적으로 활성화된다.

Fine-grained Concept Alignment

우리는 sparse merge module을 통해 sparse concept representation을 다음과 같이 통합한다:

\widehat{\mathcal{V}}=\operatorname{MLP}\left(\mathcal{V}_{d} \cdot R(Q)\right)+\mathcal{V}, \quad \widehat{\mathcal{Q}}=\operatorname{MLP}\left(\mathcal{Q}_{d} \cdot R(Q)\right)+\mathcal{Q} .

비디오 내의 세분화된(fine-grained) 의미론적 내용을 완전히 활용하기 위해, 우리는 얻어진 fine-grained concept representation을 pseudo-label로 사용하여 feature $\widehat{\mathcal{V}}$ 와 $\widehat{\mathcal{Q}}$ 의 개별 semantic concept 구성 요소를 정렬한다. 이 fine-grained concept alignment는 두 부분으로 나뉜다: video intra-modal alignment와 textual-visual cross-modal alignment.

Video Intra-modal Alignment.
우리는 먼저 $\pi\left(\mathcal{M}^{g}\right)$ 에서 가장 높은 값을 가진 상위 K개의 semantic concept을 선택하며, 이를 $C^{g}=\left\{c_{k}^{g}\right\}_{k=1}^{K}$ 로 표기한다. 우리는 다른 비디오 순간들(non-GT 및 다른 비디오 순간들)의 global concept representation을 pseudo-label로 사용하여 특정 concept $c_{k}^{g}$ 에 대한 긍정(positive) 및 부정(negative) 샘플을 선택한다.
우리는 적응형 concept-specific threshold를 채택한다:

해당 비디오 순간이 threshold $\rho^{+}\left(c_{k}^{g}\right)$ 를 초과하면, 그 순간은 semantic $c_{k}^{g}$ 에 대한 긍정 샘플이다.
threshold $\rho^{-}\left(c_{k}^{g}\right)$ 미만으로 떨어지면, 부정 샘플이다.

적응형 concept-specific threshold는 각 epoch에서 모든 비디오 순간의 global concept representation을 분석하여 설정된다. 각 concept에 대해, 평균에 1 표준편차를 더한 값보다 큰 샘플은 긍정 샘플이고, 평균에서 1 표준편차를 뺀 값보다 작은 샘플은 부정 샘플이다. 분류의 어려움으로 인한 모호한 pseudo-label은 semantic 혼란을 야기할 수 있으므로, 중간 부분은 무시해야 한다.

다음으로, 우리는 $\widehat{\mathcal{V}}$ 에서 모든 순간에 해당하는 clip feature를 추출하고, 선형 매핑(linear mapping) 후 pooling을 적용하여 모든 순간의 $E$ -차원 global representation $\left\{\widehat{M}^{b}\right\}_{b=1}^{B}$ 를 얻는다. 그런 다음, $C^{g}$ 내의 concept에 대한 이 feature들의 contrastive loss를 계산하여 fine-grained concept alignment를 달성하며, 이는 다음과 같이 표현된다:

\begin{aligned} & \mathcal{L}_{v i a}=-\sum_{c \in C^{g}} \log \left(\frac{\sum_{\widehat{M}^{i} \in \mathbb{P}_{c}} \exp \left(\operatorname{csim}\left(\widehat{M}^{g}, \widehat{M}^{+}, S(c)\right) / \tau\right)}{\sum_{\widehat{M}^{b} \in \mathbb{P}_{c}+\mathbb{N}_{c}} \exp \left(\operatorname{csim}\left(\widehat{M}^{g}, \widehat{M}^{b}, S(c)\right) / \tau\right)}\right) \\ & \operatorname{csim}\left(\widehat{M}^{g}, \widehat{M}^{b}, S(c)\right)=\frac{\left(\widehat{M}^{g} \odot S(c)\right) \cdot\left(\widehat{M}^{b} \odot S(c)\right)}{\left\|\widehat{M}^{g} \odot S(c)\right\|_{2} \cdot\left\|\widehat{M}^{b} \odot S(c)\right\|_{2}} \end{aligned}

여기서 $\operatorname{csim}(\cdot)$ 은 concept extraction 기반의 유사도를 나타내고, $\odot$ 는 concept extraction을 위한 Hadamard product를 나타낸다 (Wei et al. 2021b; Ge et al. 2021). 이는 특정 semantic에 대한 두 입력 feature의 유사도를 평가하는 데 사용된다. $\mathbb{P}_{c}$ 와 $\mathbb{N}_{c}$ 는 각각 concept $c$ 에 대한 긍정 및 부정 순간을 나타낸다. $S(c)$ 는 앞서 언급된 concept vector를 의미한다. $\tau$ 는 contrastive loss의 temperature parameter를 나타낸다.

Textual-visual Cross-modal Alignment.
우리는 비디오 순간의 fine-grained concept를 sentence query와 정렬한다. query의 단어들은 sparse하고 명시적이기 때문에, query $Q=\left\{w_{i}\right\}_{i=1}^{N_{w}}$ 의 모든 단어는 정렬될 semantic concept으로 직접 사용된다. 우리는 적응형 concept-specific threshold를 통해 순간의 긍정 및 부정 샘플을 결정하고 (query에 해당하는 GT 순간은 모든 concept에 대한 긍정 샘플이다), cross-modal contrastive loss를 계산한다:

\mathcal{L}_{t c a}=-\sum_{w \in Q} \log \left(\frac{\sum_{\widehat{M}^{i} \in \mathbb{P}_{w}} \exp \left(\operatorname{csim}\left(\widehat{Q}(w), \widehat{M}^{i}, S(w)\right) / \tau\right)}{\sum_{\widehat{M}^{b} \in \mathbb{P}_{w}+\mathbb{N}_{w}} \exp \left(\operatorname{csim}\left(\widehat{Q}(w), \widehat{M}^{b}, S(w)\right) / \tau\right)}\right),

여기서 $\widehat{Q}(w)$ 는 query에서 concept $w$ 의 해당 위치에 있는 textual feature를 나타낸다.

Fusion and Prediction

비디오 feature $\widehat{\mathcal{V}}$ 와 텍스트 feature $\widehat{\mathcal{Q}}$ 는 cross-attention 메커니즘을 통해 융합되어, 집계된 feature $\mathcal{F} \in \mathbb{R}^{N_{t} \times D}$ 를 생성한다.
이후 self-attention이 적용되어 feature $\mathcal{F}_{a}$ 를 얻고, sequential attention 모듈이 쿼리 관련 feature에 더 집중하도록 사용된다. 이는 다음과 같이 표현된다:

\begin{gathered} \alpha=\sigma\left(\operatorname{MLP}\left(\mathcal{F}_{a}\right)\right) \in \mathbb{R}^{N_{t}}, \\ \mathcal{F}_{e x}=\alpha \cdot \mathcal{F}_{a}, \end{gathered}

여기서 $\sigma(\cdot)$ 는 sigmoid 함수를 나타낸다. $\mathcal{F}_{e x} \in \mathbb{R}^{N_{t} \times D}$ 는 sequential attention이 추가된 후의 temporal feature이다. 우리는 binary cross-entropy를 사용하여 attention $\alpha$ 가 쿼리에 정렬된(query-aligned) 콘텐츠에 더 집중하도록 제약한다:

\mathcal{L}_{s a}=-\frac{1}{N_{t}} \sum_{i=1}^{N_{t}}\left(\bar{\alpha}_{i} \log \alpha_{i}+\left(1-\bar{\alpha}_{i}\right) \log \left(1-\alpha_{i}\right)\right)

여기서 $\bar{\alpha}_{i}$ 는 클립이 쿼리에 해당하는 GT moment에 포함되면 1로 설정되고, 그렇지 않으면 0으로 설정된다.

마지막으로, feature $\mathcal{F}_{e x}$ 는 비디오 moment 예측을 위한 moment decoder에 입력된다. 우리는 moment 예측 과정에서 멀티모달 feature를 효과적으로 사용하기 위해 학습 가능한 span (Liu et al. 2021b)을 도입한다. moment decoder는 moment embedding을 쿼리로 직접 사용하여, span을 업데이트함으로써 타겟 moment를 예측하기 위해 $\mathcal{F}_{e x}$ 를 효과적으로 활용한다. moment retrieval loss는 다음과 같이 표현될 수 있다:

\mathcal{L}_{m r}=\lambda_{\text {iou }} \mathcal{L}_{\text {iou }}(m, \bar{m})+\lambda_{L 1}\|m-\bar{m}\|_{1}+\lambda_{c e} \mathcal{L}_{c e}(y, \bar{y}),

여기서 $m$ 과 $\bar{m}$ 은 각각 예측된 moment와 ground truth moment를 나타낸다. $\mathcal{L}_{i o u}$ 는 generalized IoU loss (Rezatofighi et al. 2019)를 사용하며, $y$ 와 $\hat{y}$ 는 각각 예측된 moment와 ground truth moment의 foreground 및 background에 대한 confidence score를 나타낸다 (Carion et al. 2020). $\lambda_{i o u}, \lambda_{L 1}, \lambda_{c e}$ 는 균형을 맞추는 하이퍼파라미터이다.

Method	R1		mAP
	@0.5	@0.7	@0.5	@0.75	Avg.
Results on Test Split
MCN	11.41	2.72	24.94	8.22	10.67
CAL	25.49	11.54	23.40	7.65	9.89
XML	41.83	30.35	44.63	31.73	32.14
XML+	46.69	33.46	47.89	34.67	34.90
M-DETR	52.89	33.02	54.82	29.40	30.73
UMT	56.23	41.18	53.83	37.01	36.12
QD-DETR	62.40	44.98	62.52	39.88	39.86
UniVTG	58.86	40.86	57.60	35.59	35.47
MomentDiff	57.42	39.66	54.02	35.73	35.95
BM-DETR	60.12	43.05	63.08	40.18	40.08
MESM	62.78	45.20	62.64	41.45	40.68
UVCOM	63.55	47.47	63.37	42.67	43.18
CDTR(Ours)	65.79	49.60	66.44	45.96	44.37
Results on Val Split
M-DETR	53.94	34.84	-	-	32.20
UMT	60.26	44.26	-	-	38.59
QD-DETR	62.68	46.66	62.23	41.82	41.22
EaTR	61.36	45.79	61.86	41.91	41.74
UniVTG	59.74	-	-	-	36.13
UVCOM	65.10	51.81	-	-	45.79
TaskWeave	64.26	50.06	65.39	46.47	45.38
CDTR(Ours)	68.03	52.68	66.62	46.97	45.85

Table 1: C+SF feature를 사용한 QVHighlights test split 및 val split에서의 성능 비교.

따라서 CDTR의 최종 loss는 다음과 같이 표현될 수 있다:

\mathcal{L}=\mathcal{L}_{m r}+\lambda_{h l} \mathcal{L}_{h l}+\lambda_{c s a} \mathcal{L}_{c s a}+\lambda_{f a}\left(\mathcal{L}_{v i a}+\mathcal{L}_{t c a}\right)+\lambda_{s a} \mathcal{L}_{s a}

여기서 $\lambda_{c s a}, \lambda_{h l}, \lambda_{f a}, \lambda_{s a}$ 는 하이퍼파라미터이다.

Experiments

Datasets and Evaluation

데이터셋 (Datasets)
우리는 제안하는 방법을 널리 사용되는 세 가지 데이터셋인 QVHighlights (Lei, Berg, and Bansal 2021), Charades-STA (Sigurdsson et al. 2016), TACoS (Regneri et al. 2013) 에 대해 평가한다.
QVHighlights 데이터셋은 10,148개의 풍부한 콘텐츠를 가진 YouTube 비디오로 구성되며, 각 비디오에는 특정 순간을 강조하는 수동으로 주석된 텍스트 쿼리가 하나 이상 포함되어 있다. 공정한 평가를 위해 테스트 세트 주석은 접근할 수 없으며, 예측 결과는 평가를 위해 QVHighlights CodaLab 경쟁 플랫폼에 업로드되어야 한다.
Charades-STA 데이터셋은 Charades 데이터셋에서 파생되었으며, 일상적인 실내 활동을 담은 9,848개의 비디오와 16,128개의 사람이 태그한 쿼리 텍스트를 포함한다. 우리는 12,408개의 샘플을 학습에, 3,720개를 테스트에 사용한다.
TACoS 데이터셋은 요리 활동의 장기 비디오를 포함하며, 평가를 위한 다양한 시나리오를 제공한다.

평가 지표 (Evaluation Metrics)
우리의 평가는 Recall@1 (IoU $\in\{0.5,0.7\}$ ), 다양한 임계값에서의 mean Average Precision (mAP), 그리고 **mean Intersection over Union (mIoU)**을 사용한다. Recall@1은 IoU가 임계값 이상인 상위 1개 예측 순간의 비율을 측정한다. mAP는 IoU 임계값에 걸쳐 평균 정밀도를 계산하며, mIoU는 모든 테스트 샘플에 대해 ground-truth 주석과의 평균 IoU를 계산한다.

Method	R1			mIoU
2D-TAN	58.76	46.02	27.50	41.25
VSLNet	60.30	42.69	24.14	41.58
M-DETR	65.83	52.07	30.59	45.54
MomentDiff	-	55.57	32.42	-
QD-DETR	-	57.31	32.55	-
UniVTG	70.81	58.01	35.65	50.10
TR-DETR	-	57.61	33.52	-
UVCOM	-	59.25	36.64	-
CDTR(Ours)	71.16	60.39	37.24	50.65

Table 2: Charades-STA 데이터셋에 대한 C+SF feature를 사용한 비교.

Method	Feat	R1
		@0.5	@0.7
2D-TAN	VGG	40.94	22.85
DRN	VGG	42.90	23.68
CBLN	VGG	47.94	28.22
FVMR	VGG	42.36	24.14
SSRN	VGG	46.72	27.98
DCM	VGG	47.80	28.00
UMT	VGG	48.31	29.25
QD-DETR	VGG	52.77	31.13
BM-DETR	VGG	56.91	36.24
TR-DETR	VGG	53.47	30.81
CDTR(Ours)	VGG	56.93	36.20

Table 3: Charades-STA 데이터셋에 대한 VGG feature를 사용한 비교.

구현 세부 사항 (Implementation Details)
실험에서는 비디오 feature로 CLIP + SlowFast (C+SF) (Radford et al. 2021; Feichtenhofer et al. 2019) 및 **VGG (Simonyan and Zisserman 2014)**를 사용하고, 쿼리 feature로는 **CLIP (Radford et al. 2021)**을 사용한다. hidden dimension은 256으로 설정된다.
QVHighlights 및 Charades-STA의 경우, **batch size는 32, 학습 epoch는 300, learning rate는 $1 \mathrm{e}-4$ **를 사용한다.
TACoS의 경우, **batch size는 32, epoch는 300, learning rate는 $2 \mathrm{e}-4$ **이다.
파라미터 $L$ 과 $K$ 는 각각 10과 5로 설정된다. 60 epoch 학습 후 fine-grained loss를 추가한다.
weight decay $1 \mathrm{e}-4$ 를 가진 Adam optimizer가 사용된다.

Comparison with the State-of-the-Art Methods

State-of-the-art 방법들은 다음과 같다: 2D-TAN (Zhang et al. 2020b), VSLNet (Zhang et al. 2020a), MCN (Anne Hendricks et al. 2017), CAL (Victor et al. 2019), XML (Lei et al. 2020), XML+ (Lei et al. 2020), DRN (Zeng et al. 2020), CBLN (Liu et al. 2021a), FVMR (Gao and Xu 2021), SSRN (Zhu et al. 2022), DCM (Yang et al. 2021), M-DETR (Lei, Berg, and Bansal 2021), UMT (Liu et al. 2022b), QD-DETR (Moon et al. 2023b), UniVTG (Lin et al. 2023), MomentDiff (Li et al. 2024b), BM-DETR (Jung et al. 2023), MESM (Liu et al. 2024), UVCOM (Xiao et al. 2024), TaskWeave (Yang et al. 2024), 그리고 TR-DETR (Sun et al. 2024).

Method	$@ 0.3$	R1	$@ 0.5$	$@ 0.7$
	mIoU
2D-TAN	40.01	27.99	12.92	27.22
VSLNet	35.54	23.54	13.15	24.99
M-DETR	37.97	24.67	11.97	25.49
MomentDiff	44.78	33.68	-	-
UniVTG	51.44	34.97	17.35	33.60
UVCOM	-	36.39	23.32	-
CDTR(Ours)	$\mathbf{5 3 . 4 1}$	$\mathbf{4 0 . 2 6}$	$\mathbf{2 3 . 4 3}$	$\mathbf{3 7 . 2 8}$

Table 4: C+SF feature를 사용한 TACoS 데이터셋 비교.

CD	VIA	TCA	SAT	R1 @0.5	R1 @ 0.7	mAP
				59.35	44.28	38.05
$\checkmark$				62.19	47.22	41.06
$\checkmark$	$\checkmark$			62.74	48.77	42.51
$\checkmark$		$\checkmark$		63.99	49.19	43.02
$\checkmark$	$\checkmark$	$\checkmark$		64.72	50.59	43.57
$\checkmark$			$\checkmark$	63.98	48.94	42.65
$\checkmark$	$\checkmark$		$\checkmark$	64.49	50.27	43.01
$\checkmark$		$\checkmark$	$\checkmark$	65.24	50.39	44.52
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$

Table 5: concept decomposition (CD), video intra-modal alignment (VIA), textual-visual cross-modal alignment (TCA), 그리고 sequential attention (SAT)에 대한 ablation study.

QVHighlights. QVHighlights 데이터셋에 대한 우리 방법의 성능은 Table 1에 나타나 있다. 비디오 내의 세분화된 개념(fine-grained concepts)에 대한 포괄적인 이해 덕분에, 우리 CDTR 모델은 새로운 state-of-the-art 성능을 달성하며 모든 지표에서 상당한 이점을 보여준다. 특히, test split에서 CDTR은 모든 지표에서 UVCOM을 평균 2.38% 능가한다. val split에서도 CDTR은 모든 지표에서 TaskWeave를 능가하며, 특히 R1@0.5에서 3.77%, R1@0.7에서 2.62% 더 높은 성능을 보인다.

Charades-STA. Charades-STA 벤치마크에 대한 결과는 Table 2에 제시되어 있다. CDTR은 CLIP + SlowFast feature를 사용하는 state-of-the-art 방법들을 모든 지표에서 능가한다. 특히, R1@0.7에서 UVCOM을 0.80% 초과한다. 또한, Table 3에 나타난 바와 같이 VGG feature를 사용하여 우리 모델의 성능을 평가했다. CDTR은 R1@0.5에서 state-of-the-art 결과를 달성했으며, R1@0.7에서는 BM-DETR에 약간 뒤처지는 두 번째로 우수한 성능을 보인다.

TACoS. CLIP + SlowFast feature를 사용한 TACoS 데이터셋에 대한 CDTR의 성능은 Table 4에 나타나 있다. CDTR은 모든 지표에서 상당한 개선을 이루었으며, 특히 R1@0.5에서 UVCOM 모델을 3.87% 앞선다. CDTR은 모든 지표에서 기존 방법들을 능가하며, 세분화된 정렬(fine-grained alignment) 및 cross-modal matching에서의 효과를 입증한다.

Figure 3: 쿼리 및 클립의 개념 표현에 대한 결과 시각화 및 워드 클라우드.

Concept Extraction	R1	R1	mAP
	$@ 0.5$	$@ 0.7$
No Extraction	61.98	43.42	39.63
Vector Projection	65.31	51.71	42.40
Hadamard Product	$\mathbf{6 8 . 0 3}$	$\mathbf{5 2 . 6 8}$	$\mathbf{4 5 . 8 5}$

Table 6: Concept extraction에 대한 ablation study.

Method	R1	R1	mAP
	$@ 0.5$	$@ 0.7$
w/o Query Relevance	65.12	50.43	43.71
w/o Semantic Mining	66.85	51.78	44.05
Full Model	$\mathbf{6 8 . 0 3}$	$\mathbf{5 2 . 6 8}$	$\mathbf{4 5 . 8 5}$

Table 7: 다른 구성 요소에 대한 ablation study.

Ablation Study

각 구성 요소의 효과를 검증하기 위해, 우리는 QVHighlights val split에 대해 ablation study를 수행하였다.

주요 Ablation (Main Ablation)
우리는 모델의 다양한 구성 요소를 통합한 여러 baseline 모델을 구축했으며, 그 결과는 Table 5에 제시되어 있다. 구체적으로, concept decomposition과 그에 따른 loss function의 사용은 baseline 대비 R1@0.5를 2.84% 향상시키는 상당한 개선을 가져왔다. VIA(Video-to-Concept Alignment) 및 TCA(Text-to-Concept Alignment)와 같은 fine-grained concept alignment의 포함 또한 상당한 성능 향상으로 이어졌다. 특히, cross-modal TCA가 개선에 더 크게 기여했다. 예를 들어, R1@0.5에 대한 6, 7, 8행을 비교하면, TCA의 추가는 1.26%의 증가를 가져온 반면, VIA는 0.51% 증가에 그쳤다. 이는 cross-modal context에서의 fine-grained 정보가 더 중요함을 시사한다. Sequential attention은 모델이 관련 콘텐츠에 더 집중하도록 하여 성능을 향상시켰다. 모든 모듈이 통합되었을 때 가장 좋은 결과를 얻었다.

Concept Extraction
fine-grained concept alignment에서 우리는 feature 추출을 위해 Hadamard product를 사용한다. Table 6은 dot product projection 및 no processing을 포함한 다양한 방법들을 비교한다. Hadamard product는 semantic concept 표현을 향상시켜 우수한 성능을 달성한다. Dot product는 다차원 표현이 부족하여 더 약한 결과를 보였고, no processing은 semantic 혼란을 야기하여 상당한 성능 저하를 초래했다.

기타 구성 요소 (Other Components)
Table 7은 query relevance vector와 비디오 인코더 이후의 semantic mining이 성능에 미치는 영향을 보고한다. 분명히, 병합 및 유사도 계산 시 query relevance vector를 추가하는 것은 관련 semantic concept에 집중함으로써 정확도를 향상시킨다. 또한, 비디오 인코더 이후의 semantic mining은 비디오 내의 복잡한 temporal semantics를 포착하여 concept decomposition의 정확도와 전반적인 성능을 향상시킨다.

Qualitative Analysis

Fig. 3에서는 쿼리(query)와 클립(clip)의 개념 표현에 대한 결과 및 워드 클라우드를 시각화하여 보여준다. 제안된 모델은 비디오와 쿼리 모두에서 관련 개념에 효과적으로 집중한다. 또한, ground truth 클립은 쿼리와 관련된 더 많은 개념을 포함하고 있으며, 이는 제안된 개념 분해(concept decomposition) 및 세분화된 매칭(fine-grained matching)이 복잡한 비디오 의미론을 효과적으로 분리함을 보여준다. 성능 면에서 CDTR은 MESM보다 ground truth에 더 가깝게 정렬된다.

Conclusion

본 논문은 VMR(Video Moment Retrieval)을 위한 새로운 Concept Decomposition Transformer (CDTR) 모델을 제안한다. CDTR 모델은 의미론적 개념 분해(semantic concept decomposition) 모듈을 도입하여 기존 VMR 방법론의 여러 중요한 문제들을 해결한다. 이 모듈은 비디오 모먼트와 문장 쿼리를 독립적인 개념 표현(concept representation)으로 분리한다. 이러한 접근 방식은 정확한 cross-modal alignment에 필수적인 세분화된 의미(fine-grained semantics)를 포착할 수 있게 한다. 분해된 개념 표현을 pseudo-label로 사용하여, 우리 모델은 비디오 양식 내에서(within the video modality) 그리고 양식 간에(across modalities) 효과적으로 세분화된 개념 정렬(fine-grained concept alignment)을 수행함으로써, 의미론적 중복(semantic overlap) 및 희소 제약(sparse constraints)과 관련된 문제들을 완화한다. QVHighlight, Charades-STA, TACoS 데이터셋에 대한 포괄적인 실험 분석을 통해, 우리는 CDTR의 성능 효과를 입증하였다.

Acknowledgments

본 연구는 중국 국가 자연과학 기금(National Natural Science Foundation of China)의 62220106008 및 62306067 보조금, 쓰촨성 과학 기술 프로그램(Sichuan Science and Technology Program)의 2024NSFSC1463 보조금, 쓰촨성 혁신 인재 박사후 연구원 지원 프로젝트(Sichuan Province Innovative Talent Funding Project for Postdoctoral Fellows)의 BX202311 프로젝트, 그리고 중국 박사후 과학 기금(China Postdoctoral Science Foundation)의 2022M720660 프로젝트의 부분적인 지원을 받았다.