Zhu, Sa, et al. "Uneven Event Modeling for Partially Relevant Video Retrieval." arXiv preprint arXiv:2506.00891 (2025). Accepted by ICME 2025

Uneven Event Modeling for Partially Relevant Video Retrieval

Sa Zhu ${ }^{1,2,3}$ Huashan Chen ${ }^{1 *}$ Wanqian Zhang ${ }^{1 *}$ Jinchao Zhang ${ }^{1,3}$ Zexian Yang ${ }^{1,2}$ Xiaoshuai Hao ${4}$ Bo $\mathrm{Li}^{1,3}$ Institute of Information Engineering, Chinese Academy of Sciences ${1}$ School of Cyber Security, University of Chinese Academy of Sciences ${2}$ State Key Laboratory of Cyberspace Security Defense ${3}$ Beijing Academy of Artificial Intelligence ${4}$ {zhusa, chenhuashan, zhangwanqian, zhangjinchao, yangzexian, libo}@iie.ac.cn

Abstract

주어진 텍스트 쿼리에 대해, **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 관련된 순간을 포함하는 untrimmed 비디오를 검색하는 것을 목표로 한다. 이때 **이벤트 모델링(event modeling)**은 비디오를 텍스트와 부분적으로 일치하는 더 작은 시간적 이벤트로 분할하는 데 매우 중요하다.
기존 방법들은 일반적으로 비디오를 고정된 수의 동일한 길이 클립으로 분할하여, 모호한 이벤트 경계를 초래한다. 또한, 이들은 평균 풀링(mean pooling)에 의존하여 이벤트 표현을 계산함으로써, 필연적으로 **원치 않는 불일치(misalignment)**를 야기한다.
이러한 문제들을 해결하기 위해, 우리는 PRVR을 위한 Uneven Event Modeling (UEM) 프레임워크를 제안한다.
먼저, 우리는 Progressive Grouped Video Segmentation (PGVS) 모듈을 도입하여, 연속적인 프레임 간의 시간적 종속성(temporal dependencies)과 의미적 유사성(semantic similarity)을 모두 고려하여 이벤트를 반복적으로 구성함으로써 명확한 이벤트 경계를 가능하게 한다.
나아가, 우리는 텍스트의 cross-attention에 조건화된 이벤트 표현을 정제하기 위해 Context-Aware Event Refinement (CAER) 모듈도 제안한다. 이는 주어진 텍스트에 대해 이벤트 표현이 가장 관련성 높은 프레임에 집중하도록 하여, **더욱 정확한 텍스트-비디오 정렬(alignment)**을 촉진한다.
광범위한 실험을 통해 우리 방법이 두 PRVR 벤치마크에서 state-of-the-art 성능을 달성함을 입증한다. 코드는 https://github.com/Sasa77777779/UEM.git에서 확인할 수 있다.

Index Terms—Video-Text Retrieval, Video Analysis, Multimodal Alignment

I. Introduction

온라인 비디오 콘텐츠의 급증과 함께, text-to-video retrieval (T2VR) [1]-[9]은 상당한 연구 주목을 받아왔다. 전통적인 T2VR 방법들은 일반적으로 비디오가 짧은 길이로 사전 편집되어 쿼리와 정확한 의미론적 정렬이 가능하다고 가정한다. 그러나 YouTube와 같은 플랫폼에서는 비디오가 종종 편집되지 않은(untrimmed) 상태로 여러 이벤트를 포함하며, 단일 텍스트 캡션은 전체 콘텐츠의 일부만을 나타낼 수 있다. 이러한 차이는 기존 T2VR 연구와 실제 응용 사이의 중요한 간극을 보여준다.

최근, **Partially Relevant Video Retrieval (PRVR)**이라는 새로운 task가 untrimmed 비디오 데이터베이스를 활용하여 개발되었다 [10]. 특히, 단일 비디오가 여러 관련 쿼리에 대응될 수 있으며, 각 쿼리는 해당 비디오 내의 특정 이벤트 하나만을 상세히 설명한다. PRVR task의 경우, 이벤트 모델링이 주요 과제로 식별되었는데, 이는 [11], [12]에서 논의된 바와 같이, 주어진 쿼리와 부분적으로 관련될 수 있는 특정 이벤트를 포착하는 더 작고 일관된 시간 단위로 비디오를 분할하는 것을 목표로 한다. 일반적으로 부분 텍스트 매칭을 위한 이벤트를 구성하기 위해, 기존 PRVR 방법들은 먼저 연속적인 프레임들을 고정된 수의 동일한 크기의 클립으로 분할하며, 각 클립은 하나의 이벤트로 간주된다. 그런 다음, 해당 프레임 feature에 mean pooling을 적용하여 이벤트 표현을 계산한다. 마지막으로, 텍스트 feature와 이벤트 수준 비디오 feature 간의 정렬을 통해 텍스트-비디오 유사도가 결정된다.

Fig. 1. PRVR task에서 이벤트 모델링을 위한 두 가지 패러다임: (a) 이전 방법들은 비디오를 고정된 수의 동일한 길이의 이벤트로 분할하고 mean pooling을 사용하여 이벤트 표현을 계산한다. 이는 Event 2와 3 사이와 같이 모호한 이벤트 경계를 초래한다. (b) 우리의 uneven event modeling은 프레임들을 여러 가변 길이 이벤트로 적응적으로 그룹화하고, 주어진 텍스트의 attention 가중치를 기반으로 이벤트 표현을 계산하여, 더 명확한 이벤트 경계와 더 정확한 텍스트-비디오 정렬을 달성한다.

이러한 이벤트 모델링 패러다임은 인상적인 결과를 달성했지만, 여전히 두 가지 문제점을 안고 있다:

각 비디오에 묘사된 이벤트의 수와 지속 시간은 크게 다르다. 비디오를 고정된 수의 동일한 길이 클립으로 직접 분할하는 것은 종종 이벤트 경계의 모호성을 초래하여, 비디오 이벤트와 텍스트 간의 혼란스러운 정렬을 야기한다. 예를 들어, Fig. 1 (a)에 나타난 바와 같이, 동일한 이벤트에 해당하는 프레임들이 여러 클립에 분산될 수 있으며, 서로 다른 이벤트를 나타내는 인접 프레임들이 동일한 클립 내에 잘못 그룹화될 수 있다.
이벤트 내에서 각 프레임이 주어진 텍스트에 대한 관련성 또한 크게 다르다. 이벤트 표현을 위해 프레임 feature를 집계하는 데 mean pooling을 단순히 활용하는 것은 텍스트와 관련 없는 불필요하거나 심지어 방해가 되는 시각 정보를 의도치 않게 인코딩하여 검색 성능을 저하시킬 수 있다.

위에서 언급된 두 가지 문제를 해결하기 위해, 본 논문에서는 PRVR task에서 이벤트 모델링을 위해 비디오 프레임을 적응적으로 클러스터링하고 집계하는 Uneven Event Modeling (UEM) 프레임워크를 제안한다. 구체적으로, 우리는 먼저 비디오를 여러 이벤트로 동적으로 분할하는 Progressive-Grouped Video Segmentation (PGVS) 모듈을 소개한다. 모든 비디오를 고정된 수의 동일한 크기 클립으로 나누는 이전 방법들과 달리, PGVS는 연속적인 프레임 간의 유사성을 평가하여 이벤트 클러스터를 반복적으로 형성한다. 이러한 시간적으로 점진적인 방식으로, PGVS는 의미론적으로 유사한 프레임들을 동일한 이벤트에 할당한다. 따라서 각 비디오에 대해 다양한 수와 지속 시간을 가진 이벤트를 적응적으로 구성할 수 있어, 의미론적 및 시간적 정보 모두에서 명확한 이벤트 경계를 제공한다. 다음으로, 우리는 주어진 텍스트의 attention 가중치에 따라 관련 프레임들을 적응적으로 집계하여 이벤트 표현을 계산하는 Context-Aware Event Refinement (CAER) 모듈을 제안한다. 텍스트에 무관한 이벤트 표현을 위해 단순히 mean pooling을 사용하는 것과 비교하여, 우리의 CAER 모듈은 이벤트가 주어진 텍스트에 가장 관련성이 높은 프레임들을 추론할 수 있도록 하여, 더 정확한 정렬을 용이하게 한다. 우리의 주요 기여는 다음과 같이 요약된다:

우리는 PRVR task에서 효과적인 이벤트 모델링을 위해 비디오 프레임을 적응적으로 클러스터링하고 집계하는 Uneven Event Modeling (UEM) 프레임워크를 설계한다.
우리는 각 비디오에 대해 다양한 수와 지속 시간을 가진 이벤트를 적응적으로 구성하여 더 명확한 이벤트 경계를 제공할 수 있는 Progressive-Grouped Video Segmentation (PGVS) 모듈을 제안한다.
이벤트 표현이 주어진 텍스트에 가장 관련성이 높은 프레임에 집중할 수 있도록 추가적으로 지원하기 위해, 우리는 주어진 텍스트의 attention 가중치에 따라 이벤트 표현을 정제하여 더 정확한 정렬을 용이하게 하는 Context-Aware Event Refinement (CAER) 모듈을 제안한다.
두 가지 널리 사용되는 벤치마크 데이터셋에 대한 광범위한 실험은 우리의 제안된 방법이 PRVR task에서 state-of-the-art 성능을 달성함을 입증한다.

**Partially Relevant Video Retrieval (PRVR)**은 주어진 쿼리에 부분적으로 관련된 untrimmed 비디오를 검색하는 것을 목표로 한다 [10]. 기존 PRVR 방법들은 다음과 같이 두 가지 방향으로 나뉜다:

서로 다른 클립 간의 상관관계를 모델링하는 데 중점을 둔다. 예를 들어, [10]은 multi-scale sliding window 전략을 적용하여 클립 임베딩을 명시적으로 상호작용시키거나, [12]는 Gaussian-Mixture Block (GMMFormer)을 도입하여 연속적인 클립 간의 관계를 암묵적으로 모델링한다.
텍스트-클립 매칭을 연구한다. 예를 들어, [11]은 텍스트와 이벤트의 할당을 최대 매칭 문제로 간주하고, 텍스트 쿼리와 관련 클립 간의 fine-grained 정렬을 위해 optimal matching loss를 도입한다.

이러한 방법들은 큰 성공을 거두었지만, 일반적으로 모든 프레임을 고정된 수의 동일한 길이 클립으로 나누어 이벤트를 구성하고, 관련 프레임들을 평균 풀링(mean pooling)하여 이벤트 표현을 계산한다. 그러나 이 방식은 이벤트 경계에 모호성을 야기하며, 심지어 텍스트 쿼리와 관련 없는 불필요한 정보까지 인코딩하는 문제가 발생한다.

**이벤트 모델링(Event Modeling)**은 일반적으로 비디오 분할을 위해 두 가지 패러다임을 사용한다: Equal Division과 K-means Clustering.

Equal Division: PRVR task에서 널리 사용되는 방식 [11]-[15]으로, 프레임을 고정된 길이의 클립으로 순차적으로 나눈다. 효율적이지만, 프레임 유사성을 무시하여 이벤트 경계가 불분명해지는 결과를 초래한다.
K-means Clustering: 프레임을 독립적인 인스턴스로 간주하여 $k$ 개의 그룹으로 클러스터링한다 [16]. 유사한 프레임을 그룹화하지만, 이벤트 내의 시간적 종속성(temporal dependencies)을 무시한다.

두 방법 모두 클러스터 수를 미리 정의해야 하므로, 이벤트 수와 지속 시간이 다양한 비디오에 대한 적응성이 제한적이다.

III. Methodology

A. Problem Formulation

주어진 비디오-텍스트 데이터셋은 untrimmed video $\mathcal{V}$ 와 텍스트 $\mathcal{T}$ 로 구성된다. 여기서 각 비디오 $v_i \in \mathcal{V}$ 는 여러 이벤트를 포함하며 여러 텍스트 설명과 연결되어 있고, 각 텍스트 설명 $t_i \in \mathcal{T}$ 는 연결된 비디오 내 특정 이벤트의 내용에 해당한다. Partially Relevant Video Retrieval (PRVR) task는 주어진 쿼리 $t^q$ 에 의미적으로 관련된 이벤트를 포함하는 비디오를 대규모 비디오 데이터베이스에서 검색하는 것을 목표로 한다.

이 목표를 달성하기 위해 우리는 Fig. 2에 나타난 바와 같이 Uneven Event Modeling (UEM) 프레임워크를 제안한다. 이 프레임워크는 주로 세 부분으로 구성된다:

text query encoding
video event modeling
partial-relevant text-video matching

이벤트 모델링을 위해 우리는 두 가지 모듈을 도입한다:

Progressive-Grouped Video Segmentation (PGVS) 모듈: 적응형 비디오 세분화를 위해 설계됨.
Context-Aware Event Refinement (CAER) 모듈: 이벤트 표현 계산을 위해 설계됨.

B. Text Query Encoding

$n_t$ 개의 단어로 구성된 문장이 주어졌을 때, 먼저 이를 CLIP의 text encoder에 입력하여 단어 토큰 임베딩 시퀀스를 얻는다. 그런 다음, ReLU 활성화 함수를 가진 fully connected (FC) layer를 사용하여 **단어 임베딩을 더 낮은 차원의 공간으로 투영(project)**한다. 이어서, 투영된 단어 임베딩에 학습 가능한 positional embedding을 추가하고, 이를 Transformer encoder layer를 통해 처리하여 **contextualized word embedding vector 시퀀스 $Q= \left\{q_{i}\right\}_{i=1}^{n_{t}}$ **를 얻는다. 여기서 $q_{i} \in \mathbb{R}^{d}$ 는 $i$ -번째 단어 feature를 나타내며, $d$ 는 feature 차원이다. 마지막으로, [10]에 따라 $Q$ 에 간단한 attention pooling 메커니즘을 적용하여 **문장 임베딩 $t \in \mathbb{R}^{d}$ **를 다음과 같이 얻는다:

t=\sum_{i=1}^{n_{t}} a_{i}^{q} q_{i}, a^{q}=\operatorname{softmax}\left(\omega Q^{T}\right)

Fig. 2. 제안하는 Uneven Event Modeling 프레임워크의 개요. 이 프레임워크는 Progressive-Grouped Video Segmentation (PGVS) 모듈과 Context-Aware Event Refinement (CAER) 모듈로 구성된다. 구체적으로, PGVS 모듈은 연속적인 프레임 간의 시간적 종속성을 활용하여 유사도 임계값 $\epsilon$ 을 통해 프레임을 여러 이벤트로 점진적으로 그룹화하며, CAER 모듈은 텍스트에 따라 프레임을 적응적으로 집계하여 이벤트 표현을 계산한다.

여기서 $\omega \in \mathbb{R}^{d}$ 는 학습 가능한 벡터이고, $a^{q} \in \mathbb{R}^{1 \times n_{t}}$ 는 attention 벡터를 나타낸다.

C. Video Event Modeling

Progressive-Grouped Video Segmentation (PGVS)
비디오를 여러 이벤트로 분할하기 위해 기존 PRVR 방법들은 모든 프레임을 고정된 수의 동일한 길이 클립으로 나눈다. 그러나 위에서 논의했듯이, 이러한 분할 접근 방식은 이벤트 수와 지속 시간이 다양한 untrimmed 비디오에 대해 최적이 아니며, 이벤트 경계에 모호성을 유발할 수 있다. K-means 알고리즘도 프레임 클러스터링에 사용될 수 있지만 [16], 이는 연속적인 프레임 간의 시간적 종속성을 무시할 뿐만 아니라, 클러스터 수를 미리 정의해야 한다는 단점이 있다. 이를 해결하기 위해 우리는 이벤트를 적응적으로 구성하는 Progressive-Grouped Video Segmentation (PGVS) 모듈을 도입한다.

구체적으로, $n_v$ 개의 프레임을 포함하는 비디오가 주어졌을 때, 우리는 먼저 사전학습된 CLIP visual encoder로 각 프레임의 시각적 feature를 추출하여, $v_F \in \mathbb{R}^{n_v \times d_v}$ 형태의 프레임 feature 시퀀스를 얻는다. 그런 다음, [10]을 따라, 학습된 positional embedding을 포함하는 표준 Transformer를 사용하여 프레임 feature의 시간적 종속성을 향상시킨다:

v_{f}=\left\{f_{i}\right\}_{i=1}^{n_{v}}=\operatorname{Transformer}\left(F C\left(v_{F}\right)+P E\right),

여기서 $PE$ 는 positional embedding을 나타내며, $v_f \in \mathbb{R}^d$ 는 각 비디오의 프레임 feature를 나타낸다.

그 후, Algorithm 1에 나타난 바와 같이, 우리는 비디오 프레임을 여러 이벤트로 점진적으로 그룹화한다. 이 과정은 이벤트 클러스터와 해당 중심의 초기화로 시작되며, 미리 정의된 유사도 임계값에 따라 프레임을 반복적으로 할당한다. 구체적으로, 프레임과 현재 이벤트 중심 간의 유사도가 임계값을 초과하면, 해당 프레임은 해당 이벤트 클러스터에 할당된다. 그렇지 않으면, 새로운 이벤트 클러스터가 생성된다. 할당 후, 이벤트 중심은 클러스터 내의 프레임을 반영하도록 재계산된다.

Algorithm 1 Progressive-Grouped Video Segmentation
Input: video frames \(v_{f}=\left\{f_{i}\right\}_{i=1}^{n_{v}}\); similarity threshold \(\epsilon\);
Output: Event cluster \(v_{e}=\left\{e_{j}\right\}_{j=1}^{n_{k}}\);
    Initialize video clusters \(v_{e}=\{ \}\); event centers \(\mu\);
    for frame \(f_{i}\) in \(v_{f}\) do
        if \(i=1\) then
            Set \(e_{1}=\left\{f_{1}\right\}, \mu=f_{1}\);
        else
            Calculate the similarity \(d\) between frame \(f_{i}\) and
            cluster center \(\mu\);
            if \(d \geq \epsilon\) then
                \(e_{j} \leftarrow e_{j} \cup\left\{f_{i}\right\} ;\)
                Update \(\mu=\left(\mu+f_{i}\right) / 2\);
            else
                \(e_{j+1}=\left\{f_{i}\right\} ; v_{e} \leftarrow e_{j} \cup e_{j+1} ;\)
                Update \(\mu=f_{i}\);
            end if
        end if
    end for

이 반복적인 절차는 모든 프레임이 할당될 때까지 계속된다. 프레임 $f_i$ 와 클러스터 중심 $\mu$ 간의 유사도는 다음과 같이 계산된다:

s\left(f_{i}, \mu\right)=\frac{f_{i} \cdot \mu}{\left\|f_{i}\right\|\|\mu\|}

다른 클러스터링 알고리즘과 비교하여, 우리의 progressive group 알고리즘은 클러스터 수를 미리 정의할 필요가 없다. 대신, 미리 정의된 유사도 임계값에 의존하며, 이 임계값을 기반으로 비디오 프레임이 반복적으로 클러스터링된다. 따라서, 각 이벤트 내에서 인접 프레임의 시간적 종속성을 보존하면서 다양한 수와 지속 시간을 가진 이벤트를 적응적으로 구성할 수 있어, 더 명확한 이벤트 경계를 제공한다.

Context-Aware Event Refinement (CAER)
비디오를 여러 이벤트로 분할한 후, 우리는 이벤트 표현 계산을 탐색한다. 이벤트 내 각 프레임이 주어진 텍스트에 대한 관련성이 크게 다르기 때문에, 우리는 Context-Aware Event Refinement (CAER) 모듈을 도입한다. CAER은 cross-attention 메커니즘을 활용하여 프레임을 적응적으로 집계하고, 이벤트 표현을 정제하여 의미적으로 관련 있는 프레임에 대한 민감도를 높이고 관련 없는 프레임을 억제한다. 구체적으로, 각 비디오에 대해 먼저 각 이벤트 내의 프레임 수준 feature에 평균 풀링을 적용하여 coarse-grained 이벤트 표현 $\bar{e}$ 를 얻는다. 그런 다음, 쿼리가 주어지면 각 이벤트와의 유사도를 계산하고 가장 관련 있는 이벤트를 선택하며, 이를 $e^{\text{max}} = \{f_i\}_{i=1}^{n_{e^{\text{max}}}}$ 로 나타낸다. 그 후, 텍스트 embedding $t \in \mathbb{R}^d$ 를 쿼리 $Q_t \in \mathbb{R}^{1 \times D_p}$ 로, 선택된 이벤트 내의 프레임 embedding을 키 $K_e \in \mathbb{R}^{n_{e^{\text{max}}} \times D_p}$ 및 값 $V_e \in \mathbb{R}^{n_{e^{\text{max}}} \times D_p}$ 행렬로 투영한다. 여기서 $D_p$ 는 투영 차원의 크기이다. 투영은 다음과 같이 정의된다:

\begin{aligned} Q_{t} & =L N(t) W_{Q} \\ K_{e} & =L N\left(e^{\max }\right) W_{K} \\ V_{e} & =L N\left(e^{\max }\right) W_{V} \end{aligned}

여기서 $LN$ 은 Layer Normalization layer이고, $W_Q, W_K, W_V$ 는 $\mathbb{R}^{d \times D_p}$ 크기의 투영 행렬이다. 마지막으로, 텍스트 embedding에서 프레임 embedding으로의 cross-attention을 적용하여 텍스트로 정제된 이벤트 표현을 다음과 같이 얻는다:

e^{r e f}=M L P\left(\operatorname{softmax}\left(\frac{Q_{t} K_{e}^{T}}{\sqrt{D_{p}}}\right) V_{e}\right)

attention 가중치가 주어진 텍스트와 이벤트 내 각 프레임 간의 관련성을 포착하므로, 정제된 이벤트 표현은 중복되는 의미론적 정보가 적어 더 정확한 정렬을 가능하게 한다.

D. Partial-relevant Text-video Matching

텍스트-비디오 유사도는 **정제된 이벤트 표현 $e^{\text {ref }} \in \mathbb{R}^{1 \times d}$ **와 쿼리 feature $t \in \mathbb{R}^{1 \times d}$ 간의 코사인 유사도로 다음과 같이 측정된다:

S(v, q)=\cos \left(e^{r e f}, t\right)

우리는 모델 최적화를 위해 관련 task 검색에 널리 사용되는 **triplet ranking loss [17]**와 **infoNCE loss [18]**를 함께 사용한다. **긍정적인 비디오-텍스트 쌍 $(v, q)$ **가 주어졌을 때, 미니배치 $\mathcal{B}$ 에 대한 triplet ranking loss는 다음과 같이 정의된다:

\begin{aligned} \mathcal{L}_{\text {trip }}=\frac{1}{n} \sum_{(v, q) \in \mathcal{B}} & \left\{\max \left(0, m+S\left(v, q^{-}\right)-S(v, q)\right)\right. \\ & \left.+\max \left(0, m+S\left(v^{-}, q\right)-S(v, q)\right)\right\} \end{aligned}

여기서 $m$ 은 margin 상수이며, $q^{-}$ 는 $v$ 에 대한 **부정 텍스트(negative text)**를, $v^{-}$ 는 $q$ 에 대한 **부정 비디오(negative video)**를 나타낸다. [10]과 유사하게, 우리는 학습 초반에는 미니배치에서 부정 샘플을 무작위로 샘플링하고, 20 epoch 이후에는 가장 어려운 부정 샘플(hardest negative samples)을 선택한다. infoNCE loss는 다음과 같이 계산된다:

\begin{aligned} \mathcal{L}_{\text {nce }}=-\frac{1}{n} & \sum_{(v, q) \in \mathcal{B}}\left\{\log \left(\frac{S(v, q)}{S(v, q)+\sum_{q_{i}^{-} \in \mathcal{N}_{q}} S\left(v, q_{i}^{-}\right)}\right)\right. \\ & \left.+\log \left(\frac{S(v, q)}{S(v, q)+\sum_{v_{i}^{-} \in \mathcal{N}_{v}} S\left(v_{i}^{-}, q\right)}\right)\right\} \end{aligned}

여기서 $\mathcal{N}_{q}$ 는 미니배치 내의 비디오 $v$ 에 대한 모든 부정 텍스트를 나타내고, $\mathcal{N}_{v}$ 는 미니배치 내의 텍스트 $q$ 에 대한 모든 부정 비디오를 나타낸다.

최종적으로, 전체 목적 함수는 다음과 같이 공식화될 수 있다:

\mathcal{L}=\mathcal{L}_{\text {trip }}+\lambda \mathcal{L}_{\text {nce }},

여기서 $\lambda$ 는 균형을 조절하는 하이퍼파라미터 역할을 한다.

IV. Experiments

A. Experimental Setting

데이터셋 (Datasets)
우리는 두 가지 벤치마크 데이터셋인 ActivityNet Captions와 TV show Retrieval (TVR) 에서 우리 방법의 성능을 평가한다.
**ActivityNet Captions [19]**는 원래 dense video captioning task를 위해 개발되었으나, 현재는 partially relevant video retrieval을 위해 재활용되고 있다. 이 데이터셋은 약 2만 개의 YouTube 비디오로 구성되어 있으며, 비디오의 평균 길이는 약 118초이다. 각 비디오에는 약 3.7개의 moment가 해당 설명 문장과 짝을 이루고 있다. 공정한 비교를 위해 [13]에서 사용된 것과 동일한 데이터 분할을 채택한다.
**TVR [20]**은 video corpus moment retrieval을 위해 설계된 멀티모달 데이터셋이다. 이 데이터셋은 6개의 TV 쇼에서 수집된 21.8K개의 비디오를 포함하며, 비디오당 평균 길이는 약 76초이다. 각 비디오에는 비디오 내의 다른 moment를 설명하는 5개의 문장이 연결되어 있다. 우리는 [10], [12]에서 사용된 것과 동일한 데이터 분할을 활용한다.

베이스라인 (Baselines)
우리는 세 가지 text-to-video retrieval (T2VR) 모델 (DE [21], W2VV++ [22], Cap4Video [23]), 세 가지 video corpus moment retrieval (VCMR) 모델 (XML [20], ReLoCLNet [18], CONQUER [24]), 그리고 다섯 가지 partially relevant video retrieval (PRVR) 모델 (MS-SL [10], PEAN [15], DLDKD [13], GMMFormer [12], GMMFormer-v2 [11])과 비교를 수행한다.
VCMR 모델의 학습 과정은 두 단계로 구성된다: 첫째, 후보 비디오를 검색하고, 둘째, 이 비디오 내에서 특정 moment를 지역화(localize)한다. PRVR에서는 moment annotation을 사용할 수 없으므로, [10], [12]를 따라 moment localization 단계를 제거하여 VCMR 모델을 재학습시켰다.

평가 지표 (Evaluation Metrics)
이전 연구들 [10], [12], [25]-[27]을 따라, 우리는 **순위 기반 지표인 R@K (K=1, 5, 10, 100)**를 활용한다. R@K는 랭킹 목록의 상위 K 내에서 원하는 항목을 성공적으로 검색한 쿼리의 비율을 나타낸다. SumR도 전체 성능 지표로 활용된다. 점수가 높을수록 성능이 우수함을 나타낸다.

구현 세부 사항 (Implementation Details)
비디오 표현을 위해 [13]에서 제공하는 프레임 feature를 활용한다. 이는 CLIP의 ViT-B/32 image encoder로 얻은 512-D 시각 feature이다. 문장 표현을 위해 CLIP의 Transformer 기반 text encoder를 사용하여 각 단어에 대한 512-D 텍스트 feature를 추출한다.
모델 학습을 위해 초기 learning rate는 0.0002로 설정하고, [20]과 동일한 learning schedule을 사용한다. 최대 epoch 수는 100으로, batch size는 64로 설정한다. Eq. 11의 하이퍼파라미터 $\gamma$ 는 경험적으로 0.02로 설정한다.

TABLE I ACTIVITYNET-CAPTIONS에서 STATE-OF-THE-ART와 비교한 성능.

Method	R@1	R@5	R@10	R@100	SumR
DE 21	5.6	18.8	29.4	67.8	121.7
W2VV++ 22	5.4	18.7	29.7	68.8	122.6
Cap4Video 23	6.3	20.4	30.9	72.6	130.2
XML 20	5.3	19.4	30.6	73.1	128.4
ReLoCLNet 18	5.7	18.9	30.0	72.0	126.6
CONQUER 24	6.5	20.4	31.8	74.3	133.1
MS-SL 10	7.1	22.5	34.7	75.8	140.1
PEAN 15	7.4	23.0	35.5	75.9	141.8
DL-DKD 13	8.0	25.0	37.5	77.1	147.6
GMMFormer 12	8.3	24.9	36.7	76.1	146.0
GMMFormer-v2 11	8.9	27.1	$\underline{40.2}$	78.7	154.9
UEM (Ours)	11.8	32.0	45.2	82.2	171.2

TABLE II TVR에서 STATE-OF-THE-ART와 비교한 성능.

Method	R@1	R@5	R@10	R@100	SumR
DE 21	7.6	20.1	28.1	67.6	123.4
W2VV++ 22	5.0	14.7	21.7	61.8	103.2
Cap4Video 23	10.3	26.4	36.8	74.0	147.5
XML 20	10.0	26.5	37.3	81.3	155.1
ReLoCLNet 18	10.7	28.1	38.1	80.3	157.1
CONQUER 24	11.0	28.9	39.6	81.3	160.8
MS-SL 10	13.5	32.1	43.4	83.4	172.4
PEAN 15	13.5	32.8	44.1	83.9	174.2
DL-DKD 13	14.4	34.9	45.8	84.9	179.9
GMMFormer 12	13.9	33.3	44.5	84.9	176.6
GMMFormer-v2 11	$\underline{16.2}$	$\underline{37.6}$	$\underline{48.8}$	$\underline{86.4}$	$\underline{189.1}$
UEM (Ours)	24.4	49.2	60.5	91.3	225.4

B. Comparisons with State-of-the-arts

Table I과 Table II는 각각 ActivityNet Captions 및 TVR 데이터셋에서 다양한 baseline 모델과 제안된 UEM 모델 간의 검색 성능 비교를 보여준다. 일반적으로 PRVR 모델은 T2VR 및 VCMR 모델보다 더 나은 성능을 보이는데, 이는 비디오와 텍스트 간의 부분적인 관련성(partial relevance)을 모델링하는 능력에 기인한다. 또한, 우리의 UEM 모델은 모든 이전 연구들을 상당한 차이로 능가한다. 특히, 이전 SOTA 경쟁 모델인 GMMFormer-v2 대비 SumR에서 각각 10.5%와 19.6%의 상대적 성능 향상을 두 벤치마크에서 달성했다. 이는 다음을 시사한다:

PGVS 모듈이 프레임을 여러 이벤트로 동적으로 그룹화하여 더 유연한 이벤트 구성을 가능하게 하며,
CAER 모듈이 주어진 텍스트에 따라 이벤트 표현을 조건화하여 더 간결한 텍스트-비디오 정렬을 이끌어낸다.

TABLE III ACTIVITYNET-CAPTIONS에서 다양한 구성 요소의 효과를 조사하기 위한 Ablation study.

No.	PGVS	CAER	R@1	R@5	R@10	R@100	SumR
1	$\boldsymbol{x}$	$\boldsymbol{x}$	8.9	26.8	39.9	78.9	154.5
2	$\boldsymbol{v}$	$\boldsymbol{x}$	11.4	31.0	44.2	80.9	167.5
3	$\boldsymbol{x}$	$\boldsymbol{\vee}$	11.3	31.5	44.9	81.9	169.6
4	$\boldsymbol{\vee}$	$\boldsymbol{\vee}$	$\mathbf{1 1 . 8}$	$\mathbf{3 2 . 0}$	$\mathbf{4 5 . 2}$	$\mathbf{8 2 . 2}$	$\mathbf{1 7 1 . 2}$

TABLE IV ACTIVITYNET-CAPTIONS에서 다양한 이벤트 모델링 방법의 효과를 조사하기 위한 Ablation study.

Method	R@1	R@5	R@10	R@100	SumR
Equal division	10.1	29.0	41.9	80.6	161.6
K-means cluster	10.7	30.2	42.1	80.3	163.3
PGVS	$\mathbf{1 1 . 4}$	$\mathbf{3 1 . 0}$	$\mathbf{4 4 . 2}$	$\mathbf{8 0 . 9}$	$\mathbf{1 6 7 . 5}$

C. Ablation Studies

다양한 구성 요소의 효과
각 구성 요소의 효과를 이해하기 위해, 우리는 제안하는 UEM 프레임워크의 두 가지 주요 구성 요소인 Progressive-Grouped Video Segmentation (PGVS) 모듈과 Context-Aware Event Refinement (CAER) 모듈에 대한 ablation 연구를 수행했다. Table III에서 볼 수 있듯이, 두 구성 요소 모두 모델 성능을 효과적으로 향상시킨다. 특히, No. 1과 No. 2의 비교는 PGVS 모듈이 R@1에서 12.9%의 상당한 개선을 가져옴을 보여준다. No. 4의 실험 결과는 No. 1보다 명확하게 우수하며, 이는 PGVS와 CAER 모듈이 시너지 효과를 발휘하여 이벤트 표현을 더욱 정밀하게 모델링할 수 있음을 입증한다.

다양한 이벤트 모델링 방법
우리는 또한 PGVS 모듈을 두 가지 변형과 비교했다:

Equal division: 비디오를 32개의 동일한 길이의 이벤트로 분할하는 방식 [10].
K-means clustering: K-means 알고리즘을 사용하여 프레임을 32개 클러스터의 가장 가까운 중심으로 할당하는 방식.

Table IV에서 보듯이, PGVS 모듈은 두 변형보다 우수한 성능을 보인다. PGVS는 프레임 유사성뿐만 아니라 이벤트 구성 시 프레임 간의 시간적 종속성도 고려하여, 더욱 간결한 text-video alignment를 가능하게 한다.

Fig. 3. PGVS 모듈에서 유사도 임계값 $\epsilon$ 의 분석.

PGVS에서 유사도 임계값 분석
우리는 유사도 임계값 $\epsilon$ 이 검색 성능에 미치는 영향을 추가로 조사했다. Fig. 3에서 볼 수 있듯이, 임계값 $\epsilon$ 이 증가함에 따라 SumR은 처음에는 상승하다가 이후 감소한다. 이는 다음 요인들로 설명될 수 있다: 임계값이 작을 때, 동일한 이벤트를 설명하는 프레임들이 여러 세그먼트로 나뉘어, 각 세그먼트 내에 불완전한 정보가 포함될 수 있다.

Fig. 4. ActivityNet Captions에서 상위 2개 text-to-video 검색 결과. 타겟 이벤트는 녹색 상자로 표시된다.

반대로, 더 큰 유사도 임계값은 더 긴 이벤트 지속 시간을 초래하며, 이는 관련 없는 정보를 포함할 수 있다. 따라서 우리는 ActivityNet Captions 데이터셋에 대해 $\epsilon$ 을 0.90으로, TVR 데이터셋에 대해 0.92로 설정했다.

D. Qualitative Analysis

Fig. 4는 ActivityNet Captions 데이터셋에 대한 우리 방법의 정성적 검색 결과를 보여준다. 우리 UEM이 SOTA 방법인 GMMFormer-v2에 비해 쿼리 텍스트에 더 관련성 높은 비디오 이벤트를 검색한다는 것이 분명하다. 또한, UEM에 의해 구성된 이벤트들은 더 명확한 경계를 보여주며, 이는 우리 PGVS 모듈의 효과를 강조한다.

V. Conclusion

본 논문에서는 PRVR을 위한 Uneven Event Modeling (UEM) 프레임워크를 소개한다. 구체적으로, 우리는 먼저 Progressive-Grouped Video Segmentation (PGVS) 모듈을 제안한다. 이 모듈은 각 비디오에 대해 다양한 개수와 지속 시간을 가진 이벤트를 적응적으로 구성하여, 의미론적 및 시간적 정보를 모두 포착하는 명확한 이벤트 경계를 생성한다. 나아가, 우리는 Context-aware Event Refinement (CAER) 모듈을 제시한다. 이 모듈은 주어진 텍스트에 가장 관련성 높은 프레임을 강조하도록 이벤트 표현을 정제하여, **더욱 정밀한 정렬(alignment)**을 가능하게 한다. 두 가지 널리 사용되는 벤치마크에 대한 광범위한 실험과 ablation study는 PRVR task에서 제안된 방법의 효과를 검증한다.

VI. Acknowledgment

본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 62202459번 과제, 중국 국가핵심연구개발 프로그램(National Key R&D Program of China)의 2022YFB3103500번 과제, 그리고 중국 산업제어기술 국가지정연구소(State Key Laboratory of Industrial Control Technology, China)의 개방형 연구 프로젝트(Grant No. ICT2024B51)의 지원을 받아 수행되었다.