Zeng, Runhao, et al. "Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction." IEEE Transactions on Circuits and Systems for Video Technology (2024).

Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction

Runhao Zeng ${ }^{\text {® }}$ , Member, IEEE, Yishen Zhuo, Jialiang Li, Yunjin Yang, Huisi Wu ${ }^{\text {® }}$ , Senior Member, IEEE, Qi Chen ${ }^{\text {® }}$ , Xiping Hu ${ }^{\text {® }}$ , Member, IEEE, and Victor C. M. Leung ${ }^{\text {® }}$ , Life Fellow, IEEE

Abstract

대부분의 기존 Video Moment Retrieval (VMR) 벤치마크 데이터셋은 희소한 어노테이션(sparse annotations), 즉 소수의 moment만 어노테이션되어 있다는 공통적인 문제에 직면해 있다. 우리는 비디오가 더 넓은 범위의 의미 있는 moment들을 포함하고 있으며, 이를 활용한다면 성능을 크게 향상시킬 수 있다고 주장한다.
기존 방법들은 일반적으로 생성-선택(generate-then-select) 패러다임을 따르며, 주로 moment-query 쌍을 생성하는 데 집중하고 선택이라는 중요한 측면을 간과한다.
본 논문에서는 비디오와 언어 간의 멀티모달 하이퍼-상호작용(multi-modal hyper-interaction)을 모델링하여 보조적인 moment-query 쌍을 생성하는 새로운 방법인 HyperAux를 제안한다.
구체적으로, 비디오에서 얻은 일련의 후보 moment-query 쌍이 주어지면, 우리는 여러 개의 하이퍼엣지(hyperedge)를 가진 하이퍼그래프(hypergraph)를 구성한다. 각 하이퍼엣지는 하나의 moment-query 쌍에 해당한다.
각 엣지가 두 개의 노드(프레임 또는 쿼리)만 연결하는 전통적인 그래프와 달리, 각 하이퍼엣지는 moment 내의 모든 프레임, moment 외부의 의미론적으로 관련된 프레임, 그리고 입력 쿼리를 포함한 여러 노드를 연결한다. 이러한 설계는 개별 프레임-쿼리 관계를 따로 모델링하는 대신, moment 내의 프레임들을 하나의 전체로 간주할 수 있게 한다.
더 중요한 것은, 비디오 내의 모든 moment-query 쌍 간의 관계를 하나의 큰 하이퍼그래프로 구성함으로써, 이러한 쌍들로부터 더 높은 품질의 데이터를 선택하는 것을 용이하게 한다는 점이다.
이 하이퍼그래프 위에서 우리는 **하이퍼그래프 신경망(hypergraph neural network)**을 사용하여

2024년 8월 3일 접수; 2024년 11월 22일 수정; 2024년 12월 4일 승인. 2024년 12월 9일 발행; 2025년 5월 7일 현재 버전. 이 연구는 중국 국가자연과학기금(NSFC)의 62202311번 과제, 선전시 자연과학기금(안정 지원 계획 프로그램)의 20220809180405001번 과제, 선전시 우수 과학기술 창의 인재 양성 프로그램의 RCBS20221008093224017번 과제, 광둥성 기초 및 응용 기초 연구 기금의 2023A1515011512번 과제, 광둥성 교육부 중점 과학 연구 프로젝트의 2024ZDZX3012번 과제, 그리고 광둥-홍콩-마카오 감성 지능 및 유비쿼터스 컴퓨팅 공동 연구소의 2023LSYS005번 과제의 지원을 받았습니다. 이 논문은 Z. Yang 부편집장이 추천했습니다. (교신 저자: Qi Chen; Xiping Hu.)

Runhao Zeng은 선전 MSU-BIT 대학교 인공지능 연구소 및 선전 대학교 기계전자제어공학대학 소속입니다 (이메일: zengrh@smbu.edu.cn).

Yishen Zhuo, Jialiang Li, Yunjin Yang은 광둥성 전자기 제어 및 지능형 로봇 핵심 연구소, 선전 대학교 기계전자제어공학대학 소속입니다 (이메일: zhuoyishen2022@email.szu.edu.cn; lijialiang2022@email.szu.edu.cn; yangyunjin2023@email.szu.edu.cn). Huisi Wu는 선전 대학교 컴퓨터 과학 및 소프트웨어 공학대학 소속입니다 (이메일: hswu@szu.edu.cn).

Qi Chen은 애들레이드 대학교 호주 머신러닝 연구소 소속입니다 (이메일: qi.chen04@adelaide.edu.au).

Xiping Hu와 Victor C. M. Leung은 선전 MSU-BIT 대학교 인공지능 연구소 및 광둥-홍콩-마카오 감성 지능 및 유비쿼터스 컴퓨팅 공동 연구소 소속입니다 (이메일: huxp@bit.edu.cn; vleung@ieee.org).

디지털 객체 식별자 10.1109/TCSVT.2024.3513633 노드 정보를 집계하고, 하이퍼엣지를 업데이트하며, 비디오-언어 하이퍼-상호작용을 각 연결된 노드로 전파하여 **맥락 인식 노드 표현(context-aware node representations)**을 생성한다. 이를 통해 우리는 노드 관련성(node relevance)을 사용하여 고품질 moment-query 쌍을 선택하고 moment의 경계를 정제할 수 있다.
또한, 우리는 moment 내부와 외부의 의미론적 일치(semantic matching) 불일치를 활용하여 인간 어노테이션 없이 HGNN을 학습하기 위한 손실 함수를 구성한다.
우리의 보조 데이터는 ActivityNet Captions, Charades-STA, QVHighlights의 세 가지 널리 사용되는 VMR 데이터셋에서 완전 지도(fully-supervised), 약 지도(weakly-supervised), zero-shot 설정 하에 12개 VMR 모델의 성능을 향상시킨다. 우리는 소스 코드와 모델을 공개적으로 배포할 예정이다.

Index Terms—Video moment retrieval, hypergraph neural network, auxiliary moment-query pairs, annotation generation.

I. Introduction

**Video Moment Retrieval (VMR)**은 주어진 언어 쿼리를 기반으로 비디오 내에서 특정 순간(moment)을 찾아내는 task이다. 이는 비디오 콘텐츠 관리 [1], 비디오 추천 시스템 [2], 자동 비디오 편집 [3], [4], 이상 감지 [5], [6], 인간-컴퓨터 상호작용 [7]과 같은 광범위한 잠재적 응용 분야로 인해 연구자들로부터 상당한 주목을 받아왔다. 이 task의 주요 과제는 데이터 주석(annotation) 작업이 시간 소모적이고 노동 집약적이라는 점이다. 이 과정은 인간 주석자가 비디오를 시청하고, 그 안에서 발생하는 행동이나 이벤트를 식별하며, 이를 언어적으로 설명하고, 해당 인스턴스의 시작 및 종료 시간을 정확하게 표시해야 한다. 주석 비용을 완화하기 위해 이전 연구들 [8], [9]은 약한 감독(weakly supervised) VMR을 탐구했는데, 이는 비디오 콘텐츠 내에서 쿼리의 정확한 시작 및 종료 지점을 표시할 필요가 없다. 그러나 자연어 쿼리를 주석하는 비용은 여전히 상당하다. 따라서 moment-query 주석의 자동 생성은 중요하면서도 쉽지 않은 문제이다.

우리는 기존 비디오 데이터셋에 자동으로 주석을 달기 위한 덜 노력 집약적인 방법을 찾고자 한다. 새로운 비디오를 수집하고 주석을 다는 것에 비해 이 접근 방식은 두 가지 장점을 제공한다: (1) 적합한 비디오를 찾을 필요가 없으며, (2) 비디오 내 콘텐츠의 본질적인 관련성을 활용한다. 만약 우리가 비디오 내에서 의미 있지만 아직 주석되지 않은 순간들을 주석한다면, 이는 미세한 cross-modal 관계를 학습하고 기존 주석을 더 잘 활용하여 더 정확한 VMR을 달성하는 데 모델의 능력에 도움이 될 것이다. 다행히도 우리는 기존 데이터셋이 희소한 주석(sparse annotations) 문제를 보인다는 것을 관찰했다. 즉, 비디오 내에서 소수의 순간들만 주석되어 있다는 것이다. 우리는 이러한 비디오들이 성능을 향상시키는 데 사용될 수 있는 더 넓은 범위의 인스턴스를 포함하고 있다고 주장하며, 이는 Fig. 1에 나타나 있다. 비디오에서 더 많은 고품질 moment-query 쌍을 발굴하는 것은 모델 학습에 크게 도움이 될 수 있다.

Fig. 1. 우리의 HyperAux로 생성된 주석을 사용했을 때와 사용하지 않았을 때의 VMR 방법 성능. 생성된 주석(빨간색으로 표시)은 *완전 감독(fully-supervised) 및 약한 감독(weakly-supervised, 로 표시) VMR 방법 모두의 성능을 향상시킨다.

최근 일부 연구들 [10], [11], [12], [13]은 비디오에서 moment-query 쌍을 생성하려고 시도하며, 주로 생성(generation)과 선택(selection)의 두 단계를 포함한다. 이러한 방법들은 쌍 생성에 더 중점을 두어, 생성 후 선택 과정은 소홀히 한다. 그들의 주요 접근 방식은 비디오 프레임과 쿼리 간의 코사인 유사도(cosine similarity)를 직접 계산하여 moment-query 쌍을 선택하는 것인데, 이는 다음과 같은 이유로 부적절하다:

단일 프레임은 비디오의 복잡한 움직임을 포착할 수 없다.
여러 moment-query 쌍 중에서 가장 잘 맞는 쌍을 선택하는 것은 복잡한 query-frame, frame-frame, query-query 관계를 포함한다. 이러한 상호 관계를 더 나은 데이터 선택에 효과적으로 사용하는 방법은 여전히 미해결 과제이다.

프레임과 생성된 쿼리 간의 상호작용을 모델링하기 위해, 우리는 하이퍼그래프(hypergraphs)가 잠재적인 해결책을 제공한다는 것을 발견했다. 하이퍼그래프는 하이퍼엣지(hyperedges)를 통해 여러 노드를 연결하여, 전통적인 그래프의 쌍별 연결을 넘어선 복잡한 관계를 표현한다. 따라서 하이퍼그래프는 비디오 콘텐츠 내의 미묘한 차이와 동적 변화를 이해하는 데 중요한 더 복잡한 데이터 구조와 관계를 표현할 수 있다. 그러나 moment-query 선택을 위한 적절한 하이퍼그래프를 구성하고, 다양한 VMR 설정(완전 감독, 약한 감독, zero-shot)에서 데이터를 자동으로 선택하기 위해 하이퍼그래프 신경망을 훈련하는 것은 VMR 분야에서 아직 탐구되지 않은 과제로 남아있다.

본 논문에서는 하이퍼그래프 신경망(Hypergraph Neural Networks, HGNN) 기반의 데이터 생성 및 선택 프레임워크를 제안한다. 이 프레임워크는 기존 데이터셋에서 moment-query 쌍을 자동으로 구축, 선택 및 조정할 수 있다. 첫째, 우리는 비디오 스니펫의 유사도를 사용하여 moment 후보를 얻고, 이미지/비디오 캡셔닝 모델을 통해 쿼리를 생성한다. 둘째, 우리는 비디오 프레임과 생성된 쿼리를 특정 하이퍼그래프의 노드로 간주하고, 그들의 관계를 하이퍼엣지로 표현한다. 각 moment-query 쌍에 대해 세 가지 유형의 엔티티를 하이퍼엣지에 연결한다:

해당 moment 내의 모든 프레임;
moment 외부에 있지만 쿼리와 의미론적으로 정렬된 프레임;
moment에 해당하는 쿼리.

셋째, 우리는 하이퍼그래프 신경망(HGNN)을 적용하여 구축된 하이퍼그래프에서 메시지 전달(message passing)을 수행한다. 이를 통해 프레임과 쿼리 간의 고차원 관계(higher-order relations)를 모델링하고, 궁극적으로 문맥 인식 프레임 표현(context-aware frame representation)을 얻어 moment와 쿼리 간의 의미론적 일치도(semantic matching degree)를 더 정확하게 측정하고 더 높은 품질의 moment-query 쌍을 선택한다. 우리는 **moment 내부와 외부의 의미론적 일치도 불일치(discrepancy)**를 활용하여 인간 주석 없이 HGNN을 훈련하기 위한 손실 함수를 구성한다. 우리가 생성한 데이터는 ActivityNet Captions, Charades-STA, QVHighlights의 세 가지 일반적인 VMR 데이터셋에서 완전 감독(fully supervised), 약한 감독(weakly supervised), zero-shot 설정에서 VMR 모델의 성능을 향상시키며, 우리 방법의 효과와 다용성을 입증한다.

우리는 기존 VMR 데이터셋의 희소한 주석 문제를 해결하기 위해 새로운 하이퍼그래프 기반 접근 방식인 HyperAux를 제안한다. HyperAux에서는 비전과 언어 간의 멀티모달 하이퍼 상호작용(multimodal hyper-interaction)을 활용하여 이전에 활용되지 않았던 비디오에서 보조 moment-query 쌍을 생성한다.
우리는 미세한 moment-query 관계와 주어진 moment-query 쌍에 대한 보조 의미론적 관계를 모델링하는 새로운 하이퍼그래프 구성 방법을 고안한다. 이를 기반으로, 우리는 이러한 복잡한 상호 연결을 모델링하기 위해 하이퍼그래프 신경망을 사용하여 고품질 moment-query 쌍 선택의 정확도를 현저히 향상시킨다.
우리는 비지도 하이퍼그래프 신경망 훈련 전략을 설계하여, 우리 방법이 완전 감독, 약한 감독, zero-shot 시나리오를 포함한 다양한 VMR 설정에 적용 가능하도록 한다. 우리는 세 가지 데이터셋(Charades-STA, QVHighlights, ActivityNet Captions)과 12가지 VMR 방법에서 우리 접근 방식의 효과를 검증했으며, 예를 들어 QVHighlights에서 MomentDETR을 사용했을 때 5.42%의 주목할 만한 성능 향상을 보였다.

A. Video Moment Retrieval

Video Moment Retrieval (VMR)는 현재 연구에서 많은 주목을 받고 있다 [14], [15], [16], [17], [18], [19], [20], [21], [22], [23], [24]. 핵심 목표는 모델이 비디오 콘텐츠를 효과적으로 이해하고 분석하여, 쿼리 문장과 의미론적으로 일치하는 비디오 순간(moment)을 정확하게 찾아내는 것이다. VMR 모델을 학습할 때, 사용되는 supervision 정보에 따라 다양한 설정이 채택된다.

Fully supervised 설정 [25], [26], [27], [28], [29], [30], [31], [32], [33], [34], [35]에서는 각 비디오 moment에 상세한 시간적 주석(temporal annotation)과 해당 쿼리 설명이 함께 제공된다. 그러나 이 방식은 많은 양의 수동 주석 데이터에 의존하며, 이는 비용이 많이 들 뿐만 아니라 극도로 시간이 많이 소요된다.

이와 대조적으로, weakly supervised 학습 방법은 비디오와 관련된 텍스트 쿼리만을 사용하며, 상세한 시간적 주석을 요구하지 않는다 [9], [36], [37], [38], [39], [40], [41]. 따라서 정확한 moment 주석에 대한 의존도를 줄일 수 있다.

하지만 fully supervised 및 weakly supervised 접근 방식은 모델 설계에 중점을 둔다. 예를 들어, graph reasoning [23], momentum contrastive learning [42], multi-granularity cross-modal interaction [22], mimic reading comprehension method [24], cross-modal semantic alignment 강화 [5], adaptation 능력 향상 [6] 또는 [43]과 같은 attention fusion 기법을 사용하는 식이다. 이들은 데이터셋 주석의 희소성(sparse annotation)으로 인한 문제 [44]를 간과하고 있다. 비디오에 주석할 가치가 있는 여러 moment가 포함되어 있더라도, 실제로 주석되는 것은 소수에 불과하다.

따라서 연구자들은 zero-shot 설정 [10], [11], [12], [13], [41]으로 관심을 돌렸다. 이 설정에서는 모델 학습이 추가적인 텍스트 설명이나 시간적 주석 없이 오직 비디오 콘텐츠 자체에만 의존하여, 주석 비용을 크게 절감한다.

대안적인 접근 방식인 [45]는 불확실성(uncertainty)을 기반으로 비디오 프레임을 선택하고, 인간 전문가가 이 프레임에 주석을 달도록 제안한다. 소수의 전문가 주석만으로도 모델은 만족스러운 성능을 달성할 수 있다.

본 논문에서는 인간의 개입 없이 moment-query를 자동으로 생성하고 선택하는 메커니즘을 탐구하며, 기존의 프레임-쿼리 유사도에 주로 의존하는 데이터 선택 방식에서 벗어나, 새로운 하이퍼그래프(hypergraph) 기반 데이터 선택 접근 방식을 제안한다.

B. Hypergraph for Vision Tasks

기존의 그래프 구조가 쌍별 연결(pairwise connections)로 제한되는 것과 달리, 하이퍼그래프(hypergraph)는 하이퍼에지(hyperedge)를 통해 여러 정점(vertex)을 동시에 연결할 수 있다 [46, 47]. 따라서 하이퍼그래프는 더 복잡한 데이터 구조와 관계를 표현할 수 있다.
Han et al. [48]은 각 패치 노드(patch node)에 대해 가장 가까운 이웃을 식별하여 하이퍼에지를 구성함으로써 vision graph neural network를 강화하기 위해 하이퍼그래프를 사용했다. Kim et al. [49]은 VQA task 맥락에서 hypergraph attention network의 효율성을 입증했다. 또한, 일부 연구에서는 하이퍼그래프를 비디오 인물 재식별(video person re-identification) [50], 협업 필터링(collaborative filtering) [51], 궤적 예측(trajectory prediction) [52] 등에 적용했다.

우리의 연구와 가장 밀접하게 관련된 작업은 **LEAN [53]**이지만, 다음과 같은 중요한 차이점이 존재한다:

문제 정식화(problem formulation): LEAN은 텍스트-비디오 검색(text-video retrieval)을 하이퍼그래프 분류 문제로 정식화하는 반면, 우리는 하이퍼그래프 신경망을 사용하여 희소한 어노테이션(sparse annotations) 문제를 해결하는 moment-query 쌍을 선택한다.
하이퍼그래프 구성(hypergraph construction): LEAN은 쿼리-비디오 쌍별로 하이퍼그래프를 구축하여 유사성을 평가하는 반면, 우리는 단일 비디오 내의 여러 moment-query 쌍으로부터 하이퍼그래프를 구성하여 moment, 프레임, 쿼리 간의 복잡한 관계를 모델링한다.
학습 전략(training strategy): LEAN은 완전 지도 학습(fully supervised training)에 의존하며, 감독(supervision)을 위해 사람의 어노테이션을 필요로 한다. 그러나 우리의 방법은 사람의 개입 없이 비지도 방식(unsupervised manner)으로 학습되어, 완전 지도, 약 지도(weakly supervised), zero-shot 설정 모두에 적용 가능하다.

III. Method

A. Notations

$\mathcal{G}=(\mathcal{V}, \mathcal{E})$ 를 노드 $v \in \mathcal{V}$ 와 하이퍼에지 $e \in \mathcal{E}$ 를 갖는 하이퍼그래프라고 하자. 일반적인 그래프와 달리, 각 하이퍼에지는 두 개 이상의 노드를 연결할 수 있다. $T$ 개의 프레임을 가진 untrimmed video $\mathcal{U}=\left\{f_{i}\right\}_{i=1}^{T}$ 로부터 생성된 moment-query 쌍 후보 집합 $\mathcal{P}=\left\{\left(m_{j}, q_{j}\right)\right\}_{j=1}^{N}$ 가 주어졌을 때, 우리는 비디오 프레임과 쿼리를 노드로 취급하고, $N$ 개의 하이퍼에지로 이들을 연결하여 관계를 모델링한다.

B. General Scheme

우리의 목표는 VMR 모델 학습을 위해 주어진 $N$ 개의 moment-query 후보 쌍 집합에서 의미적으로 일치하는 쌍을 선택하는 것이다. 하나의 moment를 정확하게 표현하려면 여러 프레임의 통합이 필수적이라는 공감대가 형성되어 있다. 그러나 기존 방법들은 단일 프레임 $f_i$ 와 쿼리 $q_j$ 를 직접 연결하여 관련성 $r_{ij}$ 를 계산하며, 프레임과 쿼리를 포함한 여러 개체 간의 상호작용을 동시에 무시한다. 이를 해결하기 위해 우리는 hypergraph를 활용하여 프레임, moment, 쿼리 간의 복잡한 다대다(many-to-many) 관계를 모델링한다.

주어진 비디오와 moment-query 후보 $\mathcal{P}= \left\{\left(m_{j}, q_{j}\right)\right\}_{j=1}^{N}$ 에 대해, 우리는 비디오 내의 모든 프레임과 쿼리를 노드(node)로 간주한다. 그런 다음, $j$ -번째 moment-query 쌍에 대해 hyperedge $e_j$ 를 정의하고, 제안된 hypergraph 구성 전략을 통해 해당 노드들을 hyperedge에 연결하여 hypergraph $\mathcal{G}$ 를 생성한다. moment와 쿼리 간의 hyper-interaction을 활용하기 위해, 우리는 $\mathcal{G}$ 에 hypergraph neural network $f_{HGNN}$ 을 적용하여 쿼리와 프레임 간의 정보 전파를 촉진하고, context-aware 프레임 feature와 쿼리 feature를 얻는다. 이를 다음과 같이 공식화한다:

\left\{\hat{f}_{i}\right\}_{i=1}^{T},\left\{\hat{q}_{j}\right\}_{j=1}^{N}=f_{H G N N}\left(\mathcal{G},\left\{f_{i}\right\}_{i=1}^{T},\left\{q_{j}\right\}_{j=1}^{N}\right)

그 후, 각 쿼리에 대해 각 프레임과의 의미적 관련성 $r_{ij}=C\left(\hat{f}_{i}, \hat{q}_{j}\right)$ 를 계산한다. 이 관련성을 기반으로 moment-query 쌍 선택 및 moment 경계 정제(refinement) 방법을 설계하여, 궁극적으로 VMR 모델 학습을 향상시키는 데 사용될 수 있는 고품질 moment-query 쌍을 생성한다. 우리의 접근 방식에 대한 개략적인 설명은 Fig. 2에 나와 있다. 섹션 구성은 다음과 같다:

Sec. III-C는 비디오에서 후보 moment-query 쌍을 생성하는 과정을 소개한다.
Sec. III-D는 moment와 쿼리 간의 복잡한 관계를 모델링하는 멀티모달 hypergraph 구축에 대해 자세히 설명한다.
Sec. III-E는 관계 전파를 촉진하는 hypergraph neural network에 대해 상세히 설명한다.

Fig. 2. 우리의 HyperAux 방법론 개요. 비디오가 주어지면, 후보 moment-query 쌍을 생성하고(Sec. III-C), 이를 통해 프레임과 쿼리를 노드로, 각 쌍에 대한 moment-query 및 의미 관계를 모두 고려하는 하나의 hyperedge를 갖는 멀티모달 hypergraph를 구축한다(Sec. III-D). 우리는 노드 상호작용을 모델링하기 위해 hypergraph neural network를 학습시키고(Sec. III-E), 프레임-쿼리 관련성을 결정하여 고품질 보조 쌍(auxiliary pairs)을 선택 및 정제한다(Sec. III-G). 이 보조 쌍은 다양한 설정에서 VMR 모델의 성능을 향상시키는 데 사용될 수 있다(Sec. III-H).

Sec. III-F는 사람의 주석 데이터 없이 hypergraph neural network를 학습시키는 세부 사항을 제공한다.
Sec. III-G는 moment-query 쌍을 선택하고 정제하는 제안된 전략을 자세히 설명한다.
Sec. III-H는 우리 방법으로 생성된 데이터가 다양한 VMR 설정에 어떻게 적용되는지 설명한다.
Sec. III-I는 우리 방법과 graph 기반 VMR 방법 간의 차이점을 논의한다.

C. Moment-Query Candidate Pairs Generation

우리는 Sec. VI-E의 실험에서 입증된 바와 같이, 일부 생성 방법 [10], [12]을 통해 얻을 수 있는 사전 생성된 moment-query 쌍으로부터 고품질 데이터를 선택하고자 한다. 본 논문에서는 moment-query 쌍을 생성하기 위한 대체 접근 방식도 제안한다.

먼저, moment generation 단계를 통해 비디오 내에서 관심 있는 moment 후보들을 생성한다. 이어서, 각 moment에 대해 비디오/이미지 캡셔닝 모델을 사용하여 moment-level query ( $Q^m$ )와 frame-level query ( $Q^f$ ) 집합을 얻는다. 마지막으로, 이 두 가지 유형의 캡션을 대규모 언어 모델(LLM)에 입력하여 요약한다. 이 과정은 query가 moment 내의 상세한 동작, 정적인 외형, 그리고 객체 및 장면 정보를 보다 정확하게 설명할 수 있도록 하는 것을 목표로 한다.

Step1 (Temporal similarity를 통한 Moment generation): 주어진 비디오에 대해, 우리는 PSVL [10]을 따라 프레임 feature 간의 코사인 거리를 계산한다. 그런 다음 K-means clustering 알고리즘 [54]을 사용하여 유사도가 높은 프레임들을 기본 moment로 그룹화한다. 동일한 클러스터 내의 프레임들은 다른 클러스터의 프레임들에 비해 서로 더 높은 유사성을 보인다. 이어서, 시간적으로 인접한 기본 moment들의 모든 잠재적 조합을 검토한다. 우리는 $N$ 개의 moment를 무작위로 샘플링하여 후보 moment 집합 $\left\{m_{j}\right\}_{j=1}^{N}$ 을 생성한다.

Step2 (Mutli-granularity query generation): 동작을 정확하게 설명하는 query를 생성하기 위해, 우리는 moment $m_j$ 에서 $N_m$ 개의 프레임을 균일하게 샘플링하여 snippet을 형성하고, 이를 비디오 캡셔닝 방법(예: LaViLa [55])에 입력하여 moment-level query $Q_j^m$ 을 얻는다. 정적인 외형과 객체/장면 정보 또한 moment를 설명하는 데 중요하다고 판단하여, moment $m_j$ 에서 $N_f$ 개의 프레임을 균일하게 샘플링하고, 각각을 이미지 캡셔닝 모델(예: BLIP [56])에 개별적으로 입력하여 더 상세한 외형, 객체 및 장면을 포착함으로써 frame-level query $Q_j^f=\left\{q_{k}^{f}\right\}_{k=1}^{N_{f}}$ 집합을 생성한다.

Step3 (LLM summarization을 통한 Query refinement): 고품질 query를 얻기 위해, 우리는 $Q_j^m$ 의 동작 정보와 $Q_j^f$ 의 객체/장면 단서를 활용하고자 한다. LLM의 강력한 언어 이해 능력 덕분에, 최근 연구들 [57], [58], [59]은 LLM을 활용하여 이미지/비디오 분류와 같은 task에 대해 더 상세하고 정확한 카테고리 설명을 생성하고, LLM을 동작 인식에 활용하고 있다. 이러한 연구들에서 영감을 받아, 우리는 대규모 언어 모델(LLM)을 활용하여 moment/frame-level query를 통합하고 상세한 query를 생성한다. Fig. 3에 나타난 바와 같이, 우리는 몇 가지 핵심 구성 요소로 이루어진 텍스트 prompt를 설계한다:

배경 및 역할에 대한 소개;
task에 대한 명확한 설명;
충족해야 할 특정 요구 사항;
응답을 안내하는 관련 예시;
예상 답변에 대한 템플릿. 이러한 구조화된 접근 방식은 LLM이 맥락과 목표를 포괄적으로 이해하도록 보장하여, 각 moment에 대한 정확하고 유익한 query 생성을 촉진한다.

비디오에서 주어진 moment-query 쌍 $\mathcal{P}=\left\{\left(m_{j}, q_{j}\right)\right\}_{j=1}^{N}$ 에 대해, 고품질 쌍을 선택하는 핵심은 moment와 query 간의 의미론적 관련성(semantic relevance)을 정확하게 측정하는 데 있다. moment는 여러 프레임으로 구성되므로, 우리는 이러한 프레임과 query 간의 관계를 동시에 고려하는 것이 필수적이라고 주장한다.

Fig. 3. LLM을 통한 query 요약을 위한 제안된 prompt.

이러한 복잡한 관계를 모델링하기 위해, 우리는 각 비디오에 대해 $N$ 개의 hyperedge로 구성된 hypergraph $\mathcal{G}$ 를 구축할 것을 제안한다. 여기서 노드(node)는 비디오의 프레임과 생성된 query이다. Fig. 4에 나타난 바와 같이, $j$ -번째 hyperedge $e_j$ 에 대해 노드를 hyperedge에 연결하기 위한 두 가지 유형의 관계를 고려한다:

Fine-Grained Moment-Query Relation: 타임스탬프 $t_s$ 부터 $t_e$ 까지의 moment-query 쌍 $(m, q) \in \mathcal{P}$ 에 대해, 우리는 먼저 moment 내에 포함된 모든 프레임(즉, $m=\left\{f_{i}\right\}_{i=t_{s}}^{t_{e}}$ )을 hyperedge에 연결한다. 이는 moment의 프레임들이 후속 cross-modal 연관 모델링에서 전체적으로 고려될 수 있도록 한다. 이 접근 방식은 단일 프레임이 동적인 움직임을 적절하게 표현하지 못할 수 있는 문제를 완화한다. 동시에, query $q$ 도 hyperedge에 연결된다. 이를 통해 moment와 query 간의 관계를 직접적으로 모델링할 수 있다. moment-query 관계에 의해 결정되는 엔티티 집합은 다음과 같이 정의된다:

\mathcal{R}_{1}=\left\{q, f_{i} \mid i \in\left[t_{s}, t_{e}\right]\right\}

Auxiliary Semantic Relation: moment 내의 프레임 외에도, moment 외부에 있는 프레임을 고려하는 것이 세 가지 이유로 중요하다. 첫째, 생성된 moment의 경계가 모호하여 moment 외부에 있는 프레임에도 동일한 동작이 포함될 수 있다. 둘째, 비디오의 내용은 일반적으로 서로 관련되어 있으므로, moment 외부에서 유사한 의미를 가진 프레임을 고려하면 시각적 요소와 언어적 요소 간의 관계를 모델링하는 데 도움이 되는 단서를 제공할 수 있다. 셋째, 어떤 노드가 다른 moment-query 쌍에 의해 의미론적으로 관련되어 있다고 판단되면, 해당 쌍의 hyperedge에 연결될 수 있으며, 이는 서로 다른 쌍 간의 상호 관계를 직접적으로 모델링한다. 따라서 query $q$ 에 대한 **외부 프레임 집합 $\mathcal{R}_2$ **는 다음과 같이 정의될 수 있다:

\mathcal{R}_{2}=\left\{f_{i} \mid i \in \mathcal{N}_{k}(q)\right\} .

여기서 $\mathcal{N}_k(q)$ 는 각 프레임과 query 간의 코사인 유사도(cosine similarity)를 기반으로 하는 상위 $k$ 개 외부 프레임의 인덱스 집합이다.

따라서 query $q$ 에 대한 노드 집합은 $\Omega \leftarrow \mathcal{R}_{1} \cup \mathcal{R}_{2}$ 로 정의될 수 있으며, 여기서 노드에는 **query $q$ , moment $m$ 내의 프레임, 그리고 외부 프레임( $m$ 외부)**이 포함된다.

우리의 hypergraph에서는 단일 hyperedge가 여러 노드를 연결할 수 있어 다양한 관계를 동시에 모델링할 수 있다는 점이 주목할 만하다. 이러한 기능은 하나의 edge가 두 노드만 동시에 연결할 수 있는 전통적인 그래프를 능가한다.

E. Relation-Aware Frame/Query Representation Learning

쿼리 노드와 프레임 노드 간의 유사도를 직접 계산하는 대신, 우리는 **하이퍼그래프 신경망(hypergraph neural network)**을 사용하는 방법을 제안한다. 이 접근 방식은 **노드 간의 관계를 활용하여 메시지 전달(message passing)**을 수행하며, 이를 통해 각 프레임과 쿼리가 동일 비디오 내의 다른 프레임 및 쿼리로부터 정보를 인지할 수 있게 한다. 결과적으로 이는 feature 표현을 향상시키고, 더 정확한 프레임-쿼리 관련성(relevance)을 달성하기 위한 기반을 마련한다. 특히, 하이퍼그래프 위에서 우리는 K-layer hypergraph neural network를 적용한다. 본 연구에서는 [60]을 따라 각 layer에서 양방향 정보 전파(bidirectional information propagation) 과정을 포함하는데, 이는 노드-하이퍼엣지(node-to-hyperedge) 전파와 하이퍼엣지-노드(hyperedge-to-node) 전파로 구성된다.

노드-하이퍼엣지 전파 (Node-to-Hyperedge Propagation): 우리는 먼저 노드로부터 집계된 feature를 처리하는 데 사용될 수 있는 함수 집합 $\left\{F_{l}\right\}_{l=1}^{L}$ 을 정의한다. 이는 다양한 비디오가 각기 다른 액션과 설명을 포함하기 때문이다. 각 하이퍼엣지 $e_{j}$ 에 대해, 우리는 $F_{l}$ 의 출력에 학습 가능한 가중치 $\beta_{j, l}$ 을 할당하고, $\alpha_{j}$ 를 할당하여 업데이트된 하이퍼엣지 feature를 얻는다. 이는 다음과 같이 공식화된다:

e_{j}=\alpha_{j} \sum_{l=1}^{L} \beta_{j, l} F_{l}\left(\sum_{v_{i} \in \Omega_{e_{j}}} v_{i}\right),

여기서 $v_{i} \in \Omega_{e_{j}}$ 는 하이퍼엣지 $e_{j}$ 에 연결된 노드들을 나타낸다. $\alpha_{j}$ 와 $\beta_{j, l}$ 을 계산하기 위해, 우리는 $e_{j}$ 를 나타낼 수 있는 hidden feature $z_{j}$ 를 다음과 같이 얻는다:

z_{j}=\sum_{v_{i} \in \Omega_{e_{j}}} w_{i} v_{i},

Fig. 4. 하이퍼그래프 구성의 예시. 우리는 하이퍼엣지를 구성하기 위해 세 가지 유형의 노드를 고려한다. 비디오에 해당하는 모든 하이퍼엣지와 노드는 하나의 하이퍼그래프를 형성한다.

w_{i}=\mathrm{FC} 1\left(\left[v_{i}, \sum_{v_{m} \in \Omega_{e_{j}}} v_{m}\right]\right),

여기서 FC1은 fully connected layer이고, $[\cdot, \cdot]$ 는 concatenation 연산을 나타낸다. $w_{i}$ 를 예측할 때, 우리는 노드 $v_{i}$ 의 feature뿐만 아니라 **해당 노드가 연결된 하이퍼엣지(즉, 그 하이퍼엣지에 연결된 모든 노드의 feature 합 $\sum_{v_{m} \in \Omega_{e_{j}}} v_{m}$ )**도 고려한다. 이 두 가지 유형의 feature를 concatenate함으로써, 모델은 노드 $v_{i}$ 가 전체 하이퍼엣지에 기여하는 정도를 학습하여 더 정확한 $w_{i}$ 를 생성한다. 그런 다음, 학습 가능한 가중치는 다음과 같이 얻을 수 있다:

\begin{aligned} \beta_{j, l} & =\operatorname{softmax}\left(\mathrm{FC} 2_{l}\left(z_{j}\right)+g\right) \\ \alpha_{j} & =\operatorname{sigmoid}\left(\mathrm{FC} 3\left(z_{j}\right)\right) \end{aligned}

여기서 $g$ 는 Gumbel $(0,1)$ 분포에서 i.i.d. 샘플링된 요소를 가진 벡터이다.

하이퍼엣지-노드 전파 (Hyperedge-to-Node Propagation): 하이퍼엣지 feature가 업데이트된 후, 우리의 목표는 노드의 feature를 갱신하는 것이다. 구체적으로, 더 복잡한 관계 정보를 담고 있는 하이퍼엣지의 feature는 상호 연결된 노드의 feature를 강화하고 업데이트하는 데 사용된다. 공식적으로, 이는 다음과 같이 정의될 수 있다:

v_{i}=h\left(\left[v_{i}, \sum_{e_{j} \in \mathcal{E}_{v_{i}}} e_{j}\right]\right) .

여기서 $\mathcal{E}_{v_{i}}$ 는 노드 $v_{i}$ 에 연결된 모든 하이퍼엣지의 집합을 나타내며, $h$ 는 multilayer perceptron이다. 우리는 위에서 설명한 양방향 메시지 전달 단계(bidirectional message passing phase)를 $K$ 번 반복하여 **강화된 프레임 feature $\hat{f}$ 와 쿼리 feature $\hat{q}$ **를 얻는다.

F. Training Hypergraph Neural Network without Annotations

수동으로 주석 처리된 데이터 없이 하이퍼그래프 신경망(hypergraph neural networks)을 학습시키는 것은 어려운 일이다. 이를 해결하기 위해, 우리는 생성된 moment와 query 간의 관계를 활용하여 손실 함수를 설계하고자 한다. 구체적으로, 생성된 moment-query 쌍의 경우, moment 내의 비디오 콘텐츠가 moment 외부의 콘텐츠보다 query와 더 관련성이 높다. 이는 feature 공간에서 긍정 샘플을 가깝게 하고 부정 샘플을 분리하는 contrastive learning과 일치한다.

주어진 비디오에서, query $q_j$ 에 해당하는 moment는 **긍정 moment $m_j^p$ **로 정의된다. 부정 moment는 다음과 같이 정의된다:

$m_j^p$ 이전에 오는 moment들( $m_j^{nl}$ 로 표기),
$m_j^p$ 이후에 오는 moment들( $m_j^{nr}$ 로 표기),
전체 비디오( $m_j^v$ 로 표기).

특히, $m_j^{nl}$ 과 $m_j^{nr}$ 은 query $q_j$ 와 관련된 내용을 포함하지 않으며, $m_j^v$ 는 관련 내용과 관련 없는 내용을 모두 포함한다. 이러한 관점에서, 다음 관계가 성립해야 한다: $C(m_j^p, q_j) > C(m_j^v, q_j) > C(m_j^n, q_j)$ . 여기서 $C(\cdot, \cdot)$ 는 **코사인 유사도(cosine similarity)**를 계산하며, $m_j^n$ 은 $m_j^{nl}$ 또는 $m_j^{nr}$ 을 의미한다. 또한, 주어진 비디오에 대해 하이퍼그래프는 생성된 $N$ 개의 moment-query 쌍을 동시에 모델링한다. 따라서 각 비디오에 대한 손실 함수는 다음과 같이 정의될 수 있다:

\begin{aligned} \mathcal{L}= & \frac{1}{N} \sum_{j=1}^{N} \mathcal{L}_{j}=\frac{1}{N} \sum_{j=1}^{N}\left(\operatorname { m a x } \left(0, C\left(m_{j}^{v}, q_{j}\right)-C\left(m_{j}^{p}, q_{j}\right)\right.\right. \\ & \left.+\gamma_{1}\right)+\max \left(0, C\left(m_{j}^{n l}, q_{j}\right)-C\left(m_{j}^{p}, q_{j}\right)+\gamma_{2}\right) \\ & \left.+\max \left(0, C\left(m_{j}^{n r}, q_{j}\right)-C\left(m_{j}^{p}, q_{j}\right)+\gamma_{2}\right)\right) \end{aligned}

여기서 $\gamma_1$ 과 $\gamma_2$ 는 margin으로, 유사하지 않은 쌍들이 얼마나 떨어져 있어야 하는지를 정의하는 하이퍼파라미터이다.

relation-aware node feature, 즉 $i$ -번째 frame $\hat{f}_{i}$ 와 query $\hat{q}_{j}$ 간의 cosine similarity를 통해 계산된 frame-query relevance score $r_{i j}=C\left(\hat{f}_{i}, \hat{q}_{j}\right)$ 를 사용하여, 우리는 $\mathcal{P}= \left\{\left(m_{j}, q_{j}\right)\right\}_{j=1}^{N}$ 에서 고품질의 moment-query 쌍을 식별하고 선택하는 것을 목표로 한다.

Moment-Query 쌍 선택: moment $m_{j}$ 와 query $q_{j}$ 간의 의미론적 유사성을 측정하기 위해, frame-query relevance를 moment-query relevance로 변환해야 한다. [61]에서 영감을 받아, 우리는 Fig. 5에 설명된 inner-outer score를 도입한다. 이 점수는 moment 내부에 있는 frame들의 평균 상관관계와 외부에 있는 frame들의 상관관계 간의 차이를 설명한다. 특히, 잘 매칭된 moment-query 쌍의 경우, moment 내의 frame들은 query와 밀접하게 상관관계를 가져야 한다. moment 외부의 frame들은 더 약한 상관관계를 가져야 한다. $j$ -번째 moment-query 쌍에 대한 매칭 점수는 다음과 같이 계산할 수 있다: $S_{j}=S_{j}^{\text {in }}-S_{j}^{\text {out }}=\frac{1}{l} \sum_{i=t_{s}}^{t_{e}} r_{i j}-\frac{1}{T-l}\left(\sum_{i=1}^{t_{s}-1} r_{i j}+\sum_{i=t_{e}+1}^{T} r_{i j}\right)$ ,

Fig. 5. hypergraph neural network에서 출력된 frame-query 유사도 곡선과 Eqn. (11)에 설명된 inner-outer score를 기반으로 한 moment-query 선택 및 개선의 개략도.

여기서 $t_{s}, t_{e}$ 및 $l=t_{e}-t_{s}+1$ 은 각각 $j$ -번째 moment의 시작 frame, 끝 frame 및 길이를 나타낸다. 우리는 후보 moment-query 쌍 $\mathcal{P}$ 를 가진 각 비디오 $\mathcal{U}$ 에 대해 가장 높은 매칭 점수를 가진 moment-query 쌍 $(m, q)$ 를 선택한다. 공식적으로는 다음과 같다.

(m, q) \leftarrow\left\{\left(m_{j}, q_{j}\right) \mid \underset{\left(m_{j}, q_{j}\right) \in \mathcal{P}}{\arg \max } S_{j}\right\}

Moment 경계 개선: moment 경계의 정밀도를 높이기 위해, 우리는 위 단계에서 선택된 moment에 대한 경계 개선 방법을 고안한다. 다음에서는 설명을 위해 오른쪽 경계만 논의한다. 우리의 방법은 Fig. 5에 나타난 바와 같이 개선 방향 결정과 점진적 개선의 두 단계로 구성된다. 첫째, 우리는 **양방향 섭동 함수(bidirectional perturbation function) $\Phi_{b}$ **를 도입하여 $m_{j}$ 의 경계를 $\delta \%$ 만큼 조절한다. 즉, 경계를 증가시키거나 감소시켜 새로운 섭동된 moment ( $m_{I}$ 및 $m_{I I}$ )를 다음과 같이 얻는다.

\left\{m_{j, \mathrm{I}}, m_{j, \mathrm{II}}\right\} \leftarrow \Phi_{b}\left(m_{j}\right),

일반성을 잃지 않고, $m_{j}=\left\{f_{i}\right\}_{i=t_{s, j}}^{t_{e, j}}$ 를 $t_{s, j}$ -번째 frame에서 시작하여 $t_{e, j}$ -번째 frame에서 끝나는 moment라고 하자. $m_{j, \mathrm{I}}$ 와 $m_{j, \mathrm{II}}$ 는 각각 $\left\{f_{i}\right\}_{i=t_{s, j}}^{t_{e, j}-\delta}$ 와 $\left\{f_{i}\right\}_{i=t_{s, j}}^{t_{e, j}+\delta}$ 로 표현될 수 있다. 둘째, Eqn. (11)을 사용하여 moment에 대한 inner-outer score를 계산하여 점수 $\left\{S_{j}, S_{j, \mathrm{I}}, S_{j, \mathrm{II}}\right\}$ 를 얻고, 이를 원래 moment의 점수와 비교하여 점수가 증가하는 방향으로 개선한다. 섭동된 moment의 점수가 원래 moment의 점수보다 크지 않으면 개선 과정은 즉시 중단된다. 셋째, 선택된 방향을 따라 점진적 개선을 진행한다. 구체적으로, 우리는 이전에 개선된 moment (예시에서는 $m_{j, \text { II }}$ )에 **단방향 섭동 함수(unidirectional perturbation function) $\Phi_{u}$ **를 다음과 같이 적용한다.

m_{j, \text { III }} \leftarrow \Phi_{u}\left(m_{j, \text { II }}\right) .

점수가 향상되는 한 선택된 방향으로 경계를 계속 조정하며, 점수가 감소할 때 (예: $m_{j, \text { III }}$ 의 점수가 $m_{j, \text { II }}$ 의 점수보다 낮을 때) 중단하여 **개선된 moment $\hat{m}_{j}$ **를 얻는다.

H. Deployment for Different VMR Settings

우리의 방법은 일반적이며 특정 데이터셋이나 설정에 국한되지 않는다. 각 데이터셋에 대해 데이터는 한 번만 생성되고 필터링되면 된다는 점이 중요하다. 생성된 데이터는 다양한 VMR 모델의 성능을 향상시키는 데 사용될 수 있다. 우리의 방법이 다양한 VMR 설정에 어떻게 적용될 수 있는지 다음과 같이 논의한다.

Fully-Supervised Setting [25], [26], [27], [29], [30], [31], [32], [33], [34], [35]: 이 설정에서는 moment-query 쌍이 제공되며, moment 경계가 직접적인 supervisory 정보로 사용된다. 따라서 우리가 제안하는 방법으로 생성된 moment-query 쌍은 이러한 유형의 접근 방식에 직접 적용될 수 있다. 학습 시에는 사람이 주석한 데이터와 우리가 생성한 데이터를 모두 사용하며, 테스트는 사람이 주석한 데이터에만 의존한다.
Weakly-Supervised Setting [36], [37], [38], [39], [40]: 이 설정에서는 주어진 video-query 쌍이 비디오에 쿼리로 설명된 moment가 포함되어 있음을 나타낸다. 그러나 이 moment의 시작 및 종료 시간은 제공되지 않으므로, moment에 대한 시간적 주석이 없다. 우리의 방법은 주어진 비디오로부터 쿼리를 생성할 수 있으므로, 생성된 데이터를 기존의 weakly supervised 방법들을 학습시키는 데 직접 사용할 수 있다. 우리는 사람이 주석한 데이터와 생성된 데이터를 모두 사용하여 VMR 모델을 학습시키고, 사람이 주석한 데이터로 테스트한다.
Zero-Shot Setting [10], [11], [12], [13]: 비디오(어떤 주석도 없음)만 사용 가능하다고 가정하며, 시간적 주석과 해당 쿼리를 자동으로 포함하는 moment를 발굴해야 한다. 우리의 방법은 비디오에서 moment-query 쌍을 직접 획득하므로 이 설정에 본질적으로 적합하다. 학습 시에는 생성된 데이터만 사용하며, 기존 방법들과의 공정한 비교를 위해 사람이 주석한 데이터로 테스트를 수행한다.

I. Difference From Graph-Based VMR Methods

우리는 그래프 기반 VMR(Video Moment Retrieval) 방법과 문제 정의, 동기, 그리고 방법론에서 상당한 차이를 보인다.

현재의 그래프 기반 방법들이 비디오-쿼리 관계를 모델링하여 특정 순간(moment)을 찾는 데 집중하는 것과 달리, 우리의 하이퍼그래프(hypergraph) 접근 방식은 고품질의 moment-query 쌍을 선택하고 정제하는, 다른 문제를 다룬다.
우리의 moment-query 선택 문제는 **복잡한 다중 노드 상호작용(query-frame, frame-frame, query-query)**을 포함하는데, 이는 쌍별 연결만 허용하는 전통적인 그래프로는 포착할 수 없다. 이를 극복하기 위해 우리는 단순히 그래프 기반 방법을 확장하는 것이 아니라, 고품질 데이터를 선택하기 위한 다차원 관계를 표현하는 하이퍼그래프를 구성하는 새로운 방법을 제안한다.

IV. Experimental Details

A. Datasets

Charades-STA [62]는 Charades 데이터셋 [63]을 기반으로 하며, 다양한 실내 일상 활동을 묘사하는 6,672개의 비디오를 포함한다. 학습 및 테스트를 위해 각각 12,408개와 3,720개의 moment-query 쌍이 존재한다. 언어 쿼리의 평균 길이, 평균 비디오 길이, 비디오당 평균 활동 수는 각각 8.6단어, 29.8초, 2.3개이다. 학습 시, 우리는 우리의 방법으로 생성된 5,315개의 moment-query 쌍을 포함시킨다.

ActivityNet Captions (ANet-Captions) [64]는 ActivityNet v1.3 [65]을 기반으로 하며, 20,000개의 untrimmed 비디오와 100,000개의 설명으로 구성된다. 각 비디오는 약 2분 길이이며, 주석이 달린 moment는 몇 초에서 3분 이상까지 다양하다. 쿼리의 평균 길이는 13.5단어이다. 공개된 분할 방식에 따라, 우리는 학습, 검증 및 테스트를 위해 각각 37,417개, 17,505개, 17,031개의 moment-query 쌍을 사용한다. 학습 시, 우리는 우리가 생성한 10,009개의 moment-query 쌍을 학습 세트에 포함시킨다.

QVHighlights [31]는 10,148개의 비디오, 18,367개의 moment, 10,310개의 문장 설명으로 구성된다. 언어 쿼리의 평균 길이는 11.3단어이며, 비디오의 길이는 150초이고, 각 moment는 평균 24.6초에 걸쳐 있다. 공식 데이터셋에 ground truth가 포함된 테스트 세트가 없으므로, 우리는 학습 및 테스트를 위해 각각 7,218개의 학습 샘플과 1,550개의 검증 샘플을 사용한다. 학습 시, 우리는 우리가 생성한 7,100개의 moment-query 쌍을 학습 세트에 포함시킨다.

B. Evaluation Metric

우리는 [62]에서 제안된 방법을 채택하여 평가 지표인 " $\mathrm{R} @ n$ , IoU $=a$ "를 계산한다. 구체적으로, 이 지표는 상위 $n$ 개 예측 중 최소한 하나의 올바른 grounding 예측을 포함하는 테스트 샘플의 비율을 나타낸다. 여기서 올바른 예측이란, 예측과 ground truth 간의 Intersection over Union (IoU)이 $a$ 를 초과하는 경우를 의미한다.

C. Implementation Details

Moment-Query Generation: Charades-STA, ANetCaptions, QVHighlights 데이터셋의 경우, 우리는 사전학습된 I3D [66], C3D [67], CLIP [68] 모델을 각각 사용하여 각 프레임/스니펫의 visual feature를 추출한다. 그 다음, 비디오 길이를 정규화하기 위해 128개의 feature를 균일하게 샘플링한다. temporal moment의 경우, K-means를 사용하여 5개의 초기 moment를 생성한다. 우리는 LaViLa [55]를 따라 $N_m=8$ 로 설정하고, nucleus sampling을 $p=0.95$ 로 사용하며, $r=10$ 개의 후보를 반환한다. 더 많은 action 정보를 얻기 위해 가장 긴 query를 출력으로 선택한다. BLIP [56]의 경우, moment에서 4개의 프레임을 무작위로 샘플링하여 프레임 수준의 query를 얻는다.

TABLE I Charades-Sta에서 우리의 생성된 Annotation을 사용한 다양한 Vmr 모델의 개선. *는 I3D [66] Feature를 나타내고, 다른 것들은 VGG [70] Feature를 사용한다. CMN은 하나의 Proposal만 예측하므로 R@5 결과가 없음에 유의하라.

Supervision	Methods	R@1 $\mathrm{IoU}=0.5$	R@5 $\mathrm{IoU}=0.5$
Fully	MomentDiff [32]	51.42	60.13
	MomentDiff + Ours	55.91(+4.49)	64.30(+4.17)
	TRDETR [26]	53.25	77.72
	TRDETR + Ours	56.88(+3.63)	79.49(+1.77)
	CGDETR [29]	55.43	79.62
	CGDETR + Ours	58.49(+3.06)	83.23(+3.61)
	EMB* [33]	58.58	65.46
	EMB* + Ours	60.32(+1.74)	67.69(+2.23)
	MESM [27]	56.42	79.44
	MESM + Ours	57.90(+1.48)	82.20(+2.76)
	TaskWeave [25]	55.81	83.04
	TaskWeave + Ours	57.02(+1.21)	84.60(+1.56)
Weakly	CPL* [9]	49.40	85.18
	CPL + Ours	52.50(+3.10)	86.64(+1.46)
	CNM* [37]	35.24	-
	CNM + Ours	37.49(+2.25)	-

Multi-Modal Hypergraph: 우리는 비디오 스니펫과 쿼리에서 feature를 추출하기 위해 사전학습된 InternVideo [69] 모델을 채택한다. 스니펫을 구성하기 위해 8개의 프레임을 균일하게 샘플링한다. 또한, Charades-STA, QVHighlights, ANet-Captions의 경우, 각 비디오를 각각 128, 150, 200개의 스니펫으로 균일하게 분할하여 hypergraph neural network의 입력으로 사용한다. 우리는 [9], [60]을 따라 파라미터를 $L=10, K=2, \gamma_1=0.5, \gamma_2=0.55$ 로 설정한다. 우리는 Sec. VI-I. 3에서 보조 semantic node의 수에 대한 ablation 실험을 수행했으며, 최종적으로 상위 5개 node를 선택했다. 학습을 위해 mini-batch size는 32, learning rate는 0.0004를 사용한다.

V. Results on Various Datasets and VmR Models

A. Improvements on Charades-STA

공정한 비교를 위해, 우리는 비교 대상 방법론들과 동일한 feature(즉, VGG 및 I3D)를 사용하고 동일한 실험 설정을 채택한다. 우리의 접근 방식은 사람이 주석한 데이터에 우리 방법으로 생성된 데이터를 추가하여 학습에 활용한다. Table I에서 볼 수 있듯이, 다양한 supervision 설정에서 모든 모델에 걸쳐 상당한 성능 향상이 관찰된다. 특히, 최대 성능 향상은 4.49%에 달했다. CGDETR 모델이 VGG feature를 사용할 때 3.06%라는 놀라운 개선을 달성하여 새로운 state-of-the-art 벤치마크를 수립했다는 점은 특히 주목할 만하며, 이는 우리 방법의 효능을 강조한다.

B. Improvements on QVHighlights

Table II에서, 우리가 생성한 데이터를 5가지 다른 VMR(Video Moment Retrieval) 방법과 통합한 결과, 상당한 성능 향상이 나타났다. 특히, 최대 5.42%의 성능 향상이 있었으며, 이미 높은 성능을 달성한 CGDETR에서도 추가적으로 2.39%의 개선이 이루어졌다. 이는 우리의 방법이 데이터 중심 패러다임 내에서 모델 성능을 향상시키는 새로운 관점을 제공함을 시사한다. 참고로, 이 데이터셋에는 두 가지 주요 학습 접근 방식이 있다 [31]: 하나는 수동으로 주석된 프레임별 saliency score를 추가적인 supervisory 정보로 활용하는 것이고, 다른 하나는 모든 프레임에 saliency score 1을 할당하는 것이다. 우리는 후자의 방식을 선택했다.

TABLE II QVHighlights에서 우리의 생성된 Annotation을 사용하고 Slowfast [71] 및 CLIP [68] Feature를 사용하여 다양한 VMR 모델의 개선 사항

Methods	R@1 $\mathrm{IoU}=0.5$	R@5 $\mathrm{IoU}=0.5$
MomentDETR [31]	53.55	77.55
MomentDETR+ Ours	58.97(+5.42)	79.68(+2.13)
TRDETR [26]	64.06	79.29
TRDETR+ Ours	67.81(+3.75)	86.26(+6.97)
EATR [30]	60.06	79.68
EATR + Ours	63.68(+3.62)	80.84(+1.16)
QDDETR [34]	61.23	79.23
QDDETR + Ours	63.68(+2.45)	81.03(+1.80)
CGDETR [29]	66.13	81.94
CGDETR + Ours	68.52(+2.39)	85.16(+3.22)
TaskWeave [25]	62.32	83.74
TaskWeave+ Ours	64.19(+1.87)	85.68(+1.94)
MESM [27]	62.39	79.55
MESM + Ours	64.13(+1.74)	81.35(+1.80)

TABLE III C3D [67] Feature를 사용하여 ANet-Captions에서 우리의 생성된 Annotation을 사용한 다양한 VMR 모델의 개선 사항. CMN 방법은 한 번에 하나의 Proposal만 예측하므로 R@5 Metric은 없음.

Supervision	Methods	R@1 $\mathrm{IoU}=0.5$	R@5 IoU=0.5
Fully	EMB [33]	44.04	53.13
	EMB + Ours	45.65(+1.61)	54.14(+1.01)
	MMN [35]	47.91	78.06
	MMN + Ours	48.83(+0.92)	79.08(+1.02)
Weakly	CPL [9]	30.79	35.18
	CPL + Ours	32.75(+1.96)	43.26(+8.08)
	CNM [37]	29.75	-
	CNM + Ours	31.35(+1.60)	-

C. Improvements on ANet-Captions

ANet-Captions는 대규모 데이터셋으로, supervision 설정과 관계없이 4가지 VMR(Video Moment Retrieval) 방법들이 우리 방법으로 생성된 데이터로 학습될 때 일관되게 성능 향상을 보인다. Table III에서, 약한 supervision 설정(weakly supervised setting) 하에서 CPL은 1.96%의 성능 향상을 보였다. **완전한 supervision 설정(fully supervised setting)**은 쿼리와 해당 경계(boundary)를 모두 지정해야 하므로 더 큰 도전 과제를 제시하지만, EMB 모델은 여전히 1.61%의 향상을 달성했다. 이는 우리 방법의 적용 가능성이 특정 데이터셋이나 설정에 국한되지 않음을 보여준다.

VI. Ablation Study

A. Does Hypergraph Select High-Quality Moment-Query Pairs?

우리는 학습을 위해 주어진 5개의 moment-query 쌍 중에서 가장 높은 품질의 쌍을 선택하기 위해 hypergraph를 활용한다. 여기서는 세 가지 실험 변형을 설계했다:

5개의 쌍 중에서 무작위로 하나를 선택하는 방식.
hypergraph의 강화 없이 프레임 및 쿼리 feature로부터 직접 유사도를 계산하는 방식.

Fig. 6. Charades-STA에서 hypergraph를 사용한 선택의 효과, R@1, IoU=0.5 기준으로 측정. w/o hypergraph: hypergraph의 강화 없이 프레임 및 쿼리 feature를 사용.

Fig. 7. hypergraph가 frame-query 관련성 향상에 미치는 효과. Avg score: ground truth (GT) 내부의 평균 frame-query 유사도가 GT 외부의 유사도를 초과하는 인스턴스의 비율.

Fig. 6의 결과는 두 가지 주요 관찰로 이어진다:

무작위 선택만으로도 VMR 모델의 성능이 약간 향상되는데, 이는 기존 데이터셋의 ground truth 위에 추가 데이터를 생성하는 아이디어가 유효함을 나타낸다.
frame-query 관련성을 기반으로 쌍을 선택할 때, 우리의 hypergraph를 통해 강화된 context-aware frame/query feature 표현이 향상된 능력을 보여준다. 이러한 강화는 moment-query 관계를 더 정확하게 측정할 수 있게 하여, 더 높은 품질의 데이터를 선택하게 되고, 이는 CGDETR에서 VMR 성능을 1.31%, CPL에서 1.36% 향상시켰다.

B. Does Hypergraph Improve Moment-Query Relevance?

hypergraph가 moment-query relevance에 미치는 영향을 평가하기 위해, 우리는 frame-query 유사도에 중점을 둔 두 가지 평가 지표를 고안했다. 첫 번째 지표는 ground truth (GT) 내부의 평균 frame-query 유사도 점수가 GT 외부의 점수를 초과하는 인스턴스의 비율을 계산한다. Fig. 7에서 볼 수 있듯이, 세 가지 데이터셋 모두에서 hypergraph 적용 후 두 지표 모두에서 상당한 개선이 관찰되었다. 이는 hypergraph가 복잡한 frame-query 관계를 모델링할 수 있으며, 우리 방법의 성능 향상이 moment-query relevance의 보다 정확한 결정에 기인한다는 것을 나타낸다.

우리는 또한 frame-query 유사도 점수에 따라 상위 $n$ 개 frame의 인덱스 집합 중 GT 내부에 존재하는 비율에 초점을 맞춘 지표를 설계했다. Fig. 8에서 보듯이, hypergraph 적용 후 상위 $n$ 개 지표에서 상당한 개선이 있었다. 이는 hypergraph가 복잡한 frame-query 관계를 모델링할 수 있으며, 우리 방법의 성능 향상이 moment-query relevance의 보다 정확한 평가에 기인한다는 것을 시사한다.

Fig. 8. Charades-STA 데이터셋에서 hypergraph에 의한 frame-query relevance 개선. Percentage (%): frame-query 유사도 점수에 따라 상위 $n$ 개 frame의 인덱스 집합 중 ground truth 내부에 존재하는 비율을 나타낸다.

TABLE IV Charades-Sta에서 Hypergraph Neural Network의 효과. 네트워크는 유사한 수의 파라미터를 유지함.

Methods	Variants	# Params	$\mathrm{R} @ 1, \mathrm{IoU}=0.5$
	Baseline	-	55.43
CGDETR	MLP	6.30 M	56.53
(Fully)	Transfomer	7.29 M	56.99
	Ours	6.03 M	$\mathbf{5 8 . 4 9}$
	Baseline	-	49.40
CPL	MLP	6.30 M	49.91
(Weakly)	Transfomer	7.29 M	50.95
	Ours	6.03 M	$\mathbf{5 2 . 5 0}$

C. Do We Need Hyper-Interaction Between Frame and Query?

프레임과 쿼리 간의 관계를 모델링하는 데 있어 하이퍼그래프(hypergraph)의 효율성을 입증하기 위해, 우리는 하이퍼그래프를 다음 두 가지로 대체하여 실험을 진행했다:

MLP: 노드 간 상호작용이 없는 모델.
Transformer: 모든 노드가 서로 상호작용하며, 이는 학습 가능한 엣지를 가진 완전 연결 그래프(fully-connected graph)와 동일하다.

Table IV에서 볼 수 있듯이, 하이퍼그래프 기반의 데이터 필터링을 사용했을 때 성능이 가장 우수하다. 구체적으로, MLP 및 Transformer와 비교했을 때:

약한 지도 학습(weakly supervised) 설정에서 CPL 방법의 성능은 각각 2.59% 및 1.55% 향상되었다.
완전 지도 학습(fully supervised) 설정에서 CGDETR 방법의 성능은 각각 1.96% 및 1.5% 향상되었다.

우리는 다음 사항들을 관찰했다:

MLP만 사용하는 경우 프레임과 쿼리 간의 관계를 무시하게 되는데, 이 관계는 모델이 **비디오 텍스트의 의미론적 정보(semantic information)**를 이해하는 데 매우 중요하다.
Transformer/완전 연결 그래프로 모든 노드를 모델링하는 것은 불필요한 노이즈를 유발하고 계산 요구량(computational demand)을 증가시킬 수 있다.

따라서, 하이퍼그래프 신경망(hypergraph neural network)을 활용하면 상호작용하는 노드를 선택적으로 구성할 수 있으며, 프레임-쿼리 관계를 더 효과적으로 모델링할 수 있다.

D. How do auxiliary moment-query pairs help VMR?

VMR에서 보조 moment-query 쌍의 역할을 더 자세히 탐구하기 위해, 우리는 학습 세트에서 생성된 데이터와 테스트 세트에서의 결과를 시각화한다. Fig. 9 상단의 예시들은 우리의 보조 moment-query 쌍이 데이터셋의 원본 인간 주석과 유사한 맥락을 공유함을 보여준다. 하지만 이들은 의미론적으로 다르며, 더 풍부한 학습 샘플 세트를 제공한다. 하단 샘플에서 보듯이, 원본 데이터셋으로 학습된 VMR 모델은 목표 moment와 유사한 배경 및 캐릭터를 만났을 때 혼동하는 경향이 있어, 부정확한 시간적 예측을 초래한다. 그러나 우리의 보조 주석으로 학습했을 때, VMR 모델은 더 정확한 localization이 가능하다. 그럴듯한 이유는 우리가 생성한 데이터가 VMR 모델이 더 미세한 의미론을 학습하게 하여 비디오 콘텐츠를 이해할 수 있도록 돕기 때문이다.

TABLE V PSVL/SPL에 의해 생성된 데이터에 대한 우리의 하이퍼그래프 기반 선택 전략의 효과. 참고: 우리는 튜닝 없이 학습된 하이퍼그래프 신경망을 적용한다.

Training Data	R@1,IoU=0.5
GT	58.58
GT + PSVL [10]	56.83
GT + PSVL (selected by ours)	$59.41(\mathbf{2 . 5 8} \uparrow)$
GT + SPL [12]	58.25
GT + SPL (selected by ours)	$59.17(\mathbf{0 . 9 2} \uparrow)$

TABLE VI 다양한 데이터셋에 걸친 우리 방법의 일반화 성능 (CGDETR, R@1, IOU = 0.5)

	Charades-STA (D1)		QVHighlights (D2)
Baseline	D1 $\rightarrow$ D1	D2 $\rightarrow$ D1	Baseline	D2 $\rightarrow$ D2	D1 $\rightarrow$ D2
55.43	$\mathbf{5 8 . 4 9}(+\mathbf{3 . 0 6})$	$\mathbf{5 7 . 4 7}(+\mathbf{2 . 0 4})$	66.13	$\mathbf{6 8 . 5 2}(+\mathbf{2 . 3 9})$	$\mathbf{6 7 . 2 3}(+\mathbf{1 . 1 0})$

E. Can Our Method Generalize to Unseen Queries/Datasets?

Unseen Query에 대한 일반화 (Generalization to Unseen Queries):
Section III-C에서 제안된 방법으로 생성된 데이터 외에도, 우리는 Charades-STA에서 PSVL/SPL이 생성한 moment-query 쌍을 hypergraph neural network에 입력하여 선택 과정을 거쳤다. 우리는 두 가지 변형을 설계했다: PSVL/SPL이 생성한 데이터를 ground truth (GT)에 선택 유무와 관계없이 추가하는 방식이다. Table V에서, PSVL/SPL이 생성한 데이터를 직접 추가하는 것은 성능 저하를 초래함을 관찰했다. 이는 기존 방법으로 생성된 데이터에 상당한 노이즈가 포함되어 있음을 시사한다. 대조적으로, 우리의 hypergraph를 통한 선택 후에는 2.58% / 0.92%의 성능 향상이 있었다. 우리는 PSVL/SPL이 생성한 데이터로 학습된 hypergraph neural network를 fine-tuning하지 않았다. 이는 우리 접근 방식의 **일반성(generality)**을 더욱 강조한다.
Unseen Dataset에 대한 일반화 (Generalization to Unseen Datasets):
우리는 Charades-STA (D1)와 QVHighlights (D2)를 사용하여 cross-dataset 실험을 수행했다. 두 가지 시나리오를 테스트했다: D2에서 hypergraph neural network를 학습하고 D1에서 데이터를 선택하는 경우 (D2 $\rightarrow$ D1), 그리고 그 반대의 경우 (D1 $\rightarrow$ D2). Table VI에서 보듯이, cross-dataset 시나리오에서 baseline 대비 개선 폭은 동일 데이터셋 내에서 관찰된 것만큼 크지는 않지만, 최소 1.1% 이상의 향상이 여전히 존재한다. 구체적으로, R@1, IoU=0.5의 경우, D2 $\rightarrow$ D1은 57.47%를 달성하여 2.04% 향상되었고, D1 $\rightarrow$ D2는 67.23%를 달성하여 1.1% 향상되었다. 이러한 결과는 우리 방법이 이전에 보지 못한 데이터셋에서도 데이터를 선택하고 정제하여 annotation 품질을 향상시킬 수 있음을 나타낸다.

F. Can Our Method Work With the Zero-Shot VMR Setting?

하이퍼그래프 신경망 학습을 포함한 데이터 생성 및 선택 과정에서 어떠한 사람의 주석(human annotation)도 필요하지 않으며, 이는 zero-shot 설정과 일치한다. 우리는 Charades-STA 데이터셋에서 기존의 zero-shot 접근 방식들과 우리의 방법을 Table VII에서 비교한다. 대부분의 비교 대상

Fig. 9. QVHighlights 데이터셋에 대한 정성적 결과. 상단: 우리의 방법은 배경은 유사하지만 의미적으로는 사람의 주석과 다른 순간들을 자동으로 주석한다. 하단: 우리의 보조 데이터로 학습하면 모델이 더 미세한 의미를 학습하고 순간들을 정확하게 찾아낼 수 있다.

TABLE VII Charades-STA에서 Zero-Shot VmR 방법들과의 비교. 공정한 비교를 위해 SPL [12]와 동일한 Backbone을 사용하였다.

Methods	R@1
	IoU=0.5	IoU=0.7
PSVL [10]	31.29	14.17
PZVMR [13]	33.21	18.51
Language-free [11]	37.24	19.33
SPL [12]	40.70	19.62
Ours	$\mathbf{42 . 9 3}$	$\mathbf{21 . 6 4}$

TABLE VIII CGDETR [29] 방법을 사용한 Charades-STA에서 생성, 선택 및 정제 단계의 효과

Generate	Select	Refine	R@ 1, IoU $=0.5$
			55.43
$\checkmark$			56.77
$\checkmark$	$\checkmark$		57.55
$\checkmark$	$\checkmark$	$\checkmark$	$\mathbf{5 8 . 4 9}$

방법들은 BERT [72], CLIP [68], BLIP [56]과 같은 대규모 사전학습 모델을 사용한다. SPL과의 공정한 비교를 위해, 우리는 backbone과 학습 설정의 일관성을 유지했으며, SPL이 사용하는 moment-query 쌍을 우리의 방법으로 생성된 쌍으로 대체한 것만이 유일한 예외이다. 우리의 방법은 IoU가 0.5일 때 R@1에서 2.23%, IoU가 0.7일 때 2.02% 더 높은 성능으로 SPL을 능가한다. 특히, SPL이 48,000개 이상의 moment-query 쌍을 생성하는 반면, 우리의 방법은 약 25,000개의 쌍을 생성하여 더 높은 효율성을 보여준다.

생성된 moment-query 쌍을 선택하고 정제하는 방법의 효과를 검증하기 위해, 우리는 Table VIII에 요약된 각 단계별 비교를 수행한다. 여기에는 **생성(보조 데이터 사용 여부), 선택(hypergraph 기반 선택), 그리고 경계 정제(boundary refinement)**가 포함된다.

$\mathrm{R} @ 1, \mathrm{IoU}=0.5$ metric을 사용했을 때, 생성된 데이터로 직접 학습하는 것만으로도 성능이 크게 향상되었다. 이를 기반으로, 데이터 선택을 통해 성능이 0.78% 증가했으며, 추가적인 경계 정제를 통해 0.94%의 성능 향상을 얻었다. 이 세 단계를 모두 동시에 적용했을 때, 성능은 55.43%에서 58.49%로 상승하며 최고점에 도달했다. 이는 우리 방법이 더 정확하게 일치하는 moment-query 쌍을 식별하고, moment의 경계를 더 정밀하게 정제할 수 있음을 나타낸다.

H. Is Our Hypergraph Method Efficient and Scalable?

하이퍼그래프 및 HGNN의 복잡도 분석: 우리는 단 두 개의 layer로 구성된 Hypergraph Neural Network (HGNN) 를 사용한다. Table IX에서 Charades-STA 데이터셋을 예로 들면, 우리 HGNN은 6.03M 개의 파라미터, 5.21 GFLOPS의 연산 비용을 가지며, batch size 32에서 1,433MB의 GPU 메모리만을 필요로 한다. 학습은 단일 NVIDIA GeForce GTX 4090 GPU 또는 더 작은 메모리 용량의 GPU에서도 0.3시간 내에 완료된다. 추론 시, 5개의 후보 중에서 최적의 moment-query 쌍을 선택하는 데 평균 0.0126초가 소요되며, 전체 데이터셋에 대해 총 67초가 걸려 낮은 연산 요구량을 보여준다. 특히, 우리 방법으로 데이터를 한 번 생성하면 이 데이터셋의 모든 모델 성능이 향상되어 높은 효율성을 입증한다.
우리 방법의 확장성: Table IX에 제시된 ActivityNet Captions 및 Charades-STA 데이터셋 결과를 비교해보면, 학습 및 테스트 시간이 데이터셋 크기 증가에 따라 선형적인 성장 추세를 보여 우리 방법의 확장성을 입증한다. 특히, moment-query 쌍을 선택하고 정제하는 전체 과정은 사람의 개입을 전혀 필요로 하지 않으므로, 우리 방법은 새로운 데이터셋에 대해 HGNN을 학습시켜 데이터를 선택하고 어노테이션 품질을 자동으로 향상시킬 수 있다. 우리는 Charades-STA, QVHighlights, ActivityNet-Captions와 같은 데이터셋에서 우리 방법의 효율성을 검증했다. 더 큰 데이터셋에서의 효과를 탐구하는 것은 향후 연구를 위한 흥미로운 방향이며, 우리의 기여가 이 분야의 추가 연구에 영감을 주기를 바란다.

TABLE IX 다양한 데이터셋에서 파라미터 수, 연산 비용, 학습/추론 시간 관련 복잡도 분석. GFLOPs: Giga floating-point Operations Per second. # M-Q Pairs: 선택할 moment-query 쌍의 수

Dataset	Feature Dimensions	Parameters	GPU Memory	GFLOPs	# M-Q Pairs	Training Time	Inference Time
Charades-STA	$(128,768)$	6.03 M	1433 M	5.21	25845	0.30 hours	67 seconds
QVhighlights	$(150,768)$	6.03 M	1467 M	5.97	35400	0.47 hours	97 seconds
ActivityNet Captions	$(200,768)$	6.03 M	1511 M	7.68	44153	0.78 hours	132 seconds

TABLE X Charades-STA에서 moment 외부의 Semantic Node 효과

R@1, IoU=0.5	CGDETR (Fully)	CPL (Weakly)
Baseline	55.43	49.40
Ours without semantic nodes	$\mathbf{57 . 5 0}(+\mathbf{2 . 0 7})$	$\mathbf{51 . 5 2}(+\mathbf{2 . 1 2})$
Ours with semantic nodes	$\mathbf{58 . 4 9}(+\mathbf{3 . 0 6})$	$\mathbf{52 . 5 0}(+\mathbf{3 . 1 0})$

Fig. 10. Charades-STA에서 하이퍼파라미터 $\delta$ 의 효과.

성능 저하를 보인다. 구체적으로, R@1, IoU=0.5 지표는 semantic node를 포함하는 것이 CGDETR (Fully)에서 3.06%, CPL (Weakly)에서 3.10%의 성능 향상을 가져온다는 것을 보여준다. 반면, 이 노드들을 제외하면 각각 2.07%와 2.12%의 더 작은 향상에 그친다. 이는 moment 외부의 semantic node를 통합하는 것이 추가적인 문맥 정보를 활용하여 모델 성능을 효과적으로 향상시킨다는 것을 입증한다. 2) 정제 단계에서 $\delta$ 의 효과: 우리의 정제 단계는 **단 하나의 하이퍼파라미터 $\delta$ **만을 사용하며, 이는 각 반복마다 비디오 전체 길이의 $\delta\%$ 를 경계 조정 단위로 정의한다. Fig. 10은 $\delta$ 를 변화시키는 것이 성능을 크게 향상시킨다는 것을 보여준다. $\delta$ 가 너무 커지면 성능이 저하되는데, 이는 $\delta$ 값이 클수록 조정이 거칠어져 정확한 경계 추정이 더 어려워지기 때문일 가능성이 높다. 3) 보조 Semantic Node 수의 효과: moment 외부의 semantic node 수가 모델 성능에 미치는 영향을 조사하기 위해, 우리는 다양한 수의 $k$ semantic node를 사용하여 비교를 수행한다. Fig. 11에서 보듯이, $k=5$ 일 때 모델이 최적의 성능을 보인다. 우리는 노드 수가 불충분하면 moment 외부의 동일한 동작을 포함하는 프레임 정보와 의미적으로 관련된 프레임 간의 잠재적 상관관계를 완전히 활용하지 못한다고 가정한다. 반대로, 과도한 수의 노드는 불필요한 노이즈를 유발할 수 있다. 4) Inner-Outer Score 사용의 효과: inner-outer score를 사용하는 직관은 moment 내부의 프레임이 외부 프레임보다 쿼리와 더 밀접하게 관련되어야 한다는 것이다. 그 효과를 추가로 검증하기 위해 두 가지 변형을 설계했다: 1) Max:

Fig. 11. Charades-STA에서 보조 semantic node 수의 효과.

TABLE XI Charades-STA에서 다양한 Moment-Query 매칭 방법 비교

R@1,IoU=0.5	CGDETR (Fully)	CPL (Weakly)
Baseline	55.43	49.40
Max	$\mathbf{56 . 5 6}(+\mathbf{1 . 1 3})$	$\mathbf{5 1 . 1 4}(+\mathbf{1 . 7 4})$
Mean	$\mathbf{5 6 . 9 4}(+\mathbf{1 . 5 1})$	$\mathbf{5 0 . 8 9}(+\mathbf{1 . 4 9})$
Inner-outer score	$\mathbf{5 8 . 4 9}(+\mathbf{3 . 0 6})$	$\mathbf{52 . 5 0}(+\mathbf{3 . 1 0})$

moment 내 최대 유사도를 점수로 사용한다. 2) Mean: moment 내 평균 유사도를 점수로 사용한다. Table XI에서 보듯이, inner-outer score를 사용하여 moment-query 쌍의 매칭 정도를 평가하는 것이 가장 좋은 성능을 달성한다. 이는 moment 내부 및 외부 정보를 모두 고려하는 것이 정확한 경계를 가진 moment를 더 효과적으로 선택할 수 있음을 나타낸다.

VII. Conclusion

우리는 기존 벤치마크 데이터셋으로 학습할 때 VMR 모델이 직면하는 희소한 어노테이션(sparse annotation) 문제를 해결하기 위해, 보조 학습 데이터(auxiliary training data)를 생성하는 새로운 하이퍼그래프 기반 접근 방식인 HyperAux를 도입했다. 우리는 모멘트(moment)와 쿼리(query) 간의 의미적 및 시간적 정렬(semantic and temporal alignment) 측정의 정밀도를 높이는 데 집중하여, 기존 데이터셋에서 고품질의 모멘트-쿼리 쌍을 발굴했다.

비디오에서 모멘트-쿼리 후보를 생성한 후, 우리는 프레임과 쿼리를 노드(node)로 간주하고, 이들을 하이퍼엣지(hyperedge)로 연결하여 관계를 묘사함으로써 멀티모달 하이퍼그래프(multi-modal hypergraph)를 형성했다. 그런 다음, 하이퍼그래프 신경망(hypergraph neural network)을 활용하여 모멘트, 프레임, 쿼리 간의 메시지 교환을 촉진했다. 이 접근 방식은 하이퍼그래프가 복잡한 고차 관계(high-order relationships)를 표현하는 능력을 활용하여, 모멘트-쿼리 호환성 평가를 개선하고 결과적으로 더 높은 품질의 VMR 학습 데이터를 선택할 수 있게 했다.

우리의 보조 데이터를 통합함으로써, 세 가지 널리 알려진 VMR 데이터셋에서 fully-/weakly-supervised 및 zero-shot 설정 하의 12개 VMR 모델의 성능이 현저하게 향상되었다.

HyperAux: Hyper-Interaction으로 보조 모멘트-쿼리 쌍을 생성하여 Video Moment Retrieval 성능 개선

Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction

Abstract

I. Introduction

A. Video Moment Retrieval

B. Hypergraph for Vision Tasks

III. Method

A. Notations

B. General Scheme

C. Moment-Query Candidate Pairs Generation

E. Relation-Aware Frame/Query Representation Learning

F. Training Hypergraph Neural Network without Annotations

G. Moment-Query Pair Selection and Refinement via Refined Frame-Query Relevance

H. Deployment for Different VMR Settings

I. Difference From Graph-Based VMR Methods

IV. Experimental Details

A. Datasets

B. Evaluation Metric

C. Implementation Details

V. Results on Various Datasets and VmR Models

A. Improvements on Charades-STA

B. Improvements on QVHighlights

C. Improvements on ANet-Captions

VI. Ablation Study

A. Does Hypergraph Select High-Quality Moment-Query Pairs?

B. Does Hypergraph Improve Moment-Query Relevance?

C. Do We Need Hyper-Interaction Between Frame and Query?

D. How do auxiliary moment-query pairs help VMR?

E. Can Our Method Generalize to Unseen Queries/Datasets?

F. Can Our Method Work With the Zero-Shot VMR Setting?

G. Are Hypergraph-Based Selection and Refinement Effective?

H. Is Our Hypergraph Method Efficient and Scalable?

VII. Conclusion

Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction

Abstract

I. Introduction

II. Related Work

A. Video Moment Retrieval

B. Hypergraph for Vision Tasks

III. Method

A. Notations

B. General Scheme

C. Moment-Query Candidate Pairs Generation

D. Moment-Query Multi-Modal Hypergraph Construction

E. Relation-Aware Frame/Query Representation Learning

F. Training Hypergraph Neural Network without Annotations

G. Moment-Query Pair Selection and Refinement via Refined Frame-Query Relevance

H. Deployment for Different VMR Settings

I. Difference From Graph-Based VMR Methods

IV. Experimental Details

A. Datasets

B. Evaluation Metric

C. Implementation Details

V. Results on Various Datasets and VmR Models

A. Improvements on Charades-STA

B. Improvements on QVHighlights

C. Improvements on ANet-Captions

VI. Ablation Study

A. Does Hypergraph Select High-Quality Moment-Query Pairs?

B. Does Hypergraph Improve Moment-Query Relevance?

C. Do We Need Hyper-Interaction Between Frame and Query?

D. How do auxiliary moment-query pairs help VMR?

E. Can Our Method Generalize to Unseen Queries/Datasets?

F. Can Our Method Work With the Zero-Shot VMR Setting?

G. Are Hypergraph-Based Selection and Refinement Effective?

H. Is Our Hypergraph Method Efficient and Scalable?

VII. Conclusion