LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR

LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval

Park, Seojeong, et al. "Length-Aware DETR for Robust Moment Retrieval." arXiv preprint arXiv:2412.20816 (2024).

Length-Aware DETR for Robust Moment Retrieval

Seojeong Park 1{ }^{1} Jiho Choi 1{ }^{1} Kyungjune Baek 2{ }^{2} Hyunjung Shim 1{ }^{1}<br>1{ }^{1} Korea Advanced Institute of Science and Technology (KAIST) 2{ }^{2} Twelve Labs<br>seojeong.park@kaist.ac.kr, jihochoi@kaist.ac.kr, kyungjune23@gmail.com, kateshim@kaist.ac.kr

Abstract

**Video Moment Retrieval (MR)**은 주어진 자연어 쿼리를 기반으로 비디오 내에서 특정 순간(moment)을 찾아내는 것을 목표로 한다. YouTube와 같은 플랫폼이 정보 검색에 널리 사용되면서 MR 기술에 대한 수요가 크게 증가하고 있다. 최근 DETR 기반 모델들은 성능 면에서 주목할 만한 발전을 이루었지만, 짧은 순간(short moments)을 정확하게 찾아내는 데 여전히 어려움을 겪고 있다.

데이터 분석을 통해 우리는 짧은 순간에서 feature 다양성이 제한적이라는 것을 확인했으며, 이는 MomentMix 개발의 동기가 되었다. MomentMix는 두 가지 증강 전략인 ForegroundMixBackgroundMix를 사용하며, 각각 전경(foreground)과 배경(background)의 feature 표현을 향상시킨다.

또한, 예측 편향(prediction bias) 분석 결과, 짧은 순간들이 특히 순간의 중심 위치를 정확하게 예측하는 데 어려움을 겪는다는 것을 발견했다. 이를 해결하기 위해 우리는 새로운 bipartite matching 프로세스를 통해 길이를 조건화하는 Length-Aware Decoder를 제안한다.

우리의 광범위한 연구는 특히 짧은 순간을 찾아내는 데 있어 length-aware 접근 방식의 효능을 입증했으며, 이는 전반적인 성능 향상으로 이어졌다. 우리 방법은 벤치마크 데이터셋에서 state-of-the-art DETR 기반 방법들을 능가하며, QVHighlights에서 가장 높은 R1 및 mAP를 달성하고, TACoS 및 CharadesSTA에서 가장 높은 R1@0.7을 달성했다 (예: QVHighlights에서 R1@0.7에서 2.46% 증가, mAP 평균에서 2.57% 증가). 코드는 https://github.com/sjpark5800/LA-DETR 에서 확인할 수 있다.

1. Introduction

매일 방대한 양의 비디오 콘텐츠가 인터넷에 생성되고 공유됨에 따라 [7], 효과적인 필터링의 필요성이 더욱 중요해졌다. 텍스트 기반 검색 알고리즘 [3]은 사용자 쿼리와 일치하는 비디오를 빠르고 정확하게 검색할 수 있게 하는 가장 효과적인 솔루션 중 하나로 부상했다. 사용자 경험과 검색 효율성을 향상시키기 위해 모먼트 검색(moment retrieval, MR) [1, 11]이 상당한 주목을 받고 있다. MR은 주어진 쿼리와 가장 잘 일치하는 비디오 내의 특정 모먼트를 식별한다. 구체적으로, 이 task는 텍스트 쿼리와 관련된 비디오 내의 시작점과 끝점을 지역화하여 비디오 콘텐츠에 대한 보다 세분화된 이해를 제공한다.

Table 1. 모먼트 길이에 따른 QVHIGHLIGHTS val 세트에서 이전 모먼트 검색(MR) DETR 기반 방법들의 평균 정밀도(mAP). MR이 가장 잘 활용될 수 있는 짧은 모먼트 캡처에서 mAP가 크게 떨어지는 것을 주목하라.

MethodShortMiddleLongAll
(seconds)(000,010](000,010](010,030](010,030](030,150](030,150](000,150](000,150]
QD-DETR (CVPR 2023)8.3443.5447.8041.24
TR-DETR (AAAI 2024)9.9346.9151.7145.09
UVCOM (CVPR 2024)12.6549.0449.3945.80

MR task의 경우, DETR의 효율성과 유연성을 활용한 이전 접근 방식들 [19, 26, 32, 38, 44]은 비디오-텍스트 feature 표현을 개선하기 위한 방법들을 제안하여 인상적인 성능을 달성했다. 그러나 우리의 실험적 결과는 이러한 DETR 기반 모델들이 짧은 모먼트를 처리할 때 성능이 크게 저하된다는 것을 보여준다. Table 1에서 강조된 바와 같이, 예를 들어 UVCOM [38]은 중간 길이 모먼트(10-30초)에 대해 평균 mAP 49.04를 보인 반면, 짧은 모먼트(10초 미만)에 대해서는 12.65에 불과하여 상당한 격차를 드러낸다. Figure 1에서 보듯이, 모먼트들은 다양한 길이에 걸쳐 균일하게 분포되어 있다. 그러나 짧은 모먼트의 본질적으로 짧은 지속 시간 때문에, 단일 비디오 샘플 내에서 더 자주 나타난다. 성능 지표는 샘플 내의 모든 모먼트에 대한 성능을 평균한 다음, 이러한 샘플 성능을 평균하여 전체 성능을 얻는 방식으로 계산된다. 따라서 전체 성능은 짧은 모먼트에 대한 성능을 충분히 드러내지 못하며, 이는 짧은 모먼트 검색과 관련된 문제에 대한 관심 부족으로 이어진다.

비디오 내에서 짧은 모먼트를 검색하는 것은 매우 중요한 task이다. 왜냐하면 비디오는 종종 상당한 양의 중복되거나 관련 없는 정보를 포함하는 반면, 핵심적인 내용은 짧은 모먼트에 압축되어 있는 경우가 많기 때문이다. 이는 MR의 중요성과 일치하며, 짧은 모먼트 검색의 정확도를 향상시키면 가장 관련성 높은 정보를 정밀하게 추출할 수 있다. 이러한 개선은 비디오 탐색에 필요한 시간과 노력을 크게 줄일 수 있다. 예를 들어, 스포츠 및 뉴스 하이라이트, 영화 및 드라마의 주요 장면은 종종 짧은 모먼트를 포함한다. 이는 실제 시나리오에서 짧은 모먼트를 정확하게 검색하는 것의 중요성을 강조한다.

Figure 1. QVHIGHLIGHTS 데이터셋에서 단일 비디오는 다양한 길이의 여러 모먼트를 포함할 수 있다. 노란색 막대는 모든 비디오에서 각 모먼트 길이의 개수를 나타낸다. 반대로, 파란색 막대는 특정 길이의 모먼트를 하나 이상 포함하는 경우 해당 비디오 샘플을 특정 길이로 분류한다.

본 연구에서는 기존 방법들의 짧은 모먼트 검색과 관련된 문제점데이터 및 모델 관점에서 분석했다. 데이터 관점에서는 다른 모먼트와 비교하여 짧은 모먼트의 feature 분포를 조사했다. Figure 2에서 보듯이, 짧은 모먼트의 feature는 평균 feature 주변에 더 집중되는 경향이 있으며, 샘플의 42.9%가 한 표준편차 내에 속한다. 대조적으로, 다른 모먼트의 경우 샘플의 26.6%가 평균의 한 표준편차 내에 속한다. 이러한 관찰은 짧은 모먼트가 상대적으로 단순하고 덜 다양한 feature 분포를 나타냄을 보여준다. 모델 측면에서는 Figure 3에서 보듯이, 모델의 최종 출력을 중심(center) 및 길이(length) 구성 요소로 분해하여 예측 정확도의 경향을 분석했다. 개념적으로 모먼트는 (시작, 끝)으로 정의되지만, 기존 모델은 이를 (중심, 길이) 형식으로 예측한다. 흥미롭게도, 짧은 모먼트에 대한 중심 예측의 정확도가 다른 모먼트 유형보다 현저히 낮음을 발견했다.

위 분석을 바탕으로, 우리는 짧은 모먼트 검색 시 성능 저하를 해결하는 새로운 DETR 기반 MR 프레임워크를 제안한다. 우리의 프레임워크는 두 가지 새로운 기술로 구성된다: MomentMix라는 데이터 증강 기술과 길이 인식 디코더(length-aware decoder, LAD). 데이터 분석을 통해 우리는 짧은 모먼트의 feature 다양성에서 주요 한계를 식별했다. 이는 두 가지 유형의 mix 기반 데이터 증강 전략으로 구성된 MomentMix를 설계하게 했다: ForegroundMixBackgroundMix. 비디오 샘플에서 우리는 텍스트 쿼리와 관련된 시간적 모먼트를 **전경(foreground)**으로, 관련 없는 모먼트를 **배경(background)**으로 정의한다. ForegroundMix는 다른 모먼트의 풍부한 전경 요소를 결합하여 새로운 짧은 전경을 생성함으로써 전경 feature의 다양성을 향상시킨다. 이렇게 새로 생성된 짧은 전경은 모델이 짧은 모먼트를 더 견고하게 감지할 수 있도록 한다. 반대로, BackgroundMix는 다른 비디오의 일부를 배경으로 활용하여 다양한 전경-배경 조합을 형성한다. 이는 모델이 전경과 배경을 더 잘 구별할 수 있도록 하여, 궁극적으로 짧은 모먼트뿐만 아니라 모든 모먼트 길이에 걸쳐 비디오 feature의 품질을 향상시킨다.

모델 출력 분석 결과, 중심 예측 오류가 짧은 모먼트 검색의 성능 저하에 크게 기여한다는 것이 밝혀졌다. 이를 해결하기 위해 우리는 **길이 인식 디코더(length-aware decoder)**를 도입한다. 이는 길이에 따라 디코더가 중심 예측에 더 효과적으로 집중하도록 구조화한다. 구체적으로, 우리는 길이 클래스(예: 짧음, 중간, 김)를 미리 정의하고 각 디코더 쿼리를 이러한 길이별 클래스에 균일하게 할당한다. 또한, 이분 매칭(bipartite matching) 프로세스를 수정하여 쿼리가 동일한 길이 클래스 내의 ground-truth 모먼트와 매칭되도록 한다. 이 접근 방식은 짧은 모먼트에 대한 중심 및 길이 예측의 정확도를 모두 향상시킨다.

본 연구에서는 MomentMix 증강과 **길이 인식 디코더(Length-Aware Decoder)**를 제안하여 짧은 모먼트 검색의 중요한 문제를 해결했다. 우리의 접근 방식은 QVHighlights, TACoS, Charades-STA를 포함한 다양한 데이터셋에서 성능을 크게 향상시켰다. 우리의 기여는 다음과 같이 요약된다:

  1. 우리는 데이터 및 모델 관점에서 MR의 짧은 모먼트 검색 성능 저하의 근본 원인을 식별한다.
  2. 짧은 모먼트의 제한된 feature 다양성 문제를 해결하기 위해, 우리는 두 가지 유형의 혼합(mixing) 방법을 기반으로 하는 새로운 증강 전략을 제안하며, 이는 비디오 모먼트 검색에 특별히 맞춤화되었다.
  3. 짧은 모먼트에 대한 중심 및 길이 예측을 모두 향상시키기 위해, 우리는 DETR 기반 MR 방법최초로 길이 조건화(length conditioning)를 도입하여, 길이별 매칭을 통해 "길이별 전문가(length-wise expert)" 쿼리를 효과적으로 생성한다.
  4. 우리의 접근 방식은 다양한 MR 데이터셋에서 성능을 크게 향상시켰으며, QVHIGHLIGHTS에서 mAP를 크게 개선했다 (9.36%;41.2245.089.36\% ; 41.22 \rightarrow 45.08) 또한 다른 데이터셋에서도 유사한 개선을 보였다.

2.1. Moment Retrieval

Moment Retrieval (MR) task는 텍스트 쿼리가 주어졌을 때 비디오 내 특정 순간의 시작 및 종료 타임스탬프를 식별하는 것을 포함한다. 전통적인 MR 방법들은 two-stage [2, 9, 13, 45, 47] 또는 one-stage [5, 14, 22, 27, 34, 41, 46] 프레임워크를 통해 접근하며, 이는 종종 proposal generation, non-maximum suppression (NMS), human priors와 같은 번거로운 프로세스에 의존한다.

**MomentDETR [19]**의 도입으로 MR 분야에 중요한 패러다임 변화가 일어났다. MomentDETR는 Detection Transformer (DETR) [4]를 사용하여 MR을 직접적인 set prediction task로 재구성하였다. 이 접근 방식은 이러한 의존성을 제거하여 MR을 더 효율적이고 유연하게 만들었다. 이후 **QD-DETR [26] 및 MESM [25]**을 포함한 모델들은 cross-modal alignment를 다루고 예측 정확도를 개선함으로써 DETR 기반 MR을 더욱 최적화하였다.

Figure 2. 데이터 관점 분석. QVHIGHLIGHTS train set에서 샘플링된 짧은 순간(short moments) 50개와 짧지 않은 순간(non-short moments) 50개에 대한 시각적 feature의 t-SNE [33] 시각화. 각 샘플링된 순간은 서로 다른 비디오에서 가져왔다. 이 플롯은 짧은 순간이 짧지 않은 순간에 비해 시각적 feature가 적고 훨씬 더 희소함을 보여주며, 이는 짧은 지속 시간으로 인해 내재된 시각 정보의 한계를 강조한다.

**TRDETR [32], TaskWeave [44], UVCOM [38]**과 같은 최근 연구들은 task-specific feature를 활용하여 Moment Retrieval과 Highlight Detection을 연결하고, 두 task 모두에서 강건성(robustness)을 향상시킨다. 또한, **순간에 대한 boundary-aware notation을 개발 [18]**하고 **MR에서 고급 feature를 탐색 [24, 37]**하는 연구들도 있다. DETR 기반 아키텍처의 효율성과 발전을 고려하여, 우리의 연구는 DETR 기반 방법 내의 문제점들을 특별히 다룬다.

기존 연구들과 달리, 우리가 아는 한, 우리는 기존 DETR 기반 방법들 전반에 걸쳐 공통적으로 나타나는 문제인 짧은 순간(short moments)에 대한 성능 저하라는 중요한 한계를 최초로 다룬다. 우리의 접근 방식은 짧은 지속 시간의 순간들을 정확하게 검색하는 것을 목표로 하며, 이를 통해 현재 DETR 기반 MR 연구의 중요한 공백을 메운다.

2.2. Mixing-based Augmentation

Mixing-based augmentation은 이미지 및 비디오 task 모두에서 탐구되어 왔으며, 각 task 요구사항에 따라 공간적(spatial) 또는 시간적(temporal) mixing을 적용한다. 이미지 분류 분야에서는 Mixup [42]과 CutMix [39]가 이미지 샘플을 보간(interpolating)하거나 패치(patch)를 결합하여 새로운 이미지를 생성함으로써 다양한 feature representation을 촉진한다. Copy-Paste [12]는 한 이미지의 객체를 다른 이미지에 삽입하여 객체 및 장면 다양성을 높임으로써 detection 및 segmentation을 위한 데이터를 증강한다. 비디오 이해 task에서는 VideoMix [40]가 무작위로 선택된 비디오 큐보이드(cuboid) 패치를 한 비디오에서 다른 비디오로 삽입하여 공간적 및 시간적 다양성을 모두 도입한다. 유사하게, VIPriors [16]는 전통적인 이미지 기반 mixing augmentation을 시간적 차원으로 확장하여 시간적 feature representation을 강화하고 시간적 변동에 대한 모델 견고성을 향상시킨다.

그러나 이러한 접근 방식들은 주로 공간적 feature를 수정하는 데 중점을 두며, 공간적 차원 없이 프레임 수준(frame-level) feature에만 의존하는 Moment Retrieval 프레임워크에는 직접 적용할 수 없다. 이러한 한계를 해결하기 위해, 우리는 Moment Retrieval을 위해 특별히 설계된 새로운 데이터 증강 기술을 도입하여 프레임 수준 feature의 다양성을 향상시킨다.

Figure 3. 모델 관점 분석. 우리는 QVHIGHLIGHTS val 세트에서 QD-DETR의 top-1 예측을 분석한다. [왼쪽] 예측된 중심이 ground truth 내에 속하는 예측의 비율. 짧은 순간(moment)에 대한 중심 예측 중 단 37%만이 중심이 ground truth 내에 있어, 중심 예측에 상당한 오류가 있음을 나타낸다. [오른쪽] 예측된 순간 길이(x축)와 ground-truth 순간 길이(y축)를 다양한 지속 시간에 걸쳐 보여주는 혼동 행렬(confusion matrix). 짧은 순간(빨간색으로 강조 표시)은 길이 예측 오류율이 높게 나타난다.

3. Method

3.1. Motivation

배경 (Background)
비디오가 Nv\mathcal{N}_{v}개의 클립 {vi}i=1Nv\left\{v_{i}\right\}_{i=1}^{\mathcal{N}_{v}}으로 구성되고, 텍스트 쿼리가 Nt\mathcal{N}_{t}개의 단어 {ti}i=1Nt\left\{t_{i}\right\}_{i=1}^{\mathcal{N}_{t}}로 구성된다고 가정하자. **Moment Retrieval (MR)**의 목표는 텍스트 쿼리와 관련된 비디오 클립에 해당하는 Nm\mathcal{N}_{m}개의 모멘트 집합 {mi}i=1Nm\left\{m_{i}\right\}_{i=1}^{\mathcal{N}_{m}}을 예측하는 것이다. 각 모멘트 mim_{i}는 중심 좌표 cic_{i}와 길이(span) σi\sigma_{i}로 정의되며, 이는 비디오 클립의 연속적인 부분 집합을 나타낸다. 본 논문에서는 모멘트를 다음 기준에 따라 분류한다:

  1. 비디오 내의 temporal moment는 텍스트 쿼리와 관련이 있으면 foreground로, 관련이 없으면 background로 정의된다.
  2. 모멘트는 이전 방법 [19]에서 사용된 분류와 일관되게, 시간적 지속 시간에 따라 짧음 (10초 미만), 중간 (10초에서 30초), 또는 **김 (30초 초과)**으로 분류된다.

DETR 기반 방법의 성능 한계 (Performance limit of DETR-based methods)
최근 접근 방식들은 MR task에 DETR을 적극적으로 활용하여 인상적인 성능을 달성하고 있다. 우리는 대표적인 DETR 기반 모델들을 선정하여 타겟 모멘트의 길이에 따른 성능을 분석했다. Table 1에서 볼 수 있듯이, 이 모델들은 강력한 성능을 달성했음에도 불구하고 짧은 모멘트 검색에서 상당한 성능 저하를 보였다. 구체적으로, QD-DETR, TR-DETR, UVCOM은 짧은 모멘트에서 mAP가 각각 -79.8%, 78.0%, 72.4% 감소했다. 이러한 결과는 전반적인 성능 대비 지속적으로 상당한 감소를 나타낸다. 이러한 성능 저하를 해결하기 위해 우리는 데이터 중심(data-centric) 및 모델 중심(model-centric) 관점에서 근본적인 원인을 조사했다.

Figure 4. 개요. Section 3.2에서는 두 가지 유형의 mix-기반 데이터 증강 기법인 MomentMix를 제안한다: ForegroundMixBackgroundMix. ForegroundMix 구현은 긴 모멘트를 더 짧은 세그먼트로 자른 다음, 이를 섞어서 새로운 짧은 모멘트 데이터를 생성하는 것을 포함한다. BackgroundMix는 foreground를 변경하지 않고 유지하며, background를 다른 비디오 샘플에서 무작위로 잘라낸 temporal segment로 대체한다. Section 3.3에서는 Length-Aware Decoder를 소개하며, 이는 length-wise bipartite matching 프로세스를 활용하여 length-wise expert decoder query를 생성한다.

데이터 중심 분석을 위해 우리는 짧은 모멘트의 통계적 특성을 조사했다. Figure 1에서 볼 수 있듯이, 짧은 모멘트의 총 개수는 다른 유형의 모멘트와 비슷하지만, 짧은 모멘트를 포함하는 비디오의 수는 분명히 제한적이다. 이는 짧은 모멘트가 다양한 contextual representation이 부족하고 학습 데이터에서 좁은 분포를 보일 수 있다는 가설로 이어졌다. 이 가설을 테스트하기 위해 우리는 feature visualization을 사용하여 짧은 모멘트의 feature 분포를 다른 모멘트의 feature 분포와 비교했다. 학습 세트에서 짧은 모멘트 50개와 짧지 않은 모멘트 50개를 무작위로 샘플링하고 **t-SNE [33]**를 적용하여 시각적 feature를 시각화했다. Figure 2에서 볼 수 있듯이, 짧은 모멘트의 시각적 feature 분포는 집중되어 있었으며, 이는 다양성 부족을 나타낸다. 이러한 관찰은 짧은 모멘트에 대한 학습 데이터가 광범위한 시각적 feature를 포착하지 못하여 테스트 시 최적화되지 않은 일반화 성능으로 이어진다는 것을 시사한다.

모델 중심 분석을 위해 우리는 짧은 모멘트의 중심 및 길이 예측을 다른 유형의 모멘트와 비교하여 모델의 예측 경향을 개별적으로 평가했다. Figure 3에서 볼 수 있듯이, 짧은 모멘트의 중심 예측 중 37%만이 ground truth 내에 중심을 가지는 반면, 중간 모멘트는 74%, 긴 모멘트는 82%를 차지했다. 이는 중심 예측의 부정확성이 전체 오류의 중요한 원인임을 밝혀냈다.

이러한 한계를 극복하기 위해 우리는 MomentMixLength-Aware Decoder라는 두 가지 새로운 기술을 제안하며, 이들은 다른 DETR 기반 모델에 쉽게 통합될 수 있다. 우리의 전체 아키텍처는 일반적인 baseline인 QD-DETR의 설계를 따라 Figure 4에 설명되어 있다.

3.2. MomentMix: Leveraging ForegroundMix and BackgroundMix

우리는 짧은 moment에 대한 낮은 feature 다양성 문제를 해결하기 위해 고안된 데이터 증강 전략인 MomentMix를 제안한다. MomentMix는 두 가지 구성 요소로 이루어져 있다: (1) ForegroundMix: foreground feature의 다양성을 향상시킨다. (2) BackgroundMix: background feature의 다양성을 증가시킨다. 우리가 아는 한, 이는 비디오 moment retrieval에 특화된 최초의 데이터 증강 접근 방식이다.

ForegroundMix 증강
ForegroundMix의 목표는 짧은 moment의 foreground feature의 시각적 다양성을 높여 더 일반화된 예측을 가능하게 하는 것이다. 이를 위해 우리는 더 긴 샘플에서 풍부한 foreground feature를 무작위로 추출하고 혼합하여 증강된 짧은 moment를 생성한다. 단일 비디오 내의 시각적 feature는 다른 비디오의 feature에 비해 자연스럽게 더 높은 유사성을 보인다. 우리 방법은 다른 비디오 클립의 feature를 활용함으로써 모델이 다양한 맥락에 일반화할 수 있도록 하여, 어렵거나 모호한 프레임에서도 짧은 moment를 안정적으로 감지할 수 있도록 보장한다.

긴 foreground (moment) fsource ={vi}i=sef_{\text {source }}=\left\{v_{i}\right\}_{i=s}^{e}를 포함하는 기존 비디오 학습 샘플 X={vi}i=0NvX=\left\{v_{i}\right\}_{i=0}^{\mathcal{N}_{v}}가 주어졌을 때, 이 foreground는 다음과 같이 sub-foreground f1,f2,,fnf_{1}, f_{2}, \ldots, f_{n}로 나눌 수 있다:

fsource =i=1nfi, where fifj= for all ijf_{\text {source }}=\bigcup_{i=1}^{n} f_{i}, \text { where } f_{i} \cap f_{j}=\emptyset \text { for all } i \neq j

여기서 n=len(fsource )εcut n=\frac{\operatorname{len}\left(f_{\text {source }}\right)}{\varepsilon_{\text {cut }}}이며, εcut \varepsilon_{\text {cut }}는 각 sub-foreground가 원래의 긴 foreground에 비해 얼마나 단축되는지를 결정하는 하이퍼파라미터이다.

이러한 sub-region들은 foreground의 세그먼트를 나타내며, fis,fieUnif(s,e)f_{i}^{s}, f_{i}^{e} \sim \operatorname{Unif}(s, e)와 같이 균일하게 샘플링된다. 여기서 sseefsource f_{\text {source }}의 시작과 끝을 나타낸다. 유사하게, background 영역 bsource =bfront bback b_{\text {source }}=b_{\text {front }} \cup b_{\text {back }}n+1n+1개의 sub-region b0,b1,,bnb_{0}, b_{1}, \ldots, b_{n}으로 나뉘며, 이는 background의 세그먼트를 다음과 같이 나타낸다:

bsource =i=0nbi where bibj= for all ijb_{\text {source }}=\bigcup_{i=0}^{n} b_{i} \text { where } b_{i} \cap b_{j}=\emptyset \text { for all } i \neq j

원래의 foreground {fi}i=1n\left\{f_{i}\right\}_{i=1}^{n}와 background {bi}i=0n\left\{b_{i}\right\}_{i=0}^{n}는 다음과 같이 섞인다:

π:{f1,f2,,fn}{f1,f2,,fn},π:{b0,b1,,bn}{b0,b1,,bn},\begin{aligned} \pi:\left\{f_{1}, f_{2}, \ldots, f_{n}\right\} & \rightarrow\left\{f_{1}^{\prime}, f_{2}^{\prime}, \ldots, f_{n}^{\prime}\right\}, \\ \pi:\left\{b_{0}, b_{1}, \ldots, b_{n}\right\} & \rightarrow\left\{b_{0}^{\prime}, b_{1}^{\prime}, \ldots, b_{n}^{\prime}\right\}, \end{aligned}

여기서 π\pi는 무작위 순열 함수이다. 각각 섞인 foreground {fi}i=1n\left\{f_{i}^{\prime}\right\}_{i=1}^{n}는 background {bi}i=0n\left\{b_{i}^{\prime}\right\}_{i=0}^{n}와 짝을 이루어 다음과 같은 증강된 샘플을 형성한다:

X=b0i=1n(fibi)X^{\prime}=b_{0}^{\prime} \cup \bigcup_{i=1}^{n}\left(f_{i}^{\prime} \cup b_{i}^{\prime}\right)

BackgroundMix 증강
BackgroundMix의 목표는 시각적 background feature의 다양성을 향상시켜, foreground 시각 feature와 텍스트 쿼리 간의 연관성을 강화하는 것이다. 이를 위해 우리는 원래의 foreground feature는 유지하면서 background를 다른 비디오의 feature로 대체한다. 이 방법은 모델에 더 풍부한 학습 신호를 제공하여, 다양한 경계를 더 효과적으로 학습할 수 있도록 한다.

주어진 kk-번째 비디오 학습 샘플 XkX^{k}Nfk\mathcal{N}_{f}^{k}개의 foreground 세그먼트 fk={fik}i=1Nfkf^{k}=\left\{f_{i}^{k}\right\}_{i=1}^{\mathcal{N}_{f}^{k}}Nbk\mathcal{N}_{b}^{k}개의 background 세그먼트 bk={bik}i=1Nbkb^{k}=\left\{b_{i}^{k}\right\}_{i=1}^{\mathcal{N}_{b}^{k}}로 구성된다. 비디오 내의 모든 세그먼트는 다음과 같이 정의된다:

ak=fkbk={aik}i=1Nak, where Nak=Nfk+Nbka^{k}=f^{k} \cup b^{k}=\left\{a_{i}^{k}\right\}_{i=1}^{\mathcal{N}_{a}^{k}}, \text { where } \mathcal{N}_{a}^{k}=\mathcal{N}_{f}^{k}+\mathcal{N}_{b}^{k}

feature 다양성을 높이기 위해, 우리는 kk-번째 샘플의 각 background 세그먼트 bikb_{i}^{k}다른 학습 샘플 XmX^{m} (mkm \neq k)에서 무작위로 잘라낸 세그먼트로 대체한다. 구체적으로, 각 bikb_{i}^{k}에 대해 XmX^{m}에서 세그먼트 ajma_{j}^{m}를 무작위로 선택하고 bikb_{i}^{k}의 지속 시간과 일치하도록 자른다. 대체는 다음과 같이 수행된다:

bikCrop(ajm,bik)b_{i}^{k} \leftarrow \operatorname{Crop}\left(a_{j}^{m},\left|b_{i}^{k}\right|\right)

이 접근 방식은 kk-번째 샘플의 background가 다양한 background feature로 증강되는 동안 원래의 foreground는 그대로 유지되도록 보장한다.

Figure 5. [왼쪽] Group-DETR [6]은 일대다(one-to-many) 매칭을 사용하며, 모든 그룹에서 동일한 레이블이 활용된다. [오른쪽] 우리의 길이별(length-wise) 매칭은 **일대일(one-to-one)**이며, 각 길이 클래스 내에서 작동한다. 동일한 클래스에 속하는 예측과 ground truth만을 매칭함으로써, 이 접근 방식은 길이별 전문가 쿼리(length-wise expert queries)의 생성을 가능하게 한다.

3.3. Length-Aware Decoder

이전 분석에서 우리는 모델이 짧은 순간(short moments)의 중심과 길이를 모두 정확하게 예측하는 데 어려움을 겪는다는 것을 확인했다. 이 문제를 해결하기 위해 우리는 **순간 길이(moment length)를 조건으로 하는 길이 인식 디코더(length-aware decoder)**를 제안하여, 모델이 중심 예측에 더 효과적으로 집중할 수 있도록 한다.
우리는 누적 mAP 그래프를 분석하고 변곡점을 경계로 식별하여, 순간 길이를 짧음(short), 중간(middle), 김(long)과 같은 별개의 클래스로 분류한다 (자세한 정보는 supplementary materials에서 확인할 수 있다). 디코더 쿼리는 이러한 길이 범주를 기반으로 길이별 매칭(length-wise matching) 접근 방식을 사용하여 학습된다. 이러한 분류는 다양한 순간 길이의 특정 특성을 더 잘 처리하는 길이별 전문가 쿼리(length-wise expert queries)를 생성한다.

Class-pattern을 가진 디코더 쿼리 (Decoder queries with class-pattern)
우리는 디코더 쿼리에 역할을 할당하기 위한 길이 클래스의 수Nc\mathcal{N}_{c}로 정의한다. **Anchor-DETR [36]**에서 영감을 받아, 우리는 pattern embedding의 pattern을 길이 범주로 해석하고 **class-pattern embedding QcQ_{c}**를 생성한다:

Qc= Embedding (Nc,d)RNc×dQ_{c}=\text { Embedding }\left(\mathcal{N}_{c}, d\right) \in \mathbb{R}^{\mathcal{N}_{c} \times d}

각 class-pattern embedding을 Nq\mathcal{N}_{q}번(길이당 쿼리 수) 복제함으로써, 우리는 **클래스별 쿼리(class-specific queries) QRNcNq×dQ \in \mathbb{R}^{\mathcal{N}_{c}} \mathcal{N}_{q} \times d**를 얻는다. 이 접근 방식은 디코더 쿼리가 각 길이 범주 내에서 동일한 클래스 embedding을 공유하도록 보장하여, 각 쿼리가 특정 길이 클래스에 맞춰진 역할을 수행할 수 있도록 한다.

길이별 매칭 (Length-wise matching)
class-pattern embedding 내에서 길이별 전문성(length-wise expertise)을 생성하기 위해, 우리는 이분 매칭(bipartite matching) 접근 방식을 클래스별로 작동하도록 수정했다. 이 방법은 클래스별 쿼리가 해당 길이 클래스의 ground truth 순간과만 매칭되고 학습되도록 보장한다. ground truth 순간을 길이 클래스로 분류하고 길이 클래스별 매칭을 수행함으로써, 우리는 정확한 정렬(alignment)을 보장한다.
비록 이것이 객체 탐지(object detection)의 그룹별 매칭 [6]과 유사해 보일 수 있지만, 상당히 다르다. Figure 5에서 보듯이, 기존 방법들은 모든 그룹에 걸쳐 동일한 레이블을 사용하여 일대다(one-to-many) 레이블 할당을 초래한다. 대조적으로, 우리의 접근 방식은 각 길이 클래스에 고유한 레이블의 부분 집합을 할당하여 일대일(one-to-one) 할당을 가능하게 하고, 매칭을 위한 "길이별 전문가(length-wise expert)"를 효과적으로 생성한다.

우리는 디코더 헤드에서 예측된 모든 순간을 y^={y^i}i=1NcNq\hat{y}=\left\{\hat{y}_{i}\right\}_{i=1}^{\mathcal{N}_{c} \mathcal{N}_{q}}로 나타내며, 여기서 Nc\mathcal{N}_{c}는 클래스 수, Nq\mathcal{N}_{q}는 각 클래스 kk \in length-classes에 대한 쿼리 수이다. 그러면 클래스 kk에 속하는 예측은 다음과 같이 나타낼 수 있다:

y^(k)={y^iith  query  class k},\hat{y}^{(k)}=\left\{\hat{y}_{i} \mid i^{\text {th }} \text { query } \in \text { class } k\right\},

모든 ground truth 순간이 y={yi}i=1Nyy=\left\{y_{i}\right\}_{i=1}^{\mathcal{N}_{y}}로 표시될 때, 특정 클래스 kk에 속하는 ground truth 순간은 다음과 같이 정의될 수 있다:

y(k)={yi length (yi) class k}.y^{(k)}=\left\{y_{i} \mid \text { length }\left(y_{i}\right) \in \text { class } k\right\} .

이분 매칭을 위해, 각 세트 크기를 Nq\mathcal{N}_{q}로 만들기 위해 배경 \varnothing 패딩을 적용하면, 최종 ground truth 세트는 y~(k)={yi(k)}i=1Nq\tilde{y}^{(k)}=\left\{y_{i}^{(k)}\right\}_{i=1}^{\mathcal{N}_{q}}가 된다. 각 클래스 kk에 대한 이분 매칭은 Nq\mathcal{N}_{q}개 요소의 순열 σSNq\sigma \in \mathfrak{S}_{\mathcal{N}_{q}} 중에서 가장 낮은 비용을 찾아 결정된다.

σ^(k)=argminσSNqiNq{Cmatch (y~i(k),y^σ(i)(k))}\hat{\sigma}^{(k)}=\underset{\sigma \in \mathfrak{S}_{\mathcal{N}_{q}}}{\arg \min } \sum_{i}^{\mathcal{N}_{q}}\left\{\mathbb{C}_{\text {match }}\left(\tilde{y}_{i}^{(k)}, \hat{y}_{\sigma(i)}^{(k)}\right)\right\}

여기서 Cmatch\mathbb{C}_{\text {match}}는 ground truth와 예측 사이의 매칭 비용이다. 매칭 비용 함수는 이전 방법 [19]과 동일하게 설정된다.

이러한 클래스별 매칭 접근 방식은 순간 쿼리에 의해 암묵적으로 전달되던 길이 클래스를 명시적으로 결정하는 데 도움이 된다. 각 클래스에 대한 이분 매칭의 모든 결과를 결합함으로써, 우리는 순간 길이를 고려하는 효율적인 매칭을 달성한다.

4. Experiments

4.1. Experimental Setup

데이터셋 (Datasets)
평가를 위해 우리는 세 가지 데이터셋(QVHighlights [19], Charades-STA [10], TACOS [30])을 활용했다.

  • QVHighlights: 일상 활동, 여행, 사회 활동, 정치 활동 등 다양한 주제를 다루는 1만 개 이상의 YouTube 비디오로 구성된다. 이 데이터셋은 다양한 길이의 moment들이 고르게 분포되어 있으며, 단일 비디오 내에 여러 moment가 나타나므로 우리가 의도한 측면을 효과적으로 테스트할 수 있다. 데이터셋의 다양성과 복잡성을 고려할 때, 이는 가장 현실적이고 도전적인 시나리오를 포함한다.
  • Charades-STA: 주로 실내 일상 활동에 초점을 맞추며, 9,848개의 비디오와 16,128개의 annotated query로 구성된다. moment의 길이는 대부분 20초 미만이다.
  • TACOS: 주로 요리 영역의 활동을 특징으로 하며, 127개의 비디오와 18,818개의 query로 구성된다. 비디오 길이는 매우 짧은 것부터 거의 800초에 달하는 것까지 다양하며, 대부분의 moment는 30초 미만이다.

QVHighlights와 TACoS는 다양한 길이의 moment를 포함하는 반면, Charades-STA는 주로 짧은 샘플(30초 미만)로 구성되어 있어 우리가 해결하고자 하는 문제와 완전히 일치하지는 않는다. 그럼에도 불구하고, 모델의 일반화 성능을 평가하기 위해 평가에 포함시켰다.

평가 지표 (Evaluation metrics)
기존 방법들의 지표를 따라, 우리는 **IoU(Intersection over Union) 임계값 0.5 및 0.75에서의 mean average precision (mAP)**과 여러 IoU 임계값 [0.5: 0.05: 0.95]에 대한 평균 mAP를 사용한다. 또한, 단일 moment 검색에서 일반적으로 사용되는 표준 지표인 Recall@1 (R1)을 IoU 임계값 0.5 및 0.7에서 보고한다. 더불어, 여러 IoU 임계값 [0.5: 0.05: 0.95]에 대한 평균 R1도 보고한다.

구현 세부 사항 (Implementation details)
우리는 각 baseline 모델의 validation 결과에서 성능 변화가 가장 유의미했던 지점을 기준으로 클래스를 나누었다. 이를 위해 누적 mAP 그래프를 길이에 따라 플로팅하고 변곡점(inflection points)을 식별했다. 그런 다음 이 변곡점들의 k-means 중심을 계산하여 클래스 분할을 위한 임계값을 결정했다. 그 결과, UVCOM을 baseline으로 사용하여 QVHighlights의 임계값은 [12, 36, 65, inf], Charades-STA는 [5.67, 14, inf], TACOS는 [10, 19, 38, inf]로 설정했다.

ForegroundMix에서는 QVHighlights와 TACOS에 대해 εcut =5\varepsilon_{\text {cut }}=5로, Charades-STA에 대해 εcut =10\varepsilon_{\text {cut }}=10으로 설정하여 더 짧은 moment를 생성했다. Length-Aware Decoder에서는 클래스당 query 수 Nq\mathcal{N}_{q}를 10으로 설정했다.

공정한 비교를 위해, 우리는 이전 연구들에서 사용했던 것과 동일한 feature를 활용한다. QVHighlights와 TACoS에서는 SlowFast [8]와 CLIP visual encoder [29]에서 비디오 feature를 추출한다. Charades-STA에서는 이전 연구들처럼 두 가지 feature 유형을 사용한다. 첫 번째 유형은 SlowFast와 CLIP visual encoder에서 추출한 비디오 feature와 CLIP text encoder에서 추출한 텍스트 feature이다. 두 번째 유형은 VGG [31]에서 추출한 비디오 feature와 GloVe [28]에서 추출한 텍스트 feature이다.

모델은 모든 데이터셋에서 200 epoch 동안 학습되며, 학습률은 1e-4이다. batch size는 이전 방법들을 따라 QVHighlights는 32, Charades-STA는 8, TACOS는 16으로 설정했다. 모든 baseline 파라미터는 유지했다.

4.2. Results

우리는 우리의 방법을 많은 연구에서 흔히 사용되는 baseline인 QD-DETR [26]에 적용했다. 그러나 우리의 방법은 다른 모델에도 쉽게 추가될 수 있으므로, 그 효과를 입증하기 위해 **세 가지 최신 방법(TR-DETR [32] 및 UVCOM [38])**에 대해서도 추가적으로 검증했다.

Table 2. QVHIGHLIGHTS test set에서 다양한 moment 길이에 따른 우리 방법의 성능 향상.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
QD-DETR [26]3.956.9837.3941.1242.8646.9540.0139.84
+Ours13.4715.3639.5744.9346.1552.7545.0346.03
+9.52+8.38+2.18+3.81+3.29+5.80+5.03+6.19
TR-DETR [32]4.958.2240.0843.2747.6350.8043.7042.62
+Ours13.4015.4541.5946.4247.5153.0146.7647.23
+8.44+7.23+1.51+3.15-0.12+2.21+3.06+4.61
UVCOM [38]5.2810.6741.8144.9044.9548.3743.8543.18
+Ours12.5416.3642.4048.3046.0852.2246.5147.93
+7.26+5.69+0.59+3.40+1.13+3.85+2.66+4.75

Table 3. QVHighlights test set에서의 성능 비교. \dagger는 추가 오디오 feature를 사용한 학습을 나타낸다.

MethodMRHD
R1mAP\geq Very Good
@ 0.5@0.7Avg.@0.5@0.75Avg.mAPHIT@1
M-DETR [19]52.8933.02-54.8229.4030.7335.6955.60
UMT \dagger [23]56.2341.18-53.8337.0136.1238.1859.99
EaTR [15]57.9842.41-59.9539.2939.00--
UniVTG [21]58.8640.86-57.6035.5935.4738.2060.96
MomentDiff [20]57.4239.66-54.0235.7335.95--
MESM [25]62.7845.20-62.6441.4540.68--
TaskWeave [44]61.8746.2442.4563.7543.6343.3337.8759.08
BAM-DETR [18]62.7148.64-64.5746.3345.36--
QD-DETR [26]61.2244.4940.0162.3139.4539.8439.0162.13
+Ours64.0148.9045.0364.6947.2346.0340.3266.99
+2.79+4.41+5.03+2.38+7.78+6.19+1.31+4.86
TR-DETR [32]64.6648.9643.7063.9843.7342.6239.9163.42
+Ours65.4350.13\underline{50.13}46.7665.6647.89\underline{47.89}47.23\underline{47.23}41.4165.63\underline{65.63}
+0.77+1.17+3.06+1.68+4.16+4.61+1.50+2.21
UVCOM [38]63.5547.4743.8563.3742.6743.1839.7464.20
+Ours63.9451.1046.51\underline{46.51}65.65\underline{65.65}49.4447.9340.39\underline{40.39}65.50
+0.39+3.63+2.66+2.28+6.77+4.75+0.65+1.30

우리는 최신 DETR 기반 모델을 포함하여 기존의 moment retrieval 방법들과 우리의 접근 방식을 비교했다. 기존 모델들은 전체 성능만 보고하지만, 우리는 각 길이별 성능도 분석했다.

QVHighlights에서 moment 길이에 따른 성능
Table 2에서 우리 방법은 모든 baseline에 걸쳐 짧은 moment 성능을 크게 향상시킨다. 특히 QD-DETR의 경우, 짧은 moment에 대한 R1 평균은 +9.52%, mAP 평균은 +8.38% 증가했다. 또한, 우리 접근 방식은 모든 길이에 걸쳐 mAP 평균에서 모든 baseline을 일관되게 능가한다.

QVHighlights에서 전체 성능
Table 3에서 우리 방법은 모든 metric에서 상당한 개선을 보여주며, 이는 모든 baseline에 걸쳐 전반적인 성능 향상을 나타낸다. 특히, 우리의 주요 목표는 feature 다양성을 향상시켜 Moment Retrieval (MR)에서 짧은 moment 성능을 개선하는 것이었지만, Highlight Detection (HD)에서도 상당한 성능 향상을 관찰했다. 이는 feature 다양성을 높이는 것이 다른 task에도 긍정적인 영향을 미칠 수 있는 효과적인 전략임을 보여준다.

Table 4. Charades-STA 및 TaCoS test set 결과. \ddagger는 VGG feature 및 GloVe feature를 사용한 학습을 나타낸다.

MethodCharades-STATACOSCharades-STA { }^{\ddagger}
R1@0.5R1@0.7R1@0.5R1@0.7RR1@0.5R1@0.7
SAP [9]----27.4213.36
SM-RL [35]----24.3611.17
MAN [41]----41.2420.54
2D-TAN [46]46.0227.5027.9912.9240.9422.85
VSLNet [43]42.6924.1423.5413.15--
M-DETR [19]53.6331.3724.6711.97--
QD-DETR [26]57.3132.55--52.7731.13
UniVTG [21]58.0135.6534.9717.35
MESM [25]61.24\underline{61.24}38.04--56.6935.99
TR-DETR [32]57.6133.52--53.4730.81
TaskWeave [44]56.5133.66--56.51\underline{56.51}33.66
BAM-DETR [18]59.8339.8341.5426.77--
UVCOM [38]59.2536.6436.3923.3254.5734.13\underline{34.13}
+Ours61.4540.2242.3128.0956.1636.10
+2.20+3.58+5.92+4.77+1.59+1.97

Charades-STA 및 TACoS에서 전체 성능
Table 4에서 보듯이, 우리 방법은 QVHighlights에 비해 더 넓은 범위의 길이를 포함하는 TACOS에서 R1@0.5에서 +5.92%의 상당한 성능 향상을 달성했다. 이러한 중요한 개선은 우리의 길이 인식 접근 방식의 우수한 일반화 능력을 보여준다.

다른 데이터셋과 달리 Charades-STA길이가 매우 제한적인 moment를 포함하고 있어, 우리가 해결하고자 하는 문제의 대표성이 떨어진다. 그럼에도 불구하고, 우리는 우리 접근 방식의 견고성을 보장하기 위해 Charades-STA를 평가에 포함했다. 결과는 우리 방법이 SlowFast 및 CLIP feature를 사용할 때 R1@0.7에서 +3.58%, VGG feature를 사용할 때 +1.97% 향상되었음을 보여준다.

4.3. Ablation Studies and Discussions

구성 요소 분석 (Component analysis)
Table 5에서 우리는 MomentMix와 Length-Aware Decoder가 짧은 moment의 성능 향상에 미치는 영향을 조사했으며, 전반적인 성능 향상을 관찰했다. 각 구성 요소가 개별적으로 성능을 향상시키지만, 이들을 함께 적용했을 때 훨씬 더 큰 개선이 이루어졌다. 이는 MomentMix와 Length-Aware Decoder라는 두 구성 요소가 중복 없이 효과적으로 기여하며, 짧은 moment 검색 문제를 해결하는 데 있어 이들의 결합 사용이 가장 효과적인 접근 방식임을 시사한다.

Table 5. QVHIGHLIGHTS val set에서 baseline(QD-DETR)과의 성능 비교.
FGMix, BGMix, LAD는 각각 ForeGround Mix, BackGround Mix, Length-Aware Decoder를 나타낸다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
FGMixBGMixLADAvg.Avg.Avg.@0.5@0.7Avg.@0.5@0.75Avg.
×\times×\times×\times4.577.7738.8943.1042.6247.4461.3946.1841.0661.6841.5741.00
\checkmarkxxxx7.8612.2141.4245.2843.4547.6964.0648.9743.8464.1543.9643.32
×\times\checkmarkXX6.2711.0742.7446.5144.5548.5763.8749.0344.6263.6444.2343.86
×\timesχ\chi\checkmark6.9910.2639.4844.6843.3451.2360.7746.7142.3662.8945.4743.91
\checkmark\checkmark×\times7.6013.3542.9547.2045.2348.4263.8750.1945.3763.9646.2144.95
\checkmark\checkmark\checkmark12.2616.4442.8947.6945.7852.7564.3250.9046.8365.4948.9247.84

Few-shot 시나리오에서의 평가 (Evaluation in few-shot scenarios)
MomentMix의 데이터 증강 기법으로서의 효과를 검증하기 위해, 우리는 원본 학습 데이터의 50%, 20%, 10%를 사용하여 실험을 수행했다. Table 6에서 볼 수 있듯이, 우리 방법은 상당한 성능 향상으로 baseline (QD-DETR)을 크게 능가했다. 특히, 학습 샘플의 절반만 사용한 우리의 증강 방법이 전체 학습 데이터셋을 사용한 baseline 성능을 뛰어넘었다. 또한, 학습 샘플의 10%만 사용한 극단적인 시나리오에서도, 우리 방법은 R1 평균에서 +9.71%, mAP에서 +8.45%라는 놀라운 개선을 달성했다. 이러한 결과는 MomentMix가 feature 다양성을 향상시켜 새로운 학습 샘플을 효과적으로 생성함을 나타낸다.

Table 6. 원본 학습 데이터의 50%, 20%, 10%를 사용하여 QVHighlights val set에서 얻은 결과.

MethodR1mAP
@0.5@0.7Avg.@0.5@0.75Avg.
100% train data61.3946.1841.0661.6841.5741.00
50% train data57.2340.2636.1057.5135.6335.98
+ MomentMix63.1647.7443.3661.9141.9041.73
+5.93+7.48+7.26+4.40+6.27+5.75
20% train data46.8430.4526.5848.2725.3526.88
+ MomentMix52.4537.6833.6952.6634.2533.72
+5.61+7.23+7.11+4.39+8.90+6.84
10% train data32.4516.8415.9037.1015.3718.17
+ MomentMix43.1028.7125.6144.9726.1226.62
+10.65+11.87+9.71+7.87+10.75+8.45

정성적 결과 (Qualitative results)
우리는 신뢰도 점수가 0.7을 초과하는 예측을 시각화했으며, 이때 alpha 값은 0.5를 사용했다. Figure 6에서 볼 수 있듯이, 우리 방법을 적용함으로써 다른 방법에서는 배경으로 예측되었던 짧은 moment들도 이제는 정확하게 포착될 수 있다. 또한, 여러 짧은 인스턴스가 하나의 긴 인스턴스로 병합되었던 예측들도 이제는 정확하고 세분화된 예측으로 분할될 수 있다.

5. Limitation and Conclusion

한계점 (Limitation)
우리는 decoder에 길이 인식(length-awareness) 기능을 통합했지만, encoder를 향상시키기 위한 추가적인 연구가 필요하다. 또한, MR(Moment Retrieval)을 위한 우리의 새로운 데이터 증강(data augmentation) 방법은 성능을 향상시키지만 학습 시간도 증가시킨다. 따라서 향후 연구는 더 효율적인 접근 방식을 개발하는 데 집중해야 할 것이다.

Figure 6. QVHighlights validation set에 대한 정성적(qualitative) 결과.
기존 모델들은 전경(foreground)과 배경(background)을 정확하게 구별하지 못하여, 예측 실패나 짧은 순간(short moment)의 탐지 누락으로 이어지는 경우가 많다. 이와 대조적으로, 우리 모델은 짧은 순간을 더 높은 정확도와 견고성으로 예측할 수 있다.

결론 (Conclusion)
본 연구에서는 기존 DETR 기반 접근 방식의 짧은 순간 검색(short-moment retrieval) 한계점데이터 및 모델 관점에서 다루었다. 짧은 순간의 제한된 feature 다양성이라는 데이터 중심 문제를 극복하기 위해, 우리는 두 가지 mix-기반 데이터 증강 전략(ForegroundMix 및 BackgroundMix)을 활용하는 MomentMix를 도입했다. 이 전략들은 전경 및 배경 요소의 feature 표현을 향상시킨다. 모델 측면에서는 짧은 순간에 대한 center 예측의 부정확성을 확인하고, 순간 길이(moment length)에 따라 조건화된 새로운 이분 매칭(bipartite matching) 프로세스를 포함하는 LengthAware Decoder를 제안했다. 이 접근 방식은 길이 전문가 쿼리(length expert queries)를 활용하여 center 예측 정확도를 향상시킨다. 광범위한 실험을 통해 우리 방법이 벤치마크 데이터셋에서 R1 및 mAP 측면에서 state-of-the-art DETR 기반 moment retrieval 모델들을 능가함을 입증했다. 더 나아가, 우리 방법론은 다른 DETR 기반 모델들과도 원활하게 통합될 수 있어, 이 분야의 향후 발전을 위한 길을 열어준다.

Length-Aware DETR for Robust Moment Retrieval

Supplementary Material

Contents

A 추가 Ablation 연구 1 B. Moment Length Class 선택

2 C. 다양한 Feature 유형을 사용한 평가

3 D. 추가 Qualitative 결과

3

A. Additional Ablation Studies

MomentMix의 효과
우리는 Moment Retrieval (MR)을 위한 새로운 mixing-based augmentation인 MomentMix를 제안한다. 그 효과를 검증하기 위해 MomentMix를 세 가지 naive augmentation과 비교했다: (1) Random Crop: foreground 영역을 무작위로 자른다. (2) Random Drop: 무작위로 α%\alpha \%의 프레임 feature를 0으로 설정하여 마스킹한다. (3) Gaussian Noise: 모든 프레임 feature에 평균이 0이고 표준 편차가 β\beta인 Gaussian noise를 추가한다.

Table A1. QD-DETR를 baseline으로 사용하여 QVHighlights val set에서 MomentMix와 naive augmentation(Random Crop, Random Drop (α\alpha, drop rates), Gaussian Noise (β\beta, noise levels))의 성능 비교.
Naive augmentation은 성능 향상에 실패했지만, MomentMix는 짧은 moment에서 상당한 이득을 얻었으며 moment retrieval task에서 전반적인 견고성을 달성했다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Baseline4.577.7738.8943.1042.6247.4441.0641.00
Random Crop5.318.9939.3443.0341.0146.0040.9541.00
Random Drop (0.1)4.417.4739.0644.3743.0547.5841.2841.44
Random Drop (0.3)3.527.9938.1641.7443.6246.9340.6940.14
Random Drop (0.5)4.157.2439.8744.0542.4447.2441.4840.95
Gaussian Noise (0.01)4.385.9938.4542.1844.6548.7741.4940.53
Gaussian Noise (0.05)3.056.4038.3942.8441.1346.2639.7840.32
Gaussian Noise (0.1)2.665.0136.2240.6442.9448.7439.0039.35
MomentMix12.2616.4442.8947.6945.7852.7546.8347.84

Table A1의 결과는 Random Crop이 짧은 moment에서 성능을 약간 향상시키지만, 다른 길이에서는 mAP를 저하시켜 전반적인 효과를 감소시킨다는 것을 보여준다. 유사하게, Random DropGaussian Noise는 의미 있는 성능 향상을 가져오지 못했다. 이와 대조적으로, MomentMix는 짧은 moment에서 눈에 띄는 개선을 달성했으며, 모든 길이에서 성능을 향상시켜 전반적인 지표에서 상당한 이득을 가져왔다. 이러한 결과는 다른 naive augmentation과 비교하여 MomentMix augmentation의 효과를 입증한다.

Length-Aware Decoder의 효과
우리는 moment 길이에 따라 moment center 예측을 개선하도록 설계된 새로운 프레임워크인 **Length-Aware Decoder (LAD)**를 제시한다. 명시적인 그룹 정의 없이 그룹별 일대다 매칭 전략을 사용하는 객체 감지의 Group-DETR [6]과 달리, LAD는 길이 클래스별 일대일 매칭을 활용하여 길이별 expert query를 생성한다. MR을 위한 전문적이고 견고한 솔루션으로서 LAD의 효과를 검증하기 위해, 우리는 LAD와 Group-DETR을 공통 baseline (QD-DETR)에 적용했다.

Table A2. QVHighlights val set에서 LAD (Length-Aware Decoder)와 Group-DETR의 성능 비교.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Baseline4.577.7738.8943.1042.6247.4441.0641.00
Group-DETR4.903.8440.24\mathbf{4 0 . 2 4}40.7243.1443.7942.1737.97
LAD6.99\mathbf{6 . 9 9}10.26\mathbf{1 0 . 2 6}39.4844.68\mathbf{4 4 . 6 8}43.34\mathbf{4 3 . 3 4}51.23\mathbf{5 1 . 2 3}42.36\mathbf{4 2 . 3 6}43.91\mathbf{4 3 . 9 1}

Table A2에서 볼 수 있듯이, Group-DETR은 R1을 개선하지만 mAP에서 상당한 하락을 겪는다. 이와 대조적으로, LAD는 R1과 mAP 모두에서 상당한 이득을 달성했으며, 길이 인식 메커니즘을 통해 짧은 moment에서의 성능 저하를 효과적으로 해결한다. 이러한 결과는 LAD가 MR을 위한 더 효과적이고 task-specific한 접근 방식임을 강조한다.

쿼리 수의 효과
우리의 방법은 40개의 쿼리를 사용하며, 각 길이 클래스에 10개의 쿼리가 할당된다. 이에 비해 QD-DETR과 TR-DETR은 원래 10개의 쿼리를 사용하고, UVCOM은 30개를 사용한다. 우리 방법에서 관찰된 성능 향상이 단순히 쿼리 수 증가 때문이 아님을 확인하기 위해, 공정한 비교를 위해 baseline 모델들을 40개의 쿼리로 재학습시켰다.

Table A3. QVHIGHLIGHTS val set 결과. \dagger는 우리와 동일한 쿼리 수로 학습했음을 나타낸다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
QD-DETR4.458.3439.5443.5443.8947.8041.9041.24
QD-DETR { }^{\dagger}5.488.8840.1743.9540.7044.1741.3940.29
QD-DETR+Ours12.2616.4442.8947.6945.7852.7546.8347.84
TR-DETR5.809.9144.0146.9547.3551.7046.3245.10
TR-DETR { }^{\dagger}3.667.3239.4443.0147.3950.0742.9141.83
TR-DETR+Ours12.4017.0545.1750.6649.0654.4749.4950.33
UVCOM5.9712.6545.9749.0445.1949.3946.7745.80
UVCOM\mathrm{UVCOM}^{\dagger}5.4810.3940.1747.8240.7047.7941.3943.87
UVCOM+Ours13.1718.2345.3551.1246.0153.4248.6850.32

Table A3에 제시된 결과는 baseline 모델에서 쿼리 수를 늘리는 것이 성능 향상을 보장하지 않으며, TR-DETR에서 관찰된 바와 같이 오히려 성능 저하로 이어질 수 있음을 명확히 보여준다. 이는 우리 방법으로 달성된 성능 향상이 사소하거나 단순히 쿼리 수 증가 때문이 아님을 나타낸다.

ForegroundMix의 cut criteria 효과
우리는 긴 foreground를 더 짧은 sub-foreground로 자르고, 이들을 섞어서 새로운 short-moment 데이터를 생성하는 ForegroundMix를 제안한다. QD-DETR을 baseline으로 사용하여, 원래 긴 foreground에 비해 sub-foreground의 단축 정도를 결정하는 εcut \varepsilon_{\text {cut }}의 효과를 분석한다.

Table A4. QVHighlights val set의 성능 비교. εcut \varepsilon_{\text {cut }}는 ForegroundMix에서 sub-foreground 단축을 제어한다. 모든 값에서 εcut \varepsilon_{\text {cut }}는 전반적인 성능을 지속적으로 향상시키며, 더 작은 값은 short-moment 향상에 탁월하다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Baseline4.577.7738.8943.1042.6247.4441.0641.00
εcut =5\varepsilon_{\text {cut }}=57.8612.2141.4245.2843.4547.6943.8443.32
εcut =10\varepsilon_{\text {cut }}=106.7810.8742.3146.0744.1648.1144.3543.45
εcut =15\varepsilon_{\text {cut }}=155.458.6841.3544.7844.3448.3743.4642.48

Table A4에서 볼 수 있듯이, εcut\varepsilon_{\text {cut}}의 값이 작을수록 (더 공격적인 자르기와 더 큰 단축) 짧은 moment에서 성능이 향상된다. 값에 관계없이 εcut\varepsilon_{\text {cut}}는 전반적인 성능을 지속적으로 향상시킨다. 우리의 주요 목표는 short-moment 성능을 향상시키는 것이므로, 가장 작은 값인 εcut =5\varepsilon_{\text {cut }}=5를 기본 설정으로 채택한다.

B. Moment Length Class Selection

길이 클래스 정의 (Defining length class)
여러 길이 클래스를 정의하기 위해, Figure A1에 나타난 바와 같이 길이에 따른 누적 mAP 그래프를 사용하여 해당 길이 임계값(threshold)을 선택한다. 누적 mAP를 선택한 이유는 모델이 저조한 성능을 보이는 길이를 효과적으로 강조하기 때문이다.
먼저, 기존 moment retrieval baseline인 UVCOM을 기반으로 각 moment 길이에 대한 누적 mAP를 계산한다. 이어서, 그래프에서 변곡점(inflection point)을 식별하고 K-means를 사용하여 이들을 클러스터링한다. 이렇게 클러스터링된 지점들이 길이 클래스 임계값을 결정한다.

클래스 수에 따른 성능 비교 (Performance comparison based on the number of classes)
클래스 수 Nc\mathcal{N}_{c}는 K-means의 kk 값에 의해 결정된다. 최적의 kk 값을 결정하기 위해, 우리는 QD-DETR을 baseline으로 사용하여 다양한 클래스 수로 실험을 진행했다. Table A5에서 볼 수 있듯이, 4개의 클래스를 사용했을 때 모델에서 가장 높은 길이 인식(length-awareness)을 보였다.

Table A5. QVHighlights val set에서의 성능 비교. Nc\mathcal{N}_{c}는 LAD의 길이 클래스 수를 나타낸다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Baseline4.577.7738.8943.1042.6247.4441.0641.00
Nc=2\mathcal{N}_{c}=26.959.0138.1944.9543.3649.8041.5642.99
Nc=3\mathcal{N}_{c}=37.209.6438.5444.7041.2949.1341.0843.03
Nc=4\mathcal{N}_{c}=46.9910.2639.4844.6843.3451.2342.3643.91

일관된 클래스 정의의 효과 (Effect of consistent class definition)
우리는 앞서 언급된 접근 방식에서 벗어나 고정된 임계값 [10, 30, 70, inf]을 사용했을 때의 성능을 조사했다. Tab. A6에 나타난 바와 같이, 이 경우에도 모든 데이터셋에서 성능 향상이 나타났다. 이 결과는 클래스 정의 방식에 관계없이 견고한 성능을 보여주며, 데이터셋 특성에 맞춘 정밀한 튜닝을 통해 추가적인 개선 가능성을 시사한다.

Table A6. 모든 데이터셋에 일관된 클래스 정의를 적용했을 때의 성능. 성능이 지속적으로 향상된다.

MethodQVHighlightsTACoSCharades-STA
R1 avg.mAP avg.R1@0.5R1@0.7R1@0.5R1@0.7
UVCOM46.7745.8036.3923.3259.2536.64
+ Ours49.0350.2742.0127.2459.7840.48
+2.26\mathbf{+ 2 . 2 6}+4.47\mathbf{+ 4 . 4 7}+5.62\mathbf{+ 5 . 6 2}+3.92\mathbf{+ 3 . 9 2}+0.53\mathbf{+ 0 . 5 3}+3.84\mathbf{+ 3 . 8 4}

Figure A1. 우리는 길이에 따른 누적 mAP 그래프의 변곡점을 기반으로 길이 클래스를 정의했다.

Table A7. 추가 오디오 양식(modality)을 사용한 QVHIGHLIGHTS val set에서의 성능 비교. UVCOM 결과는 원본 저장소에서 재현되었다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Avg.Avg.Avg.@0.5@0.7Avg.@0.5@0.75Avg.
UVCOM4.4511.0044.1848.0343.8948.8464.2649.4244.7664.9245.2944.70
+ Ours13.3817.7745.5151.1245.8453.5166.7152.9748.7768.0451.5250.10
+8.93+6.77+1.33+3.09+1.95+4.67+2.45+3.55+4.01+3.12+6.23+5.40

Table A8. 비디오 및 텍스트 양식 모두에 InternVideo 2s26 B2_{s 2}-6 \mathrm{~B} feature를 사용한 QVHIGHLIGHTS val set에서의 성능 비교. UVCOM 결과는 원본 저장소에서 재현되었다.

MethodShortMiddleLongAll
R1mAPR1mAPR1mAPR1mAP
Avg.Avg.Avg.@0.5@0.7Avg.@0.5@0.75Avg.
UVCOM5.6410.8348.9651.1249.1651.7170.1354.9749.9967.9547.8847.56
+ Ours14.8319.4949.2354.6049.5655.6771.1058.0052.8571.4554.8453.25
+9.19+8.66+0.27+3.48+0.40+3.96+0.97+3.03+2.86+3.50+6.96+5.69

C. Evaluation with Diverse Feature Types

우리는 다양한 feature 유형을 사용하여 우리의 방법인 MomentMix augmentationLength-Aware Decoder가 특정 feature에 국한되지 않고 **강건함(robust)**을 입증하였다.

추가 오디오 feature를 사용한 평가
기존 연구를 따라, 우리는 PANNs [17]에서 추출한 추가 오디오 feature를 통합하여 우리 방법의 성능을 평가하였다. Table A7에서 볼 수 있듯이, 추가 오디오 modality로 학습된 baseline UVCOM과 비교했을 때, 우리 방법은 baseline을 크게 능가하며 그 효과를 입증하였다.

InternVideo2 feature를 사용한 평가
다양한 feature 유형에 걸쳐 우리 방법의 강건함을 추가로 검증하기 위해, 우리는 멀티모달 비디오 이해를 위한 최신 foundation model인 InternVideo2 [37]의 feature를 비디오 및 텍스트 modality 모두에 활용하였다. 우리는 이러한 더 풍부하고 강력한 feature를 사용하여 baseline UVCOM과 우리 방법을 재학습하였다. Table A8에서 볼 수 있듯이, 향상된 feature 품질에도 불구하고 baseline은 여전히 짧은 순간(short moments)에서 성능 저하를 겪었다. 이와 대조적으로, 우리 방법은 짧은 순간 성능을 크게 향상시켰으며, R1에서 9.19%, mAP에서 8.66%의 이득을 달성함과 동시에 전반적인 성능 향상을 이루었다. 이러한 결과는 우리 방법이 짧은 순간 성능 문제를 효과적으로 해결함을 보여준다.

D. More Qualitative Results

우리는 더 넓은 범위의 샘플에 걸쳐 다른 모델들과의 비교를 제공한다. Figure A2의 예시들을 통해 우리는 짧은 순간을 예측하는 데 있어 우리 방법이 우수한 정확도를 보인다는 것을 재확인할 수 있다.

Figure A2. 우리는 QVHighlight val set에서 0.7을 초과하는 confidence score를 가진 예측을 alpha 값 0.5를 사용하여 시각화하였다. "Ours"는 우리가 제안한 방법이 적용된 UVCOM을 의미한다. 기존 모델들은 foreground와 background를 효과적으로 구분하는 데 어려움을 겪어, 짧은 순간에 대한 예측이 부정확하거나 놓치는 경우가 빈번하다. 이와 대조적으로, 우리 모델은 짧은 순간을 정확하고 견고하게 예측하는 데 탁월한 성능을 보인다.