Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색

본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval

Lin, Junan, et al. "Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval." arXiv preprint arXiv:2508.04273 (2025).

Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval

Junan Lin*<br>Zhejiang University<br>Hangzhou, China<br>linja@zju.edu.cn

Daizong Liu*<br>Peking University<br>Beijing, China<br>dzliu@stu.pku.edu.cn

Xianke Chen<br>Zhejiang Gongshang University<br>Hangzhou, China<br>a397283164@163.com

Xiaoye Qu<br>Shanghai Artificial Intelligence<br>Laboratory<br>Shanghai, China<br>xiaoye@hust.edu.cn

Xun Yang<br>University of Science and Technology of China<br>Hefei, China<br>hfutyangxun@gmail.com

Jixiang Zhu<br>Zhejiang Gongshang University<br>Hangzhou, China<br>zhujx@mail.zjgsu.edu.cn

Abstract

**Video Moment Retrieval (VMR)**은 주어진 쿼리와 의미적으로 관련된 특정 순간을 검색하는 것을 목표로 한다. 이 task를 해결하기 위해 대부분의 기존 VMR 방법들은 시각(visual) 및 텍스트(textual) modality에만 초점을 맞추고, 상호 보완적이지만 중요한 오디오(audio) modality를 간과한다.
비록 몇몇 최근 연구들이 오디오-비전-텍스트(audio-vision-text) 공동 추론을 시도하지만, 이들은 모든 modality를 동등하게 취급하고 moment retrieval을 위한 세분화된 상호작용(fine-grained interaction) 없이 단순히 임베딩한다. 이러한 설계는 다음과 같은 이유로 비실용적이다:

  • 모든 오디오가 비디오 moment retrieval에 도움이 되는 것은 아니다.
  • 일부 비디오의 오디오는 순간 결정에 무의미한 완전한 노이즈 또는 배경음일 수 있다.

이를 위해 우리는 **Importance-aware Multi-Granularity fusion model (IMG)**을 제안한다. 이 모델은 VMR을 위해 오디오-비전-텍스트 context를 동적으로, 그리고 선택적으로 통합하는 방법을 학습한다.
구체적으로, 텍스트 가이던스(textual guidance)를 비전 및 오디오와 각각 통합한 후, 우리는 먼저 오디오의 중요도 점수를 예측하는 pseudo-label-supervised audio importance predictor를 설계한다. 그리고 이에 따라 노이즈 오디오로 인한 간섭을 완화하기 위해 가중치를 할당한다.
다음으로, 우리는 local-, event-, global-level에서 오디오 및 시각 modality를 적응적으로 융합하여 상호 보완적인 context를 완전히 포착하는 multi-granularity audio fusion module을 설계한다.
우리는 또한 추론 시 오디오 modality가 누락되는 문제를 해결하기 위해 cross-modal knowledge distillation 전략을 제안한다.
우리의 방법을 평가하기 위해, 우리는 새로운 VMR 데이터셋을 추가로 구축한다.

Sanyuan Zhang <br> Zhejiang University <br> Hangzhou, China <br> syzhang@zju.edu.cn

Jianfeng Dong { }^{\dagger}<br>Zhejiang Gongshang University<br>Hangzhou, China<br>dongjf24@gmail.com

데이터셋, 즉 Charades-AudioMatter를 구축하였다. 이 데이터셋은 오디오 관련 샘플들을 기존 CharadesSTA에서 수동으로 선택하고 재구성하여, 오디오 modality를 활용하는 모델의 능력을 검증하기 위해 사용된다. 광범위한 실험을 통해 우리 방법의 효과를 검증하였으며, VMR 방법론에서 audio-video fusion을 통해 state-of-the-art 성능을 달성하였다. 우리의 코드는 https://github.com/HuiGuanLab/IMG 에서 확인할 수 있다.

CCS Concepts

  • Information systems \rightarrow Multimedia and multimodal retrieval; Video search.

Keywords

비디오 모먼트 검색(Video Moment Retrieval); 비디오 이해(Video Understanding); 멀티모달 학습(Multimodal Learning); 교차 모달 정렬(Cross-Modal Alignment)

ACM Reference Format:

Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, and Jianfeng Dong. 2025. Audio Does Matter: ImportanceAware Multi-Granularity Fusion for Video Moment Retrieval. In Proceedings of the 33rd ACM International Conference on Multimedia (MM '25), October 27-31, 2025, Dublin, Ireland. ACM, New York, NY, USA, 14 pages. https: //doi.org/10.1145/3746027.3754982

1 Introduction

Video Moment Retrieval (VMR) [1, 12, 16, 64, 64]는 주어진 쿼리의 의미와 관련된 비디오의 특정 부분을 검색하는 것을 목표로 한다. 이는 근본적이면서도 중요한 task로서, 정확한 정렬(alignment)과 추론(reasoning)을 위해 비디오와 텍스트 의미 간의 심층적인 상호작용을 요구한다.
기존의 주류 연구들 [11, 13, 62, 63, 68, 69, 73, 74]은 일반적으로 단순한 시각(visual) 및 텍스트(textual) modality에 초점을 맞추고, 특정 순간을 검색하기 위한 vision-text 통합 프레임워크를 개발한다.
그러나 시각적 맥락 외에도 오디오 modality는 비디오 스트림 내에서 귀중한 맥락을 포함한다 [3, 18, 25, 39, 40, 42, 77]. 오디오 modality의 풍부한 보완적 맥락을 고려하지 않으면, 이전 VMR 방법들은 유사한 시각적 외형을 공유하는 "웃음(laughing)"과 "대화(talking)"와 같은 다른 활동들을 구별하지 못한다. 따라서 VMR에서 오디오, 비전, 텍스트 modality의 상호작용 및 융합을 탐구하는 것은 연구 발전을 위한 유망한 방향이다.

오디오 정보를 활용하기 위해 몇몇 오디오 기반 VMR 방법들 [8, 9, 36]이 제안되었다. 그러나 이러한 접근 방식들은 일반적으로 오디오, 비전, 텍스트 modality에서 feature를 추출하고, 다양한 기여도를 고려하지 않은 채 균일한 통합 전략을 공동 추론에 적용한다. 예를 들어, PMI-LOC [9]는 RGB, motion, 오디오 modality를 통합하고, modality 간의 쌍별 상호작용을 설정하며, UMT [36]는 시각 및 오디오 정보 통합을 위한 통합 멀티모달 Transformer 프레임워크를 도입한다. 반면 ADPN [8]은 효율적인 오디오 융합을 위해 오디오와 시각 modality 간의 일관성 및 상보성을 활용한다. 이러한 방법들이 기존 VMR 방법들보다 상대적으로 더 나은 성능을 달성하지만, 일부 비디오의 오디오가 완전한 노이즈이거나 배경음일 수 있으므로 모든 오디오가 최종 grounding에 기여하지는 않는다는 점을 간과한다.

실제로 오디오 의미는 상당한 복잡성과 다양성을 나타내며, 시나리오에 따라 크게 달라진다. 특정 경우에 오디오 맥락은 귀중한 보완 역할을 하여 텍스트 의미와의 정렬을 향상시키고 정확한 추론을 용이하게 한다. 반대로, 노이즈가 많은 오디오는 잘못된 텍스트 연관성을 유발할 수 있다. Figure 1에서 보여지듯이, 첫 번째 쿼리인 "a person is laughing"의 경우, 오디오 맥락을 활용하는 것이 웃는 행동을 식별하는 데 크게 도움이 되며, 이는 시각 정보만으로는 모호할 수 있다. 그러나 두 번째 쿼리인 "a person looks out a window"의 경우, 이 행동이 주로 시각적으로 주도되기 때문에 오디오 modality는 아무런 이점을 제공하지 않으며 심지어 해로울 수도 있다. 따라서 우리는 특정 텍스트 의미를 추론하기 위해 오디오 및 시각 modality에서 적절한 맥락을 선택적으로 적응적으로 통합하는 보다 동적인 오디오-비전-텍스트 연관 프레임워크를 설계하고자 한다.

이를 위해 우리는 VMR task를 위한 유연한 오디오-비전-텍스트 공동 추론을 시도한다. 특히, 우리는 **세 가지 예측 branch(오디오 branch, 시각 branch, 오디오-시각 융합 branch)를 갖춘 새로운 Importance-aware Multi-Granularity fusion model (IMG)**을 제안한다.
초기에 텍스트 가이드(textual guidance)는 시각 및 오디오 입력과 각각 별도로 통합된다. 그런 다음 우리는 가변적인 오디오 중요도 문제를 해결하기 위해 오디오 중요도 인식 모듈(audio importance-aware module)을 도입하는데, 이는 vision-text 쌍에서 매우 중요하다. 이 모듈은 각 branch의 검색 손실에서 파생된 pseudo-label에 의해 감독된다. 이는 시각 정보에 비해 오디오의 상대적 중요도를 효과적으로 평가하는 방법을 학습한다.
이후 오디오-비전 맥락 융합을 위해, 우리는 다중 granularity 융합 네트워크(multi-granularity fusion network)를 설계한다. 이 네트워크는 로컬 수준(local-level) 및 이벤트 수준(event-level)에서 전역 수준(global-level)까지 오디오-비전 융합을 구축하여, 비디오 콘텐츠 내에서 텍스트 특정 활동 이해를 돕기 위한 오디오의 핵심 단서를 더 잘 발견하는 방법으로 사용된다.
전통적인 검색 손실(retrieval loss)을 감독에 사용하는 것 외에도, 멀티모달 융합 branch는 두 modality의 긍정적인 맥락을 융합하기 때문에 개별 vision/audio 추론 branch보다 더 나은 성능을 보이는 경향이 있다. 따라서 우리는 융합 branch에서 더 약한 시각 및 오디오 branch로 지식을 증류(distillate)하여 두 branch의 성능을 강화하고, 결과적으로 융합 branch에 더 나은 피드백을 제공하여 성능을 더욱 향상시킨다.

요약하자면, 우리 연구의 주요 기여는 네 가지이다:

Figure 1: (상단) 오디오는 시각 정보의 중요성을 능가하는 중요한 modality이다. (하단) 오디오는 시각 정보와 관련이 없으며 노이즈로 간주된다.

  • 우리는 오디오가 포함된 VMR task를 처리하기 위한 새로운 Importance-aware Multi-Granularity fusion network (IMG)를 제안한다. 이 네트워크는 최종 검색을 위해 비디오 샘플의 오디오 모달 정보를 여러 granularity에서 선택적으로 융합한다.
  • 우리는 학습 중에 loss-aware pseudo-importance generator의 안내를 받아 의미적으로 관련된 오디오 단서를 식별하고 강조하는 오디오 중요도 예측기(audio importance predictor)를 도입한다. 이 메커니즘은 모델이 정보성 오디오 단서에 선택적으로 집중하면서 관련 없거나 노이즈가 많은 배경음을 억제할 수 있도록 한다.
  • 우리는 더 효과적인 융합 branch에서 단일 모달 branch로 지식을 전달하는 cross-modal knowledge distillation 전략을 제안한다. 이 전략은 추론 중에 오디오 정보가 누락되더라도 우리 프레임워크가 강력한 성능을 유지할 수 있도록 한다.
  • Charades-STA 및 ActivityNet Captions와 같은 표준 벤치마크 외에도, 우리는 샘플의 오디오가 순간 검색에 중요한 새로운 평가 데이터셋인 Charades-AudioMatter를 도입한다. 이 데이터셋에 대한 광범위한 실험은 특히 오디오 단서가 보완적이거나 지배적인 역할을 하는 시나리오에서 우리 접근 방식의 효과를 입증한다.

Video Moment Retrieval (VMR). VMR은 자연어 쿼리를 기반으로 특정 비디오 세그먼트를 검색하는 것을 목표로 한다. 현재 접근 방식은 크게 두 가지 범주로 나뉜다: proposal-basedproposal-free.

  • Proposal-based 방식 [34, 47, 49, 57, 58, 72, 73, 75]의 경우, 후보 proposal을 미리 분할하는 것이 종종 필요하며, 미리 분할된 proposal과 텍스트가 cross-modal matching 모듈의 입력으로 사용되어 검색이 이루어진다.
  • Proposal-free 방식 [12, 22, 62, 63, 68-70, 74]은 미리 정의된 proposal의 필요성을 없애고, 원시 시각 및 텍스트 feature를 cross-modal matching을 통해 직접 처리한다.

이러한 패러다임을 기반으로, 최근 연구들 [24, 29, 41, 48, 54]은 DETR-style 아키텍처 [6]를 탐구하여 VMR을 집합 예측(set prediction) 문제로 공식화함으로써, 더욱 유연하고 end-to-end 학습을 가능하게 했다. 이러한 경향을 더욱 확장하여, 일부 연구들은 다양한 비디오 task (예: moment retrieval, highlight detection, video summarization)를 일반적인 프레임워크 아래 통합하는 것을 목표로 한다 [32, 61]. 한편, 대규모 언어 모델(LLM)의 빠른 발전은 LLM의 의미론적 추론 능력을 활용하여 VMR을 향상시키는 새로운 연구 흐름을 촉발시켰다 [20, 26, 45, 53, 56, 65]. 동시에, 오디오는 VMR에서 비전을 보완하는 귀중한 modality로 부상했다. 예를 들어, PMI-LOC [9]는 RGB, motion, 오디오를 활용하며, 시퀀스 및 채널 수준에서 modality 쌍과 상호작용하도록 설계되었다. UMT [36]는 비전과 오디오를 융합하기 위한 통합 멀티모달 Transformer 프레임워크를 제안한다. ADPN [8]은 오디오-시각 modality 간의 정보 격차를 메우기 위해 텍스트 기반의 clues miner를 제안한다. 그러나 위의 모델들은 오디오가 modality로서 가지는 내재적인 불확실성을 간과하고 있으며, 오디오의 기여도는 특정 쿼리 및 비디오 콘텐츠에 따라 크게 달라진다는 점을 고려하지 않아, 더욱 적응적인 솔루션의 필요성을 강조한다.

불확실한 모달 학습 (Uncertain Modal Learning). 오디오 modality는 비디오 이해 task에서 불확실성과 불균형을 자주 나타낸다 [15, 60]. 예를 들어, 일부 비디오의 오디오는 오직 노이즈나 배경음으로만 구성될 수 있으며, 텍스트 기반 비디오 task에서는 쿼리가 오디오와 완전히 독립적일 수 있다. 유사한 문제가 다른 modality에서도 발생하며, 이러한 모달 불균형 문제는 상당한 주목을 받아왔다 [10, 23, 33, 46, 59, 66]. 이러한 문제들을 해결하기 위해, Li et al. [31]은 내재적인 데이터 모호성으로 인한 불확실성을 정량화하여 예측 신뢰도를 높였다. Tellamekala et al. [50]은 calibration 및 ordinality 제약 조건을 적용하는 모델링 접근 방식을 도입하여 범주형 감정 인식에서 모달 불확실성을 다루었다. Zhang et al. [71]은 저품질 멀티모달 융합의 도전 과제와 해결책을 탐구하며, 샘플별, 시간적, 공간적 변화를 극복하는 데 있어 동적 멀티모달 학습의 가능성을 강조했다. 이러한 발전들을 기반으로, 우리는 **오디오 중요도 예측기(audio importance predictor)**를 도입한다. 샘플별 손실 함수에서 파생된 동적 pseudo-label의 감독을 받아, 이 예측기는 오디오 modality의 중요도를 정량화하여 적응형 모달 융합을 위한 핵심 매개변수를 제공한다.

3 Method

3.1 Overview

문제 정의 (Problem Definition)
비디오 모먼트 검색(Video moment retrieval)은 텍스트 쿼리 Q={wi}i=1NQ=\{w_i\}_{i=1}^N에 의미적으로 일치하는 특정 세그먼트의 시작-끝 프레임 쌍 {fs,fe}\{f_s, f_e\}을, 원본 비디오 V={ft}t=1TV=\{f_t\}_{t=1}^T에서 검색하는 것을 목표로 한다. 여기서 wiw_iii-번째 단어를, ftf_ttt-번째 프레임을 나타낸다.
또한, 각 비디오 프레임에 대해 보완적인 modality로서 오디오 정보를 포함하는 클립을 추출할 수 있다. 따라서 해당 오디오 스트림은 A={aj}j=1TA=\{a_j\}_{j=1}^T로 표현되며, aja_jjj-번째 오디오 클립을 나타내어 검색 프로세스를 향상시키는 문맥적 지식을 제공한다.

전체 파이프라인 (Overall Pipeline)
우리가 제안하는 프레임워크는 Figure 2에 나타나 있다.
해당 encoder를 통해 사전 추출된 시각, 오디오, 텍스트 feature가 주어지면, 우리의 IMG 모델은 먼저 FFN(feed-forward network) layer를 사용하여 이 feature들을 공통의 잠재 공간(latent space)으로 매핑한다.
그 다음, vision-text 쌍과 audio-text 쌍 간의 상호작용을 활용하여 이들을 융합하고, 이를 통해 텍스트 의미론적으로 활성화된(text-semantic-activated) 시각 및 오디오 feature를 도출한다.
이 feature들은 visual-audio fusion branch로 전달되어, 동적으로 상호작용하며 공동 추론(joint reasoning)을 가능하게 한다.
구체적으로, 오디오 중요도 예측기(audio importance predictor)는 샘플별 점수를 생성하는데, 이 점수는 주어진 샘플 쌍에 대한 audio-to-vision 상보성 계수(complementarity coefficients)를 결정하는 중요한 가중치 역할을 한다.
이후, 시각 및 오디오 feature는 multi-granularity fusion module로 입력되어, 이전에 얻은 중요도 가중치에 따라 local, event, global 수준에서 target-moment 관련 정보를 통합한다.
마지막으로, 세 가지 수준의 feature는 연결(concatenate)되어 예측기(predictor)로 입력되어 예측값을 출력하며, visual-only feature와 audio-only feature 또한 각자의 unimodal predictor로 입력된다.
fusion branch에서 unimodal branch로 지식을 전달하기 위해 cross-modal knowledge distillation 전략을 포함하는 multi-branch training이 사용된다.
추론 시에는 검색 branch를 자유롭게 선택할 수 있으며, 일반적으로 fusion branch가 선호되는 선택지이다.

3.2 Input Representation

다중 모달 Feature 표현 (Multi-Modal Feature Representation)
오디오 모달리티의 경우, 먼저 사전학습된 audio-aware CNN [21, 27]을 사용하여 원본 feature ART×daA \in \mathbb{R}^{T \times d_{a}}를 추출한다. 그 다음, [69]를 따라 FFN, convolutional, Transformer layer로 구성된 audio encoder를 적용하여 텍스트 의존성이 강화된 feature ART×dA^{\prime} \in \mathbb{R}^{T \times d}를 얻는다.
비전 모달리티의 경우, 사전학습된 visual CNN [7, 52, 76]을 통해 원본 visual feature VRT×dvV \in \mathbb{R}^{T \times d_{v}}를 추출하고, audio encoder와 동일한 구조를 공유하는 visual encoder를 통해 해당 강화된 feature VRT×dV^{\prime} \in \mathbb{R}^{T \times d}를 얻는다.
텍스트 쿼리의 경우, GloVe embedding [43]으로 직접 초기화한다. 쿼리가 비전 및 오디오와 다른 의미론적 정렬(semantic alignment)을 가질 수 있으므로, 우리는 두 개의 개별적인 text encoder를 통해 이를 추가로 인코딩한다. 이 text encoder 또한 audio encoder와 동일한 구조를 공유하며, 모달리티별로 강화된 텍스트 featureQaRN×dQ_{a}^{\prime} \in \mathbb{R}^{N \times d}QvRN×dQ_{v}^{\prime} \in \mathbb{R}^{N \times d}를 얻는다.

Vision-text/Audio-Text 융합 (Vision-text/Audio-Text Fusion)
비전/오디오와 주어진 텍스트 쿼리 간의 가장 관련성 높은 내용을 강조하기 위해, 각 쌍에 context-query attention [69]을 적용하여 융합된 feature V^RT×d\hat{V} \in \mathbb{R}^{T \times d}A^RT×d\hat{A} \in \mathbb{R}^{T \times d}를 얻는다.

3.3 Importance-Aware Multi-modal Fusion

importance-aware multi-modal fusion은 **오디오 중요도 예측기(audio importance predictor)**에 의해 유도되는 다중 세분성 융합(multi-granularity fusion) 모듈이다. 이 예측기는 의미적으로 관련된 오디오 신호를 식별하고 강조하도록 학습되어, 모델이 정보성 높은 오디오 신호를 시각적 feature와 선택적으로 융합할 수 있게 한다. 예측된 중요도 점수에 따라, 다중 세분성 융합 프로세스는 관련 없거나 노이즈가 많은 오디오 콘텐츠를 효과적으로 필터링하면서, 여러 시간적 수준에서 의미 있는 cross-modal 정보를 통합하여 검색 성능을 향상시킨다.

3.3.1 Audio Importance Predictor

**Audio Importance Predictor (AIP)**는 각 비디오-쿼리 쌍에 대한 오디오의 상대적 중요도를 동적으로 추정하도록 설계된 경량 모듈이다. Ground-truth 중요도 레이블을 사용할 수 없기 때문에, 우리는 학습 중 감독 신호로 사용될 pseudo 레이블을 생성하는 loss-aware pseudo-importance generator를 설계한다.

구조 (Structure)
텍스트로 유도된 시각 및 오디오 feature V^\hat{V}A^\hat{A}가 주어졌을 때, 우리는 먼저 **attention pooling [4]을 적용하여 이들의 전역 표현(global representations)**인 V^GRd\hat{V}_{G} \in \mathbb{R}^{d}A^GRd\hat{A}_{G} \in \mathbb{R}^{d}를 얻는다. 이 전역 feature들은 각각 시각 및 오디오 양식의 전반적인 의미론적 맥락을 포착한다. 다음으로, 두 전역 feature를 **연결(concatenate)**하고 이를 **Multi-Layer Perceptron (MLP)**에 입력한다.

Figure 2: 비디오 모먼트 검색을 위해 제안된 importance-aware multi-granularity fusion model의 프레임워크.

이는 상호 feature 상호작용을 촉진하고 모델이 시각적 맥락에 대한 오디오의 상대적 중요도를 추론할 수 있도록 한다. 오디오 중요도 점수 pp는 다음과 같이 예측된다: p=Sigmoid(MLP([AG^;VG^]))p=\operatorname{Sigmoid}\left(\operatorname{MLP}\left(\left[\hat{A_{G}} ; \hat{V_{G}}\right]\right)\right), 여기서 Sigmoid는 sigmoid 활성화 함수를 나타내고, [;][;]는 연결 연산자를 나타낸다. 이 예측된 점수 pp샘플별 중요도 가중치(sample-wise importance weight)로 작용하여, 오디오 양식의 기여도를 조절함으로써 후속 멀티모달 융합을 유도한다.

Pseudo importance labels를 이용한 학습 (Training with the pseudo importance labels)
오디오 중요도 예측기를 학습시키기 위해, 우리는 감독 신호로서 pseudo labels를 구성해야 한다. 우리는 신경망이 일반적으로 더 낮은 학습 손실에 해당하는 더 간단한 샘플로부터 학습을 우선시하는 경향이 있다는 관찰 [2]에서 영감을 얻었다. 이를 바탕으로, 우리는 각 비디오-쿼리 쌍에 대한 오디오 및 시각 브랜치의 검색 손실(retrieval losses)을 비교한다. 손실이 더 낮은 양식은 더 관련성 높은 정보를 제공하는 것으로 간주되며, 따라서 더 높은 pseudo-importance score가 할당된다. 구체적으로, 우리는 softmax와 유사한 정규화를 통해 pseudo-importance score yy^{\prime}를 계산한다:

y=eLretv/γeLreta/γ+eLretv/γ,y={1 if yϵmax,y if ϵmax>yϵmin,0 if y<ϵmin,y=\frac{e^{\mathcal{L}_{r e t}^{v} / \gamma}}{e^{\mathcal{L}_{r e t}^{a} / \gamma}+e^{\mathcal{L}_{r e t}^{v} / \gamma}}, y^{\prime}= \begin{cases}1 & \text { if } y \geq \epsilon_{\max }, \\ y & \text { if } \epsilon_{\max }>y \geq \epsilon_{\min }, \\ 0 & \text { if } y<\epsilon_{\min },\end{cases}

여기서 Lret a\mathcal{L}_{\text {ret }}^{a}Lret v\mathcal{L}_{\text {ret }}^{v}는 각각 오디오 브랜치와 시각 브랜치의 검색 손실을 나타내며, γ\gamma는 온도 계수(temperature coefficient)이다. 또한, ϵmin\epsilon_{\text{min}}은 오디오 양식이 정보성이 없다고 간주되어 기여가 억제되는 하한 임계값이다. 반대로, ϵmax\epsilon_{\text{max}} 이상의 값은 오디오가 검색에서 지배적인 역할을 한다는 것을 나타낸다. 마지막으로, 우리는 **이진 교차 엔트로피 손실(binary cross entropy loss)**을 사용하여 AIP를 다음과 같이 학습시킨다:

Lp=1Bi=1Byilogpi+(1yi)log(1pi),\mathcal{L}_{p}=\frac{1}{B} \sum_{i=1}^{B} y_{i}^{\prime} \log p_{i}+\left(1-y_{i}^{\prime}\right) \log \left(1-p_{i}\right),

여기서 BB는 배치 크기를 나타내고, iiii-번째 샘플의 인덱스를 나타낸다.

예측된 중요도 점수 pp는 후속 multi-granularity fusion 단계에서 핵심적인 제어 매개변수로 작용하여, 오디오 및 시각 feature의 선택적 통합을 유도한다. 초기 융합이 불안정한 예측에 의해 잘못 유도되는 것을 방지하기 위해, 우리는 융합 가중치를 중립 값인 0.5로 초기화하고, 학습이 진행됨에 따라 AIP가 예측한 점수의 영향력을 점진적으로 증가시킨다. 이러한 커리큘럼(curriculum)과 유사한 전략은 모델이 강력한 멀티모달 상호작용을 구축하는 데 도움을 주면서, 초기 단계의 중요도 추정 노이즈의 영향을 완화한다.

3.3.2 Multi-Granularity Fusion

시각 신호에 비해 오디오 양식의 본질적으로 노이즈가 많고 가변적인 특성을 고려할 때, 단순한 융합 전략만으로는 오디오-시각 상보성을 완전히 활용하기에 충분하지 않을 수 있다. 이를 해결하기 위해, 우리는 Local-, Event-, Global-관점에서 계층적 융합을 수행하고, 동적으로 추정된 오디오 중요도 점수에 의해 유도되는 Multi-Granularity Fusion (MGF) 모듈을 제안한다.

Local-Level Visual-Audio Fusion
Figure 3(a)에 나타난 바와 같이, 미세 수준 융합을 위해 시각 및 오디오 맥락을 프레임-투-클립(frame-to-clip)으로 일치시키기 위해, 우리는 대칭적인 multi-kernel 1D convolutional network를 구축하여 비디오 프레임과 오디오 클립 간의 지역적 관계를 깊이 있게 인지하도록 한다:

ckv=Conv1dk(V^),cka=Conv1dk(A^),c_{k}^{v}=\operatorname{Conv} 1 d_{k}(\hat{V}), c_{k}^{a}=\operatorname{Conv} 1 d_{k}(\hat{A}),

여기서 kk는 convolutional network의 커널 크기이다. 그런 다음 출력은 연결되고 MLP layer에 의해 인코딩되어 차원을 dd로 매핑한다:

V^l=MLP([c1v;;cnv]),Al^=MLP([c1a;;cna]),\hat{V}_{l}=M L P\left(\left[c_{1}^{v} ; \ldots ; c_{n}^{v}\right]\right), \hat{A_{l}}=M L P\left(\left[c_{1}^{a} ; \ldots ; c_{n}^{a}\right]\right),

여기서 V^lRT×d\hat{V}_{l} \in \mathbb{R}^{T \times d}Al^RT×d\hat{A_{l}} \in \mathbb{R}^{T \times d}이다. 이를 통해 우리는 지역 수준에서 강화된 오디오 및 시각 feature를 얻는다.

Figure 3: 제안된 Multi-Granularity Fusion 모듈: (a) Local-Level Fusion, (b) Event-Level Fusion, (c) Global-Level Fusion.

마지막으로, 오디오 중요도 예측기에서 파생된 가중치 pp를 사용하여 두 feature를 요소별 덧셈(element-wise addition)으로 융합한다:

Fl=(1p)LN(V^l)+pLN(A^l),\mathcal{F}_{l}=(1-p) L N\left(\hat{V}_{l}\right)+p L N\left(\hat{A}_{l}\right),

여기서 LN()L N(\cdot)은 layer normalization이다.

Event-Level Visual-Audio Fusion
Figure 3(b)에 나타난 바와 같이, 활동 추론을 위해 비전과 오디오 간의 이벤트 인식 의미론을 일치시키기 위해, 우리의 이벤트 수준 융합 모듈은 먼저 slot attention mechanism [37] 그룹을 사용하여 학습 가능한 이벤트 슬롯 세트를 통해 유사한 시각/오디오 클립을 여러 이벤트로 집계한다:

A^s=SlotAttn(A^),V^s=SlotAttn(V^),\hat{A}_{s}=\operatorname{Slot} \operatorname{Attn}(\hat{A}), \hat{V}_{s}=\operatorname{Slot} \operatorname{Attn}(\hat{V}),

여기서 A^sRe×d\hat{A}_{s} \in \mathbb{R}^{e \times d}V^sRe×d\hat{V}_{s} \in \mathbb{R}^{e \times d}는 시각/오디오 시퀀스에서 ee개의 이벤트가 추출되었음을 나타낸다. 이어서, 원본 시각/오디오 feature는 query로, 시각/오디오 이벤트는 key와 value로 cross-modal Transformer layer에 입력되어 Ae^\hat{A_{e}}V^e\hat{V}_{e}를 얻는다. 마지막으로, Equation 5와 동일하게 시각-오디오 이벤트 인식 feature Fe\mathcal{F}_{e}를 얻기 위해 융합한다.

Global-Level Visual-Audio Fusion
Figure 3(c)에 나타난 바와 같이, 전역적 관점에서 시각 및 오디오 맥락을 일치시키기 위해, 우리는 먼저 attention pooling mechanism [4]을 사용하여 시각/오디오 feature V^\hat{V}A^\hat{A}를 전역 수준 표현으로 인코딩한다. 그런 다음, 이를 원본 V^\hat{V}A^\hat{A}의 각 요소와 연결하고, MLP layer를 사용하여 V^g\hat{V}_{g}A^g\hat{A}_{g}를 얻는다. 마지막으로, Equation 5와 동일하게 시각-오디오 전역 인식 feature Fg\mathcal{F}_{g}를 얻는다.

Multi-Scale Feature Fusion
서로 다른 세분성에서 얻은 융합된 feature들은 다양한 상호 관계를 가지므로, 우리는 Bi-GRU 세트를 채택하여 feature들을 쌍으로 결합함으로써 이러한 상호 지각 관계를 재정립한다. 마지막으로, 결과를 연결하고 MLP layer를 통과시켜 차원을 dd-차원 공간으로 다시 매핑하여 최종 시각-오디오 융합 feature F\mathcal{F}를 얻는다.

3.4 Cross-modal Knowledge Distillation

Fusion branch는 오디오 및 시각적 신호를 공동으로 모델링함으로써, 본질적으로 더 풍부하고 포괄적인 의미론적 표현을 포착한다. 그러나 실제 응용 분야에서는 추론 시 오디오 신호가 누락되거나, 손상되거나, 또는 아예 사용 불가능할 수 있다. 이러한 조건에서도 unimodal branch가 강력한 검색 능력을 유지하도록, 특히 visual branch의 경우, 우리는 crossmodal knowledge distillation 전략을 도입한다.

구체적으로, 우리는 **fusion branch를 teacher로 간주하여 unimodal branch, 특히 visual branch에 지식을 증류(distill)**한다. 이를 통해 unimodal branch는 fusion branch로부터 modality-complementary한 신호를 상속받아, visual-only 입력만으로도 강력한 검색 성능을 달성할 수 있게 된다. 이를 위해 우리는 fusion branch와 unimodal branch의 출력 분포 간 Kullback-Leibler (KL) divergence를 다음과 같이 최소화한다:

Lkl=i=1Bτ2(KL(σ(ss/τ),σ(ts/τ))+KL(σ(se/τ),σ(te/τ)))\begin{aligned} \mathcal{L}_{k l}=\sum_{i=1}^{B} & \tau^{2}\left(K L\left(\sigma\left(s^{s} / \tau\right), \sigma\left(t^{s} / \tau\right)\right)\right. \\ & \left.+K L\left(\sigma\left(s^{e} / \tau\right), \sigma\left(t^{e} / \tau\right)\right)\right) \end{aligned}

여기서 ss/es^{s / e}student unimodal branch가 예측한 start 또는 end logits이고, ts/et^{s / e}teacher fusion branch가 예측한 start 또는 end logits이며, τ\tautemperature coefficient, σ\sigmasoftmax 함수이다. 두 unimodal branch를 결합하면, 최종 KL divergence loss는 **visual Lklv\mathcal{L}_{k l}^{v}**와 **audio Lkla\mathcal{L}_{k l}^{a}**에 대한 해당 loss들의 합이 된다.

3.5 Model Training

기존 연구들 [69]에 따라, 우리는 moment predictor를 retrieval head로 활용하여 moment의 start logitsend logits을 출력하고, 최종 예측 PsP_sPeP_e를 얻는다. fusion branch를 예로 들면, retrieval loss는 다음과 같이 계산된다:

Lretf=CE(Psf,Ys)+CE(Pef,Ye),\mathcal{L}_{r e t}^{f}=C E\left(P_{s}^{f}, Y_{s}\right)+C E\left(P_{e}^{f}, Y_{e}\right),

여기서 CE는 cross-entropy loss를 나타내며, Ys/e={Ys/ei}i{0,1}Y_{s/e} = \{Y_{s/e}^i\}_i \in \{0,1\}start/end 지점에서만 1로 설정되는 supervision을 의미한다. 이 손실 함수를 세 가지 branch (visual branch, audio branch, visual-audio fusion branch)에 적용하면, 예측의 총 retrieval loss는 다음과 같다:

Lret=Lretv+Lreta+Lretf.\mathcal{L}_{r e t}=\mathcal{L}_{r e t}^{v}+\mathcal{L}_{r e t}^{a}+\mathcal{L}_{r e t}^{f} .

또한, [30]에 따라, 우리는 **vision-text fusion feature V^\hat{V}**와 audio-text fusion feature A^\hat{A}, 그리고 **visual-audio fused feature F\mathcal{F}**에 **saliency loss Lsal\mathcal{L}_{sal}**을 도입한다. 이 손실은 타임스탬프 내부와 외부 feature 간의 거리를 넓혀준다. 최종적으로, 전체 학습 손실은 다음과 같다:

L=Lret+λ1Lp+λ2Lkl+λ3Lsal,\mathcal{L}=\mathcal{L}_{r e t}+\lambda_{1} \mathcal{L}_{p}+\lambda_{2} \mathcal{L}_{k l}+\lambda_{3} \mathcal{L}_{s a l},

Table 1: Charades-STA 데이터셋에 대한 Audio Importance Predictor (AIP)의 Ablation 연구.

Line IDApproachR1@3R1@5R1@7mIOU
#1Add74.1960.9743.4155.02
#2Concat72.7759.7343.2054.24
#3Sim74.3360.9143.8055.12
#4Attn Entropy73.7660.1143.2355.00
#5AIP w/o pseudo-label73.9859.7443.3354.39
#6AIP75.18\mathbf{7 5 . 1 8}61.85\mathbf{6 1 . 8 5}44.23\mathbf{4 4 . 2 3}55.62\mathbf{5 5 . 6 2}

여기서 λ1,λ2,λ3\lambda_1, \lambda_2, \lambda_3balancing parameter이다. 추론 시에는 **Maximum Likelihood Estimation (MLE)**을 사용하여 예측된 (ys,ye)(y^s, y^e)를 얻으며, 이때 ysyey^s \leq y^e 제약 조건을 적용한다.

4 Experiment

4.1 Dataset

우리는 오디오가 포함된 두 가지 비디오 순간 검색(video moment retrieval) 벤치마크 데이터셋, 즉 Charades-STA [16]와 ActivityNet Captions [28]에 대해 실험을 수행했으며, 우리가 재구성한 Charades-AudioMatter 데이터셋도 사용했다.

구체적으로, Charades-STA는 일상적인 실내 활동에 대한 데이터셋이다. 이 데이터셋에는 학습용으로 12,408개, 테스트용으로 3,720개의 순간(moment) 어노테이션이 있다. ActivityNet Captions 데이터셋은 ActivityNet에서 가져온 약 2만 개의 비디오를 포함한다. 우리는 [69]의 설정을 따랐으며, 학습용으로 37,421개, 테스트용으로 17,505개의 순간 어노테이션을 사용했다.

또한, 오디오 모달리티를 통합하는 모델의 능력을 추가로 검증하기 위해, 우리는 Charades-AudioMatter라는 새로운 데이터셋을 도입했다. 이 데이터셋에서는 각 테스트 쿼리에 대해 오디오가 중요한 역할을 한다. 우리는 비디오와 해당 오디오를 모두 검토하여, 오디오가 유용한 정보를 제공하는 Charades-STA 테스트 세트에서 1,196개의 샘플을 수동으로 선택하고 재구성했다. 이 선택된 샘플들은 새로운 테스트 세트를 구성하며, Charades-STA의 학습 세트는 변경되지 않았다. 자세한 내용은 보충 자료를 참조하라.

4.2 Evaluation Metrics

이전 연구들 [16, 35, 67]에 따라, 우리는 평가 지표로 "Rn@ μ\mu"와 "mIoU"를 채택한다. "Rn@ μ\mu"는 상위 nn개의 검색된 moment 중, ground truth와의 IoU(Intersection over Union)가 μ0.1\mu * 0.1보다 큰 결과를 하나 이상 포함하는 언어 쿼리의 비율을 나타낸다. "mIoU"는 모든 테스트 샘플에 대한 평균 IoU이다. 우리 실험에서는 n=1n=1을 사용하고 μ{3,5,7}\mu \in\{3,5,7\}을 사용한다.

4.3 Ablation Study

Audio Importance Predictor (AIP)의 효과
우리는 Audio Importance Predictor (AIP)의 효과를 입증하기 위해 ablation study를 수행했다. 초기 설계 단계에서 우리는 오디오와 시각 모달리티를 융합하는 여러 접근 방식을 탐색했다. Table 1에서 볼 수 있듯이, 우리는 AIP의 예측된 중요도에 기반한 가중 융합 방식과 다음 방식들을 비교했다:

  • 직접 덧셈(direct addition) (1행)
  • 연결(concatenation) (2행)
  • 임베딩 간 코사인 유사도에 기반한 가중 융합 (3행)
  • 마지막 attention layer에서 계산된 attention entropy에 기반한 가중 융합 (4행)

또한, pseudo-label의 supervision 없이 AIP를 사용한 경우도 비교했다 (5행). 결과적으로, 우리의 AIP는 우수한 성능을 보였는데, 이는 효과적인 guidance를 제공하는 신중하게 설계된 label-supervised module 덕분이며, 궁극적으로 더 나은 동적 멀티모달 통합을 달성할 수 있었다.

Figure 4: 추론 시, 오디오 노이즈가 점진적으로 증가함에 따라 (a)의 두 곡선 간의 간격이 넓어지는데, 이는 AIP를 적용한 IMG 모델이 더 큰 강건성(robustness)을 나타냄을 시사한다. 또한, 예상대로 (b)의 평균 오디오 중요도는 노이즈 수준이 증가함에 따라 감소한다.

Table 2: Charades-STA에서 융합 전략에 대한 Ablation study.

LocalEventGlobalR1@3R1@5R1@7mIOU
\checkmark--73.0758.8540.6853.67
-\checkmark-74.8459.9241.3254.83
--\checkmark73.2057.5041.6453.67
\checkmark\checkmark-74.0960.0842.6455.08
\checkmark-\checkmark73.8859.9843.1554.87
-\checkmark\checkmark74.2860.3342.9355.47
\checkmark\checkmark\checkmark75.18\mathbf{7 5 . 1 8}61.85\mathbf{6 1 . 8 5}44.23\mathbf{4 4 . 2 3}55.62\mathbf{55 . 6 2}

Audio Importance Predictor (AIP)의 강건성 분석
AIP의 강건성을 평가하기 위해, 우리는 테스트 세트 오디오 샘플의 일부에 무작위 가우시안 노이즈를 추가했다. Figure 4에서 볼 수 있듯이, 노이즈가 있는 오디오의 비율이 증가함에 따라 AIP를 적용한 IMG 모델과 적용하지 않은 IMG 모델 간의 성능 격차가 커졌다. 특히, AIP가 없는 IMG의 성능은 baseline 이하로 떨어졌지만, AIP가 있는 IMG는 더 완만한 성능 감소를 보였다. 이는 AIP의 강건성을 입증하며, 극심한 모달리티 불균형 상황에서 모달리티 중요성을 무시할 경우 성능에 미치는 해로운 영향을 강조한다.

융합 전략의 효과
우리는 Table 2에서 시각-오디오 융합 전략을 평가하기 위한 ablation study를 수행했다. 여기서 우리가 제안한 각 융합 방법은 성능 향상을 보여주며, 우리 융합 전략의 효과를 강조한다. 두 가지 feature 측면을 융합할 때 성능이 더욱 향상되며, 세 가지 feature 세트를 융합할 때 두 가지를 융합하는 것보다 더 나은 성능을 보인다. 이러한 결과는 서로 다른 granularity에서 추출된 feature들이 효과적으로 상호 보완하며, 오디오 정보의 보다 포괄적인 융합을 촉진함을 나타낸다.

융합 전략의 정성적 분석
이 실험은 우리의 시각-오디오 융합 전략이 효과적이고 서로를 보완할 수 있는 이유를 설명하고자 한다. 이 구조의 출발점은 서로 다른 융합 전략이 정보의 다른 측면에 집중하기를 원한다는 것이다. 예를 들어, local-level의 경우, 미묘한 단서를 찾는 것이 우리의 기대이다. Figure 5에서 우리는 Charades-STA의 샘플들을 moment-to-video 비율에 따라 5개의 동일한 수의 카테고리로 분류했으며, local 융합만 적용한 IMG가 더 작은 비율(즉, 더 미묘한 순간)을 처리하는 데 더 강력한 능력을 보인다는 것을 발견했다. 반면, event 융합만 적용한 IMG는 중간 비율의 성능을 향상시켰고, global 융합만 적용한 IMG는 더 큰 비율의 경우를 처리하는 데 적합했다. 서로 다른 granularity 간의 성능 차이는 다중-granularity 융합의 기반을 마련하며, 궁극적으로 우리의 IMG는 좋은 균형을 달성한다.

Figure 5: 다양한 정규화된 moment-to-video 비율에서 서로 다른 granularity 융합 전략의 성능.

Table 3: 추론 시 단일 모달리티 브랜치를 사용하는 조건에서 Charades-STA에 대한 Ablation study. "CKD"는 Cross-modal Knowledge Distillation을 나타낸다.

MethodBranchR1@3R1@5R1@7mIOU
IMGFusion75.1861.8544.2355.62
Visual74.840.3474.84_{0.34} \downarrow60.950.9060.95_{0.90 \downarrow}43.440.7943.44_{0.79} \downarrow54.970.6554.97_{0.65 \downarrow}
Audio60.1115.0760.11_{15.07} \downarrow45.8615.9945.86_{15.99} \downarrow29.3514.8829.35_{14.88 \downarrow}42.8512.7742.85_{12.77} \downarrow
IMG w/o CKDFusion74.0961.0343.3355.31
Visual72.491.6072.49_{1.60 \downarrow}56.924.1156.92_{4.11 \downarrow}39.583.7539.58_{3.75} \downarrow53.122.1953.12_{2.19 \downarrow}
Audio58.0416.0558.04_{16.05 \downarrow}43.7017.3343.70_{17.33 \downarrow}25.4817.8525.48_{17.85} \downarrow40.6814.6340.68_{14.63 \downarrow}

단일 모달리티 브랜치를 사용한 추론
실제 시나리오에서는 감시 영상과 같이 오디오 모달리티가 때때로 관련이 없거나 사용 불가능할 수 있다. 이러한 경우에도 IMG의 시각 브랜치를 계속 사용할 수 있으며, cross-modal knowledge distillation 전략은 잠재적인 부정적 영향을 완화할 것으로 예상된다. Table 3에서 볼 수 있듯이, CKD를 적용한 IMG는 최소한의 성능 저하를 보였으며, 이는 CKD가 부정적인 영향을 크게 극복할 수 있고, 추론 시 오디오 모달리티가 없을 때도 IMG가 여전히 우수한 성능을 발휘함을 확인시켜 주었다. 또한, 우리는 오디오 브랜치의 추론으로 조사를 확장했는데, 오디오 브랜치 단독 추론은 성능에 상당한 저하를 가져왔다. 따라서 우리는 오디오가 보조 모달리티로만 사용될 수 있다고 주장하며, CKD를 적용한 모델과 적용하지 않은 모델을 비교했을 때, CKD가 오디오 브랜치의 성능도 향상시킨다는 것을 발견했다.

오디오 통합의 효과 및 유연성
Table 4에서 우리는 시각 브랜치만 사용하여 학습된 baseline 모델(1행)과 오디오가 통합된 우리 모델(2행)을 비교했으며, 이는 오디오 모달리티 통합의 효과를 보여준다. 우리 프레임워크의 효과와 유연성을 더욱 검증하기 위해, 우리는 IAMF 모듈(Section 3.3)을 고급 모델(3-6행)에 플러그인으로 통합했다. 결과는 모든 모델이 모든 지표에서 개선을 달성했으며, 특히 도전적인 R1@7 지표에서 주목할 만한 향상을 보였다. 이는 우리의 접근 방식이 오디오 모달리티에서 의미 있는 정보를 효과적으로 추출함을 입증한다.

Table 4: 비디오 순간 검색을 위한 오디오 통합의 효과. "\uparrow"는 오디오 모달리티 도입 시 성능 향상을 나타낸다.

Line IDMethodCharades-STAActivityNet Captions
R1@7mIOUR1@7mIOU
#1Baseline39.5252.7626.1843.21
#2Ours44.234.7144.23_{4.71} \uparrow55.622.8655.62_{2.86} \uparrow29.473.2929.47_{3.29} \uparrow45.191.9845.19_{1.98 \uparrow}
#3EMB [22]39.2553.0926.0745.59
#4EMB + Ours43.153.9043.15_{3.90 \uparrow}54.531.4454.53_{1.44} \uparrow28.442.3728.44_{2.37 \uparrow}46.691.1046.69_{1.10} \uparrow
#5EAMAT [62]41.9654.4525.7742.19
#6EAMAT + Ours44.082.1244.08_{2.12 \uparrow}55.591.1455.59_{1.14 \uparrow}27.381.6127.38_{1.61} \uparrow43.271.0843.27_{1.08 \uparrow}

4.4 Performance Comparison

Table 5에서는 Charades-STA 및 ActivityNet Captions 데이터셋에서 우리의 IMG 모델을 평가하고, 기존의 오디오가 통합된 VMR(Video Moment Retrieval) 방법들과 비교한다. 또한, 오디오를 통합한 방법들이 오디오 없이 학습되었을 때의 결과도 함께 제시한다. Charades-STA와 ActivityNet Captions에서 우리의 IMG는 모든 지표에서 최고의 성능을 달성한다. 시각 정보만을 활용한 branch와 비교했을 때, 오디오를 도입하는 것이 샘플 학습을 크게 향상시킨다는 것을 발견했으며, 이는 오디오 modality가 VMR을 지원하는 데 중요한 역할을 할 수 있음을 보여준다. 더 나아가, 우리가 제안한 방법론은 기존 접근 방식에 비해 현저히 우수한 성능 향상을 보여주며, 이는 우리의 방법론적 우위를 입증한다.

Table 6에서는 Charades-STA 데이터셋에서 IMG를 평가하고, visual language model을 backbone으로 사용하는 state-of-the-art VMR 방법들과 비교한다. InternVideo2 [55]를 backbone으로 사용한 IMG는 오디오 modality가 통합되었을 때 모든 지표에서 최고의 성능을 달성한다. 이는 강력한 backbone 설정에서도 우리 방법의 일반화 능력을 보여줄 뿐만 아니라, 검색 성능 향상에 있어 오디오 단서의 중요한 역할을 강조한다.

IMG가 오디오 모달 정보를 효과적으로 탐색한다는 것을 강조하기 위해, 오디오 데이터가 더 일관되고 신뢰할 수 있는 Charades-AudioMatter 데이터셋에서 실험을 수행했다. 우리는 Charades-STA에서 경쟁력 있는 성능을 보이는 오픈 소스 방법들과 우리 방법을 비교한다. Table 7에 제시된 바와 같이, 우리의 IMG는 특히 R1@7에서 state-of-the-art 성능을 달성하여, 다른 모든 비교 모델들을 크게 앞선다. 이 결과는 오디오 modality를 추출하고 활용하는 우리 모델의 효과를 강조하며, ADPN과 비교했을 때 IMG가 오디오 통합에서 더 뛰어난 숙련도를 보여준다.

4.5 Qualitative Analysis

Figure 6(a)에서 볼 수 있듯이, "sneeze" 동작은 명확하게 보이지 않아 부정확한 예측으로 이어진다. 반면, 오디오는 이 동작을 두드러지게 포착하며, AIP가 예측한 중요도(importance)는 0.587로, 이는 fusion branch의 오류를 수정하는 데 도움을 준다. Figure 6(b)에서는 "sits" 동작이 뚜렷한 음향적 의미론(acoustic semantics)을 결여하여 오디오 branch에서 부정확한 추론을 야기한다. AIP는 중요도 점수를 0.178로 낮게 할당하여, fusion branch가 오디오에 의존하는 정도를 줄인다.

우리는 또한 Charades-AudioMatter에 대해 정성적 분석을 수행하여 오디오를 도입하지 않은 방법들과 비교한다. Figure 7(a)의 경우, 창문이 커튼에 부분적으로 가려져 있어 "closes the window" 동작에 대한 시각 전용 검색의 난이도가 크게 증가한다.

Table 5: Charades-STA 및 ActivityNet Captions에서 오디오가 통합된 방법들과의 비교. GloVe [43] 임베딩과 함께 I3D [7]를 vision backbone으로 사용한다.

MethodAudioCharades-STAActivityNet Captions
R1@3R1@5R1@7mIOUR1@3R1@5R1@7mIOU
UMT [36]\checkmark-48.3129.25-----
PMI-LOC w/o audio [9]-56.8441.2920.11-60.1639.1618.02-
PMI-LOC [9]\checkmark58.081.2458.08_{1.24 \uparrow}42.631.3442.63_{1.34 \uparrow}21.321.2121.32_{1.21} \uparrow-61.221.0661.22_{1.06} \uparrow40.070.9140.07_{0.91} \uparrow18.290.2718.29_{0.27 \uparrow}-
QD-DETR w/o audio [41]--52.7731.13-----
QD-DETR [41]\checkmark-55.512.7455.51_{2.74} \uparrow34.173.0434.17_{3.04} \uparrow-----
ADPN w/o audio [8]-70.3555.3237.4751.1355.7239.5625.2041.55
ADPN [8]\checkmark71.991.6471.99_{1.64 \uparrow}57.692.3757.69_{2.37 \uparrow}41.103.6341.10_{3.63 \uparrow}52.861.7352.86_{1.73} \uparrow57.161.4457.16_{1.44} \uparrow41.401.8441.40_{1.84 \uparrow}26.311.1126.31_{1.11} \uparrow42.310.7642.31_{0.76} \uparrow
IMG w/o audio-72.3756.3439.5252.7659.1941.5126.1843.21
IMG\checkmark75.182.81\mathbf{7 5 . 1 8}_{2.81 \uparrow}61.855.51\mathbf{6 1 . 8 5}_{5.51} \uparrow44.234.71\mathbf{4 4 . 2 3}_{4.71 \uparrow}55.622.86\mathbf{5 5 . 6 2}_{2.86} \uparrow61.502.31\mathbf{6 1 . 5 0}_{2.31} \uparrow45.063.55\mathbf{4 5 . 0 6}_{3.55 \uparrow}29.47 3.29_{3.29 \uparrow}45.191.98\mathbf{4 5 . 1 9}_{1.98 \uparrow}

Table 6: Charades-STA에서 state-of-the-art 방법들과의 비교. visual language model을 backbone으로 사용하는 방법들을 비교한다. "CLIP+SF"는 SlowFast [14]와 CLIP [44]의 조합을 의미하며, "IV2"는 InternVideo2 [55]를 나타낸다.

MethodbackboneR1@3R1@5R1@7mIOU
UnLoc-L [61]CLIP-60.8038.40-
Moment-DETR [30]CLIP+SF-55.6534.17-
BAM-DETR [29]CLIP+SF72.9359.9539.3852.33
QD-DETR [41]CLIP+SF-57.3132.55-
TR-DETR [48]CLIP+SF-57.6133.52-
UniVTG [32]CLIP+SF70.8158.0135.6550.10
FlashVTG [5]CLIP+SF-60.1138.01-
IMG w/o audioCLIP+SF70.2554.1237.7251.65
IMGCLIP+SF74.443.38\mathbf{7 4 . 4 4}_{3.38} \uparrow59.765.6459.76_{5.64 \uparrow}42.935.21\mathbf{4 2 . 9 3}_{5.21} \uparrow55.033.38\mathbf{5 5 . 0 3}_{3.38} \uparrow
InternVideo2 [55]IV279.7070.0348.9558.79
FlashVTG [5]IV2-70.3249.87-
SG-DETR [19]IV2-70.2049.5059.10
IMG w/o audioIV278.5866.0848.6958.46
IMGIV282.023.44\mathbf{8 2 . 0 2}_{3.44 \uparrow}70.814.73\mathbf{7 0 . 8 1}_{4.73 \uparrow}54.335.64\mathbf{5 4 . 3 3}_{5.64 \uparrow}62.253.79\mathbf{6 2 . 2 5}_{3.79 \uparrow}

Table 7: Charades-AudioMatter에서의 성능 비교. 모든 방법은 I3D [7] backbone을 활용한다.

MethodAudioR1@3R1@5R1@7mIOU
SeqPAN [68]-79.3067.1748.9658.74
EAMAT [62]-78.3068.2548.8858.90
EMB [22]-77.8167.0047.9658.66
ADPN w/o audio [8]-77.8964.4244.6456.98
ADPN [8]\checkmark78.650.7678.65_{0.76} \uparrow66.752.3366.75_{2.33 \uparrow}49.715.0749.71_{5.07} \uparrow59.852.8759.85_{2.87 \uparrow}
IMG w/o audio-77.8965.9247.5858.35
IMG\checkmark82.744.85\mathbf{8 2 . 7 4}_{4.85} \uparrow71.936.01\mathbf{7 1 . 9 3}_{6.01 \uparrow}54.276.69\mathbf{5 4 . 2 7}_{6.69 \uparrow}62.764.41\mathbf{6 2 . 7 6}_{4.41} \uparrow

EMB, EAMAT, SeqPAN, 그리고 오디오 없는 IMG는 시각 정보에만 의존했기 때문에 정확한 검색에 실패했다. 이와 대조적으로, IMG는 음향적 의미론을 활용하여 더 정확한 검색을 가능하게 했다. Figure 7(b)의 경우, "laugh"와 관련된 미묘한 움직임과 최소한의 장면 변화로 인해 시각 전용 검색 또한 어려웠다. 그러나 "laugh"의 두드러진 음향 신호 덕분에 IMG는 해당 타임스탬프를 효과적으로 정확히 찾아낼 수 있었다.

Figure 6: Charades-STA에서 두 개의 샘플이 선택되었다.

Figure 7: Charades-AudioMatter에서 두 개의 샘플이 선택되었다. (a)는 시야를 방해하는 가림막이 나타났고, (b)는 시각적으로 중요하지 않은 동작을 묘사했다.

5 Conclusion

이 논문에서는 VMR(Video Moment Retrieval) 과제를 위한 유연한 audio-vision-text reasoning을 처리하기 위해 **Importance-aware Multi-Granularity fusion model (IMG)**라는 새로운 모델을 제안한다. 오디오의 불확실성을 탐구하기 위해, 모델의 retrieval loss를 활용하여 동적으로 pseudo-label을 생성하고 이를 supervision으로 사용하는 audio importance predictor를 제안한다. 이 방법은 각 오디오 샘플에 가중치를 동적으로 부여하여 더 나은 audio-context guidance를 제공한다. 또한, local-부터 event-, global-level까지 오디오와 비주얼 모달리티를 완전히 융합하는 multi-granularity visual-audio fusion network를 제안하여 상호 보완 학습을 수행한다. 추가로, 오디오 모달리티 통합 능력을 검증하기 위해 Charades-AudioMatter라는 새로운 데이터셋을 소개한다. 실험 결과, 제안한 접근 방식의 효과가 입증되었다.

논문 지면 제한으로 본문에 포함되지 않은 더 많은 기술적 세부 사항과 추가 실험 결과는 다음과 같다.

  • Charades-AudioMatter 데이터셋 상세 분석

    • 데이터셋 구축 방법 (Section A.1)
    • 통계 분석 (Section A.2)
  • ActivityNet Captions 실험

    • Fusion 전략에 대한 Ablation Study (Section B.1)
    • 추가 모델 구조에 대한 Ablation Study (Section B.4)
    • 정성적 분석 (Section B.3)
  • 추가 실험

    • Hyperparameter 실험 (Section C.1): threshold $\epsilon_{\text{min}}$, temperature $\gamma$ 등
    • 효율성 실험 (Section C.2)
    • Event-Level Fusion 모듈 실험 (Section C.3)
    • Weak supervision 실험 (Section C.4)
    • Audio Importance Predictor 실패 사례(Failed AIP) 실험 (Section C.6)
    • Audio importance 분포 분석 (Section C.5)
  • 구현 세부 사항 (Section D)

A Charades-AudioMatter Dataset Construction

A. 1 Dataset Construction

이 섹션에서는 Charades-AudioMatter 데이터셋에 대해 자세히 소개한다. Charades-AudioMatter 데이터셋의 높은 품질과 실험 결과의 신뢰성을 보장하기 위해, 데이터셋 구축은 엄격한 선별 과정을 거쳤다. 데이터셋은 멀티모달 학습 경험이 있는 6명의 대학원생에 의해 주석되었다. 각 인스턴스는 두 명의 주석자가 독립적으로 라벨링했으며, 의견 불일치는 세 번째 주석자가 조정하였다. 오디오 데이터의 유효성과 관련성은 다음 과정을 통해 신중하게 평가되었다:

오디오의 유효성 (Validity of the Audio)
주어진 샘플에 대해 오디오 모달리티는 먼저 유효성 평가를 거친다. 의미 있는 정보가 부족하고 VMR에 효과적으로 기여할 수 없는 심각한 배경 소음이 포함되거나 소리가 전혀 없는 샘플은 제외되었다. 이 과정은 빠른 예비 선별을 위해 사용된다.

오디오와 쿼리 텍스트 간의 상관관계 (Correlation between Audio and Query Text)
초기 선별 후, 각 샘플은 오디오와 시각 정보를 조합하여 쿼리 텍스트가 오디오에 의존하는지 여부를 수동으로 평가했다. 예를 들어, 정적인 동작(예: "앉아있는", "바라보는", "서있는")을 묘사하는 쿼리는 오디오가 이러한 동작에 의미 있는 단서를 제공하지 않기 때문에 거의 제외되었다. 마찬가지로, 일반적으로 오디오 단서와 관련된 동작(예: "웃는", "문을 닫는")의 경우, 특정 인스턴스에서 오디오에 소리가 없거나 소리가 너무 희미하면 해당 샘플은 유효하지 않은 것으로 표시되어 제외되었다. 이 단계는 청각적 판단과 텍스트의 의미론적 분석을 통합하여 오디오와 텍스트의 관련성을 보장했다.

오디오와 비디오의 시간적 정렬 (Temporal Alignment of Audio and Video)
위의 선별 단계를 거친 후, 우리는 시각 및 오디오 모달리티 간의 시간적 정렬을 평가한다. 구체적으로, 오디오와 쿼리 텍스트만을 기반으로 수동 타임스탬프 주석을 수행한 다음, ground truth와의 IoU(Intersection over Union)를 계산했다. IoU 점수가 0.3 미만인 샘플은 폐기되었다. 이 과정은 오디오와 비디오 모달리티 간의 시간적 일관성을 검증하여, 심하게 정렬되지 않은 샘플(예: 상당한 오디오 지연 또는 과도한 오프셋이 있는 샘플)을 효과적으로 필터링한다.

Figure 8: "open the door"이라는 동일한 활동에 대해, 우리는 특정 샘플들을 검토하고 청취하여, 소리가 명확하게 전달되는 왼쪽 샘플을 최종적으로 선택하고, 거의 해당 소리가 없는 다른 샘플은 폐기하였다.

Table 8: Charades-AudioMatter 데이터셋의 통계 분석. 선택된 활동 카테고리와 선택되지 않은 활동 카테고리를 비교한다.

Selected ActivityCountUnselected ActivityCount
open (door/cabinet/...)241sit (on bed/chair/...)218
close (door/closet/...)150hold147
put (bag/grpceries/...)138(un)dress111
run90look85
turn on/off (light/tv/...)89stand59
throw (broom/shoes/...)66smile55
take (vacuum/food/...)56watch48
laugh52read32
eat41awake38
wash (hand/glass/...)29take a picture30
drink28play (phone/camera/...)23
walk25snuggle with (pillow/...)20
cook22(fix/adjust) hair19
pour (water/coffee/...)16lay18
sit down13
talk10

라벨링 과정 완료 후, 주석의 신뢰성과 일관성을 평가하기 위해 무작위 샘플링 절차를 수행했으며, 최종 주석자 간 일치도(inter-annotator agreement)는 95%를 초과했다. 이러한 엄격하고 다단계적인 접근 방식은 데이터셋이 높은 품질 기준을 준수하도록 보장하며, VMR task 연구 발전을 위한 견고한 기반을 제공한다.

A. 2 Statistical Analysis

우리는 제안하는 데이터셋인 Charades-AudioMatter의 효과를 추가적으로 입증하기 위해, Table 8에서 활동 카테고리별 분석을 수행하였다. 우리는 선택된 활동들의 카테고리를 정렬하고, 선택되지 않은 다른 활동들과 비교하였다.
표에서 볼 수 있듯이, 선택된 활동들은 "open", "put", "run"과 같이 더 명확하게 구별되는 소리를 가지는 경향이 있는 반면, 선택되지 않은 활동들은 "sit on", "hold", "look"과 같이 소리를 전달하는 경향이 적다. 하지만 활동만으로 오디오의 유효성을 정확히 분류할 수는 없으며, Figure 8에서 샘플을 제공한다.

Table 9Charades-AudioMatter와 원본 Charades-STA의 정규화된 순간 지속 시간(moment duration)의 빈도 분포를 비교한 것이다. 우리가 제안한 Charades-AudioMatter는 원본 Charades-STA의 지속 시간 분포와 유사한 다양성을 유지하며, 이는 제안된 데이터셋의 합리성을 입증한다.

Figure 9: Charades-AudioMatter와 Charades-STA의 순간 지속 시간(moment duration) 비교.

Table 9: ActivityNet Captions에서의 융합 전략(fusion strategies)에 대한 Ablation study.

LocalEventGlobalR1@3R1@5R1@7mIOU
\checkmark--60.0843.7027.6643.96
-\checkmark-59.1342.6826.8343.54
--\checkmark58.5742.1227.0043.22
\checkmark\checkmark-59.2143.6028.7144.17
\checkmark-\checkmark61.2543.9028.9244.78
-\checkmark\checkmark59.8443.6928.1944.05
\checkmark\checkmark\checkmark61.50\mathbf{6 1 . 5 0}45.06\mathbf{4 5 . 0 6}29.47\mathbf{29 . 4 7}45.19\mathbf{4 5 . 1 9}

Table 10: ActivityNet Captions에서 각 구성 요소에 대한 Ablation study.

MethodR1@3R1@5R1@7mIOU
IMG w/o AIP59.8143.4028.0644.49
IMG w/o pseudo-label58.1042.0027.7643.52
IMG w/o CKD59.9543.8928.4944.47
IMG61.50\mathbf{6 1 . 5 0}45.06\mathbf{4 5 . 0 6}29.47\mathbf{29 . 4 7}45.19\mathbf{4 5 . 1 9}

B Experiments on ActivityNet Captions

제안하는 IMG의 핵심 기여가 갖는 일반적인 효과를 추가적으로 검증하기 위해, 우리는 ActivityNet Captions 데이터셋에 대해 더 많은 실험을 수행한다.

B. 1 Ablation studies on fusion strategies

우리는 ActivityNet Captions에서 융합 전략의 효과를 검증한다. Table 9에서 보여지듯이, 제안된 각 융합 전략은 일관되게 성능 향상을 가져오며, 이는 그 효과를 강조한다. 이러한 결과는 또한 다양한 granularity의 feature를 통합하는 것이 상호 보완적인 이점을 제공하여, 전반적으로 우수한 성능을 이끌어낸다는 것을 보여준다.

Figure 10: ActivityNet Captions에서 선택된 두 가지 샘플.

Figure 11: 다양한 하이퍼파라미터에 대한 실험 결과: (a) 임계값 ϵmin \epsilon_{\text {min }}, (b) 온도 γ\gamma.

B. 2 Ablation studies on additional model structures

우리는 또한 ActivityNet Captions 데이터셋에서 추가적인 모델 구조의 효과를 검증하였다. Table 10의 1행과 2행은 각각 오디오 중요도 예측기(audio importance predictor)가 없는 모델pseudo-label 제약 조건이 없는 모델의 성능을 보여준다. 이 결과들은 제안된 pseudo-label 메커니즘이 오디오 중요도 예측기 내의 의사결정(decision-making)을 향상시키고 궁극적으로 성능을 개선한다는 것을 나타낸다. 마지막으로, 3행cross-modal knowledge distillation을 제거했을 때의 효과를 정량화하여, 이 구성 요소가 전체 프레임워크에 기여하는 바를 추가적으로 검증한다.

B. 3 Qualitative analysis

우리는 제안하는 IMG를 더 직관적으로 보여주기 위해, ActivityNet Captions 데이터셋에서 시각적 표현을 위한 예시들을 선정하였다. Figure 10(a)에서 "dives"는 프레임에서 보이지만, "flipping"은 명확하게 포착되지 않는다. 그러나 두 동작 모두 **명확한 음향적 의미(acoustic semantics)**를 보여주므로, fusion branch가 더 정확한 예측을 할 수 있다. Figure 10(b)에서는 시각적 표현이 매우 두드러지는 반면, 오디오는 전적으로 배경 음악으로만 구성되어 있으며, 그 결과 fusion branch는 오디오에 의해 잘못된 판단을 하지 않는다.

B. 4 Ablation studies on additional model structures

우리는 또한 ActivityNet Captions 데이터셋에서 추가적인 모델 구조의 효과를 검증하였다. Table 10의 1행과 2행은 각각 오디오 중요도 예측기(audio importance predictor)와 pseudo-label 제약 조건이 없을 때의 모델 성능을 보여준다. 이 결과들은 제안된 pseudo-label 메커니즘이 오디오 중요도 예측기 내의 의사결정(decision-making)을 향상시키고 궁극적으로 성능을 개선함을 나타낸다. 마지막으로, 3행은 cross-modal knowledge distillation을 제거했을 때의 효과를 정량화하여, 이 구성 요소가 전체 프레임워크에 기여하는 바를 추가적으로 검증한다.

Table 11: 시각 브랜치(visual branch)의 하이퍼파라미터 τ\tau에 대한 Ablation study.

τ\tau0.5\mathbf{0 . 5}1.0\mathbf{1 . 0}2.0\mathbf{2 . 0}4.0\mathbf{4 . 0}
R1@742.1042.6143.4442.90

C Additional experiments

C. 1 Experiments on hyperparameters

우리는 두 가지 중요한 하이퍼파라미터인 threshold ϵmin \epsilon_{\text {min }}과 temperature γ\gamma에 대한 ablation study를 수행한다. Figure 11에 자세히 설명된 바와 같이, 우리의 분석 결과 최적의 threshold와 temperature를 선택하는 것이 시각 및 오디오 feature의 상대적 중요도를 학습하는 모델의 능력을 크게 향상시켜 전반적인 성능을 개선한다는 것을 보여준다. 반대로, threshold를 너무 낮게 설정하면 모델이 노이즈가 많은 semantic feature에 중요도를 잘못 할당할 수 있으며, 너무 높게 설정하면 모델이 관련 semantic 정보를 포함하는 귀중한 샘플을 무시하게 될 수 있다. 마찬가지로, 지나치게 낮은 temperature 계수는 모델의 의사결정을 지나치게 경직되게 만들고, 지나치게 높은 계수는 두 feature 유형에 대한 모델의 민감도를 감소시켜 궁극적으로 성능을 저해한다.

Table 11에서는 cross-modal knowledge distillation 모듈의 temperature 계수 τ\tau에 대한 ablation study를 수행한다. 결과는 우리의 방법이 τ\tau에 비교적 둔감하다는 것을 나타낸다.

손실 관련 파라미터의 경우, λ1\lambda_{1}λ2\lambda_{2} 모두 모델에 중요하다. 우리는 각 손실 항의 균형을 맞추고 유사한 스케일을 유지하기 위해 λ1=5\lambda_{1}=5λ2=10\lambda_{2}=10으로 설정한다. λ3\lambda_{3}는 보조 손실(auxiliary loss)을 제어하며, 우리는 λ3=0.5\lambda_{3}=0.5로 설정하는데, 이는 다른 값들보다 훨씬 작다. 이러한 값들은 grid search와 경험적 검증을 기반으로 결정되었다.

C. 2 Experiments on efficiency

Table 12에서 보여주듯이, 우리는 추론 시 FLOPs와 파라미터 수를 측정하여 제안하는 방법의 효율성을 평가한다. 여러 오픈소스 방법들과 비교했을 때, 우리 모델은 더 나은 성능을 달성하면서도 낮은 계산량 및 파라미터 오버헤드를 유지한다. 또한, 우리는 Audio Importance Predictor (AIP), **Multi-Granularity Fusion (MGF)**를 포함한 우리 방법의 핵심 모듈 결과도 보고한다.

C. 3 Experiments on Event-Level Fusion

Supervision이 있는 slot (Slots with supervision)
moment boundary label은 coarse-level이며, 그 안에 포함된 event가 분할되어 있지 않기 때문에, 이를 활용하여 명시적인 event-level supervision을 제공할 수 없다. 따라서 우리는 unsupervised slot attention mechanism을 채택하여 잠재적인 event context를 암묵적으로 학습한다. 구체적으로, 우리는 moment boundary label을 활용하여 모든 event의 전역적인 내용(global content)을 추가적으로 supervise한다. slot interaction 후, event-level 시퀀스는 MLP와 Sigmoid를 통해 1D 시퀀스로 전역적으로 투영(project)되어 binary cross-entropy loss로 supervise된다. Table 13에서 볼 수 있듯이, 전역적인 supervision은 unsupervised 방식과 유사한 성능을 보인다. 우리는 이러한 결과가 VMR에서 사용 가능한 supervision의 제한된 granularity 때문이라고 가정하며, unsupervised 버전은 잠재적인 event를 암묵적으로 학습할 수 있다.

Table 12: flops 및 params 비교.

MethodFlops(G)Params(M)\operatorname{Params}(\mathrm{M})R1@7
EAMAT9.9794.1241.96
BAM-DETR1.3913.4339.38
FlashVTG1.058.7338.01
QD-DETR0.826.3632.55
Moment-DETR0.263.2338.01
ADPN0.341.5441.10
IMG0.383.3144.23
-AIP9.87×1059.87 \times 10^{-5}5.12×1045.12 \times 10^{-4}-
-MGF0.201.91-

Table 13: Supervised slot에 대한 Ablation study.

MethodR1@3R1@5R1@7mIOU
slot w/ supervision73.7759.6041.1954.51
slot w/o supervision74.8459.9241.3254.83

Table 14: 다른 slot 개수 및 iteration 수에 따른 성능.

#Slot \\backslash #Iter1\mathbf{1}2\mathbf{2}3\mathbf{3}4\mathbf{4}5\mathbf{5}
240.4540.7541.2341.0140.76
340.2340.9241.32\mathbf{41.32}41.2041.25
439.8840.4541.1041.2240.95
539.2039.7040.1240.7040.32

slot 개수 및 iteration 수 (Number of slots and iter)
Table 14는 slot 개수와 iteration 수 변화에 따른 성능을 요약한다. slot 개수와 iteration 수를 늘리면 계산 오버헤드가 증가하지만, 2개 또는 3개의 slot과 3개 또는 4개의 iteration을 사용했을 때 만족스러운 성능을 얻을 수 있음을 확인했다. 또한, 3개의 slot과 3개의 iteration을 사용하는 것이 성능과 계산 비용 사이에서 좋은 균형을 제공한다.

C. 4 Experiments on weak supervision

모델의 **제한된 supervision 하에서의 강건성(robustness)**을 평가하기 위해, 우리는 학습 데이터의 양을 줄여가며(70%, 80%, 90% 서브셋) 추가적인 평가를 수행하였다. Table 15에서 볼 수 있듯이, 우리 모델은 대부분의 성능을 유지하며, 강력한 baseline인 ADPN을 지속적으로 능가하는 결과를 보였다.

C. 5 Audio importance distribution

Table 16오디오 중요도 점수의 분포를 보여주며, 대부분의 샘플이 0.15에서 0.45 범위에 속하여 오디오가 보조적인 modality 역할을 한다는 것을 다시 한번 입증한다.

Table 15: 약한 지도 학습(weak supervision) 능력을 평가하기 위한 다양한 학습 세트 크기에서의 성능

MethodSamples for train (%)
70\mathbf{70}80\mathbf{8 0}90\mathbf{9 0}100\mathbf{100}
ADPN37.0738.7839.4741.10
IMG41.2143.2943.5244.23

Table 16: 샘플별 오디오 중요도 점수 분포

Score Range<0.15<0.150.150.250.15-0.250.250.350.25-0.350.350.450.35-0.45>0.45>0.45
Count269631861665205

Table 17: 중요도가 0인 AIP에 대한 ablation study

MethodR1@3R1@5R1@7mIOU
IMG82.7471.9354.2762.76
IMG (p=0)(p=0)80.2770.2250.9659.84

C. 6 Experiments on failed AIP

우리는 AIP가 Charades-AudioMatter 데이터셋에서 오디오 중요도를 0으로 잘못 예측(p=0p=0)했을 때의 영향을 탐구한다. Table 17에서 볼 수 있듯이, 이러한 변화는 성능을 저하시킨다. 이 결과는 오디오 단서의 중요성을 보여줄 뿐만 아니라, 우리가 제안한 audio-aware design의 효과를 입증한다.

D Implement Details

모든 데이터셋에 대해 초기 학습률은 0.0005로 설정하고, 최대 프레임 수는 128로 설정한다. 최적화를 위해 **AdamW [38]**를 사용하고, 선형 감쇠 스케줄링을 적용한다. 최대 에포크 수는 모든 데이터셋에 대해 100이며, 배치 크기는 16이다. 모든 데이터셋에서 사전학습된 시각 feature로 **I3D [7]**를 사용한다. 오디오 사전학습 모델의 경우, 이전 연구 [8]를 따라 Charades-STA/Charades-AudioMatter에는 **AudioSet [17] 데이터셋으로 사전학습된 PANN [27]**을, ActivityNet Caption에는 **YouTube-100M [21] 데이터셋으로 사전학습된 VGGish [21]**를 활용한다. 단어는 300d GloVe [43] 임베딩으로 초기화한다. 모델의 일반화 능력을 추가로 입증하기 위해, 시각 및 텍스트 backbone으로 각각 **InternVideo2 [55]**와 **LLaMA [51]**도 사용한다. Charades-STA/Charades-AudioMatter의 경우 ϵmin\epsilon_{\text{min}}은 0.2, γ\gamma는 3으로 설정하고, ActivityNet Captions의 경우 ϵmin\epsilon_{\text{min}}은 0.1, γ\gamma는 2로 설정한다. 모든 실험은 단일 NVIDIA 3090 GPU에서 구현된다.