Fang, Dikai, et al. "ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval." ACM Transactions on Multimedia Computing, Communications and Applications (2025).

ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

DIKAI FANG, Shanghai University, China HUAHU XU*, Shanghai University, China YUZHE HUANG, Shanghai University, China HONGHAO GAO*, Shanghai University, China

Abstract

**Video Moment Retrieval (VMR)**은 광범위한 이론적 및 실제적 응용 분야를 가진 핵심적인 cross-modal task이다. 완전 지도 학습(fully supervised) 방식은 강력한 성능을 제공하지만, 시간적 경계(temporal boundary) 어노테이션의 높은 비용으로 인해 제약을 받는다. 약 지도 학습(weakly supervised) 방식은 이러한 문제를 완화하지만, 거친(coarse) supervision으로 인해 정확도가 제한적이라는 단점이 있다. 최근에는 단일 프레임 어노테이션을 비용 효율적인 대안으로 활용하는 point-supervised 접근 방식이 유망한 패러다임으로 부상했다. 그러나 이러한 방법들은 어노테이션된 프레임을 cross-modal semantic alignment에 활용하지 못하는 경우가 많다. 또한, 전역적인 비디오 구조(global video structures)와 계층적 세그먼트 관계(hierarchical segment relationships)를 간과하여, 희소한 supervision 하에서 최적화되지 않은 검색 정확도를 초래한다.

이러한 문제들을 해결하기 위해 우리는 point-supervised VMR을 위해 특별히 설계된 새로운 프레임워크인 adaptive dual-stage tree construction (ADTC) 모델을 제안한다. 첫째, 이 모델은 local tree와 global tree를 원활하게 통합하는 dual-stage hypothesis tree 아키텍처를 도입하여, 다중 시간 스케일(multiple temporal scales)에 걸쳐 semantic 관계를 효과적으로 모델링할 수 있도록 한다. 둘째, 프레임 클러스터링(frame clustering)과 장면 분할(scene segmentation)을 통합하여 비디오 콘텐츠의 구조적 특성(structural characteristics)을 추출한다. 이는 **포괄적인 노드 관련성 평가(comprehensive node relevance evaluation)**와 트리 구성을 최적화하기 위한 adaptive merging control strategy의 기반을 제공한다. 셋째, 계층적 adaptive tree pruning strategy가 구현되었으며, 이는 긍정 샘플(positive samples)과 부정 샘플(negative samples)을 구별하기 위한 새로운 proposal selection mechanism과 결합된다. 이러한 구성 요소들은 다단계 손실 함수(multilevel loss function)를 통해 공동으로 최적화되어, 향상된 semantic alignment 및 검색 성능을 가능하게 한다.

실험 결과는 ADTC가 point-supervised 설정에서 Charades-STA 및 ActivityNet Captions 데이터셋에 대해 state-of-the-art 성능을 달성함을 보여준다. Charades-STA에서 ADTC는 IoU=0.5에서 50.28%의 R@1 값과 IoU=0.7에서 34.79%의 R@1 값을 달성하여, 다른 point-supervised 방법들을 능가한다. ActivityNet Captions에서 ADTC는 IoU=0.3에서 65.02%의 R@1 값과 IoU=0.5에서 46.13%의 R@1 값을 달성하여 새로운 벤치마크를 설정한다. 특히, ADTC는 어노테이션 비용을 크게 줄이면서도 fully supervised 방법들을 능가한다. Ablation study는 각 모델 구성 요소의 효과를 확인한다.

CCS Concepts: • Information systems → Multimedia and multimodal retrieval; Computing methodologies → Hierarchical representations.

Additional Key Words and Phrases: Video moment retrieval, point supervision, cross-modal alignment, hierarchical tree modeling, scene segmentation

1 INTRODUCTION

지능형 장치와 소셜 미디어 플랫폼의 확산으로 인한 비디오 콘텐츠의 기하급수적인 증가는, 편집되지 않은 비디오에서 특정 관심 순간을 효과적으로 검색하는 데 상당한 어려움을 야기한다. 텍스트 레이블이나 메타데이터에 의존하는 전통적인 검색 방식은 점점 더 개인화되는 현대 사용자의 요구를 충족시키기 어렵다. 이러한 문제들을 해결하기 위해 Video Moment Retrieval (VMR) task가 등장했다. VMR은 자연어 쿼리를 통해 의미적으로 관련된 비디오 세그먼트를 지역화(localize)하는 것을 목표로 하며, 이는 cross-modal 비디오 이해를 발전시키는 데 중요한 단계를 나타낸다. [1, 7]과 같은 기초 연구에서 소개된 이 task는 **비디오 질문 응답 [34, 44], 비디오 요약 [2, 18], 지능형 감시 시스템 [3, 12]**과 같은 다양한 다운스트림 애플리케이션 [5, 14, 53]을 지원해왔다.

VMR은 광범위한 관심을 받아왔지만, 특히 어노테이션 효율성과 검색 정확도 간의 균형을 맞추는 데 있어 구현이 여전히 어렵다. Fully supervised 방법은 쿼리 샘플과 시작 및 종료 타임스탬프에 대한 정확한 시간적 어노테이션이 쌍으로 이루어진 비디오를 필요로 한다. 그러나 이 어노테이션 과정은 시간 소모적이고 노동 집약적이며, 어노테이터의 주관적인 판단으로 인해 편향되기 쉽다 [13]. Weakly supervised 방법은 명시적인 시간적 어노테이션의 필요성을 제거하여 어노테이션 비용을 줄이지만, 불충분한 fine-grained visual-textual alignment로 인해 성능이 제한적이라는 단점이 있다. 결과적으로, 어노테이션 복잡성과 검색 성능 사이의 효과적인 trade-off를 달성하는 것이 핵심 연구 초점이 되었다.

Fig. 1. Fully supervised, weakly supervised, 그리고 point-supervised VMR에서의 시간적 어노테이션 비교.

이러한 맥락에서, 쿼리 의미와 일치하도록 단일 프레임만 어노테이션하는 point-supervised VMR이 유망한 패러다임으로 부상했다. 이 패러다임은 두 가지 주요 장점을 제공한다: Figure 1에서 보듯이, glance-level 레이블링을 통해 빠른 어노테이션을 가능하게 하면서도, weakly supervised 방법보다 더 정확한 의미론적 정렬을 제공한다. 최근 연구 [4, 10, 15]는 이 패러다임에 맞춰진 방법들을 탐구해왔다. 대부분의 접근 방식은 Gaussian 분포로 후보 세그먼트를 표현하고 공유 임베딩 공간 내에서 cross-modal 의미를 정렬함으로써 weakly supervised 프레임워크를 확장한다. 그러나 이러한 방법들은 본질적인 단점에 직면한다. 단일 프레임 supervision은 후보 세그먼트의 점수를 정확하게 매기고 순위를 지정하는 데 어려움을 겪으며, Gaussian 가정은 어노테이션된 프레임의 위치에 대한 높은 민감도를 도입하여 견고성과 정확도를 모두 제한한다. 이러한 제약을 극복하기 위해 VMR은 트리 구성 문제 [20]로 재정의되었다. 이 프레임워크에서는 비디오 프레임이 리프 노드(leaf node)로 처리되며, 시각적 및 언어적 유사성 측정 기준에 따라 미리 정의된 임계값의 안내를 받아 반복적으로 더 높은 수준의 노드로 병합된다. 가지치기(pruning) 전략은 가설 트리를 정제하고, 선택 알고리즘은 학습 중에 긍정적(positive) 및 부정적(negative) 제안을 구별한다. 이 트리 기반 프레임워크는 유망한 성능을 보였지만, 주목할 만한 단점이 있다. 구성 과정은 주로 지역적(local) 의미론적 관계에 초점을 맞추어, 더 넓은 문맥적 종속성을 모델링하는 데 중요한 전역적(global) 시각적 사전 지식(prior)과 시간적 비디오 구조를 무시한다. 또한, 병합 임계값 및 유사성 가중치와 같은 하이퍼파라미터에 대한 의존성은 다양한 비디오 복잡성에 대한 적응성을 감소시킨다. 더욱이, 트리 수준 구분을 위한 명시적인 계층적 모델링의 부족은 미묘한 시간적 및 의미론적 패턴을 표현하는 능력을 제한한다.

이러한 문제들을 해결하기 위해, 본 논문은 새로운 적응형 이중 단계 트리 구성(adaptive dual-stage tree construction, ADTC) 프레임워크를 소개한다. 제안된 ADTC 프레임워크는 이중 단계 계층적 트리 구조를 통해 지역적 단기 역학(local short-term dynamics)과 전역적 장기 의미론적 관계(global long-term semantic relationships)를 통합한다. 이 방법론은 전역적 구조 정보를 포착하기 위해 프레임 feature 클러스터링을 통한 장면 분할(scene segmentation)로 시작한다. 각 분할된 장면 내에서, 시각적 관련성, 언어적 관련성, 인접 노드 간의 클러스터링 일관성이라는 세 가지 중요한 요소를 통합하여 지역적 가설 트리(local hypothesis trees)를 구성한다. 적응성을 향상시키기 위해 적응형 병합 임계값 제어 메커니즘이 도입되어, 지역적 트리 구조가 장면별 변화에 동적으로 조정될 수 있도록 한다. 지역적 트리들은 이후 전역적 트리로 체계적으로 병합되어, 장면 간의 장거리 의미론적 관계 표현을 용이하게 한다. 계층적 적응형 트리 가지치기(pruning) 전략은 주어진 쿼리를 기반으로 의미적으로 관련 없는 노드를 선택적으로 제거함으로써 이 트리들을 정제하여, 남은 구조가 의미 있는 의미론적 관계를 강조하도록 한다. 후보 비디오 세그먼트는 정제된 가설 트리에서 생성되며, 어노테이션된 프레임을 참조하여 긍정적(positive) 및 부정적(negative) 제안이 선택된다. 학습을 최적화하기 위해, 세그먼트, 장면, 비디오 수준에 걸친 다단계 제약 조건이 있는 결합된 랭킹 손실(ranking loss)이 적용되어 다양한 세분성(granularity)에 걸쳐 포괄적인 정렬을 보장한다. 추론(inference) 중에는 모델이 가장 높은 신뢰도 점수를 가진 후보 세그먼트를 선택하여 목표 순간을 예측한다.

본 연구의 주요 기여는 다음과 같이 요약된다: (1) 본 연구는 point-supervised VMR을 위한 새로운 이중 단계 계층적 트리 프레임워크인 ADTC를 소개한다. 이는 장면 내 단기 이벤트에 대한 지역적 가설 트리와 장면 간 장기 의미론적 관계에 대한 전역적 트리를 결합하여, 정확한 순간 검색을 위해 지역적 및 전역적 비디오 의미를 효과적으로 통합한다. (2) 시각적 관련성, 언어적 관련성, 클러스터링 일관성을 통합하여 의미론적 정렬을 평가하는 새로운 노드 관련성 평가 기준이 제안된다. 적응성을 향상시키기 위해 적응형 병합 임계값 제어 전략은 지역적 트리 구조를 장면별 특성을 고려하여 동적으로 조정하여 다양한 비디오에 걸쳐 정확하고 견고한 의미 표현을 보장한다. (3) 계층적 적응형 트리 가지치기 전략은 쿼리 의미를 기반으로 관련 없는 노드를 제거하여 가설 트리 구조를 최적화한다. 또한, 인간의 인지 학습에서 영감을 받은 새로운 제안 마이닝(proposal mining) 접근 방식은 hard 및 easy negative 샘플을 모두 활용하여 학습 효율성과 모델 견고성을 향상시킨다. (4) Charades-STA 및 ActivityNet Captions 데이터셋에 대한 광범위한 실험은 ADTC가 기존 point-supervised 방법들을 능가하여 state-of-the-art 성능을 달성함을 보여준다. 특히, Charades-STA에서 ADTC는 IoU=0.5에서 50.28% R@1 값과 IoU=0.7에서 34.79% R@1 값을 달성했으며, ActivityNet Captions에서는 IoU=0.3에서 65.02% R@1 값과 IoU=0.5에서 46.13% R@1 값을 달성하여 point-supervised VMR의 새로운 벤치마크를 설정한다.

본 논문의 나머지 부분은 다음과 같이 구성된다. Section 2는 관련 연구에 대한 포괄적인 검토를 제공한다. Section 3은 제안된 ADTC 방법을 자세히 소개한다. Section 4는 실험 설정을 설명하고 결과에 대한 심층 분석을 제시한다. 마지막으로, Section 5는 연구를 마무리하고 향후 연구를 위한 잠재적 방향을 제시한다.

2.1 Fully Supervised Video Moment Retrieval

완전 지도 학습(fully supervised) 기반 VMR은 **정확한 세그먼트 경계 주석(segment boundary annotations)**에 의존하며, 이는 필수적인 학습 신호로 작용한다. CTRL [7] 및 MCN [1]과 같은 초기 연구들은 핵심 task와 벤치마크 데이터셋을 도입하며 이 분야의 토대를 마련했다.
크게 보아, 이러한 방법들은 proposal-based 접근 방식과 proposal-free 접근 방식으로 분류될 수 있다.

Proposal-based 방법들 [48, 50, 52, 57]은 sliding window 또는 학습된 proposal network와 같은 proposal 생성 모듈을 사용하여 후보 모멘트(candidate moments)를 생성한 다음, cross-modal matching을 통해 가장 의미론적으로 관련성 높은 세그먼트를 선택한다.
참고문헌 [50]은 **동적 언어 필터링(dynamic language filtering)**과 **구조화된 그래프(structured graphs)**를 통해 모멘트 간의 관계를 모델링하는 MAN을 제안했으며, 2D-TAN [49, 52, 57]은 2D temporal map을 정제하고 proposal 간의 시간적 종속성(temporal dependencies)을 효과적으로 포착하기 위해 도입되었다.
이러한 proposal-based 방법들은 효과적임에도 불구하고, 생성되는 후보의 수가 많기 때문에 종종 계산 효율성 문제를 겪는다. 또한, 사전 정의된 proposal에 의존하기 때문에 정확한 위치 파악(coarse localization)이 어렵고 미묘한 의미론적 뉘앙스를 간과하는 경우가 많다.

반면, Proposal-free 방법들 [16, 22, 45-47]은 회귀(regression) 또는 **프레임별 확률 추정(framewise probability estimation)**을 통해 세그먼트 경계를 직접 예측한다. 예를 들어, DRN [46]은 IoU 기반 loss를 통합하여 경계 회귀(boundary regression) 성능을 향상시킨다. 그러나 이러한 방법들은 프레임별 예측이 비디오 세그먼트의 전역 구조(global structure)를 무시할 수 있기 때문에 시간적 맥락 모델링(temporal context modeling)에 어려움을 겪는 경우가 많다. 또한, 시간적 회귀에 의존하기 때문에 실제 시나리오에서 복잡하고 모호한 모멘트 경계에 적응하는 능력이 제한된다.
완전 지도 학습 방법들은 벤치마크 데이터셋에서 강력한 성능을 보이지만, 수동으로 주석된 세그먼트 경계에 의존하기 때문에 확장성(scalability)에 상당한 제약이 따른다. 노동 집약적인 주석 처리 과정은 사람의 편향에 취약하며, 학습 데이터셋의 제한된 다양성으로 인해 새롭거나 다양한 비디오 콘텐츠에 대한 일반화(generalize)에 실패하는 경우가 많다.

2.2 Weakly Supervised Video Moment Retrieval

Weakly supervised VMR은 명시적인 temporal boundary annotation의 필요성을 없애고, 비디오-쿼리 쌍으로 모델을 학습시키는 것을 목표로 한다. 이 패러다임은 annotation 비용을 크게 줄이지만, 비디오와 쿼리 간의 정확한 semantic alignment를 학습하는 데 어려움을 초래한다. 이 분야에는 두 가지 주요 접근 방식이 있다: **Multiple Instance Learning (MIL)**과 Query Reconstruction이다.

MIL 기반 방법 [9, 25, 36]은 비디오 세그먼트를 instance로 간주하고 가장 관련성 높은 순간을 식별하도록 학습한다. TGA [25]는 query-guided attention을 사용하여 의미적으로 관련 있는 순간을 강조한다. Wang et al. [36]은 contrastive learning을 활용하여 다른 비디오 간의 feature를 정렬하고 semantic consistency를 향상시켰다. 그러나 MIL 기반 방법은 관련 없는 세그먼트도 학습 과정에 기여할 수 있어 모호한 supervision signal로 인해 종종 어려움을 겪으며, 이는 차선책의 alignment와 부정확한 moment retrieval로 이어진다.

Query reconstruction 방법 [19, 23, 28, 56]은 비디오 세그먼트로부터 쿼리를 재구성하는 것을 목표로 하며, 모델이 가장 의미적으로 관련 있는 순간을 식별하도록 유도한다. SCN [19]은 proposal generation, selection, semantic completion을 결합하여 이 접근 방식을 개척했다. Zheng et al. [56]은 temporal modeling을 위한 trainable Gaussian function을 도입하고 negative sample을 선택하여 모델의 discrimination 능력을 향상시킴으로써 이를 발전시켰다. 이러한 강점에도 불구하고, query reconstruction 방법은 비디오 세그먼트와 쿼리 간의 관계에 대한 지나치게 단순화된 가정에 의존하는 경우가 많아, 복잡한 다중 이벤트 쿼리나 모호한 언어를 처리하는 데 덜 효과적이다.

Weakly supervised 방법은 annotation 부담을 완화하지만, fully supervised 접근 방식에 비해 현저한 성능 격차를 보인다. 미세한 비디오-텍스트 alignment를 포착하는 제한된 능력과 간접적인 supervision signal에 대한 의존성은 높은 retrieval 정확도를 달성하는 데 여전히 중요한 장벽으로 남아 있다.

2.3 Point-supervised Video Moment Retrieval

Point-supervised VMR은 타겟 모멘트 내의 단일 프레임 어노테이션만을 요구함으로써 **완전 지도 학습(fully supervised)**과 약한 지도 학습(weakly supervised) 패러다임 사이의 간극을 메운다. 이 전략은 어노테이션 비용을 크게 줄이면서도, 약한 지도 학습 방식에 비해 더 높은 수준의 지도(supervision)를 유지한다.

**ViGA [4]**는 어노테이션된 지점을 중심으로 하는 **가우시안 분포 가중치(Gaussian-distributed weights)**를 사용하여 비디오 세그먼트를 쿼리와 정렬한다. 그러나 고정된 가우시안 분포에 의존하는 방식은 다양한 모멘트 지속 시간에 대한 적응성을 떨어뜨리고, 어노테이션 편향에 민감하게 반응하는 문제를 야기한다.

이러한 문제를 해결하기 위해 **PS-VTG [39]**는 **어텐션 메커니즘(attention mechanisms)**과 **의사 레이블링(pseudolabeling)**을 통합하여 세그먼트 경계를 근사화한다. 하지만 의사 레이블(pseudolabel) 품질에 대한 의존성 때문에 복잡한 시나리오에서는 성능이 제한되는 경우가 많다.

**D3G [15]**는 **동적 가우시안 사전 조정(dynamic Gaussian prior adjustment)**과 그룹 contrastive learning을 도입하여 적응성과 견고성을 향상시킴으로써 이러한 한계에 접근한다. 그러나 D3G의 contrastive learning은 네거티브 샘플(negative samples)의 품질에 크게 의존하는데, 이는 다양한 비디오 데이터셋에서 정의하기 어려운 과제이다.

**CFMR [10]**은 계산 비용이 많이 드는 cross-modal interaction을 **개념 기반 멀티모달 정렬(concept-based multimodal alignment)**로 대체하여 효율성을 더욱 높인다. 이 방식은 효과적이지만, 이러한 단순화는 때때로 의미적으로 복잡한 쿼리에 대한 세밀한 정렬(fine-grained alignment) 손실로 이어질 수 있다.

**확률적 방법(probabilistic methods) [40]**과 같은 최근 발전은 **유연한 분포(예: beta 및 Gaussian)**를 도입하여 의사 레이블을 생성하고, 경계 지역화(boundary localization) 및 cross-modal learning을 개선했다. 그러나 유연성과 계산 효율성 사이의 본질적인 trade-off는 여전히 해결해야 할 과제로 남아있다.

전반적으로 point-supervised 방법은 강력한 잠재력을 보여주지만, 다양하고 대규모의 비디오 데이터셋에서 견고한 성능을 달성하기 위해서는 추가적인 개선이 필요하다.

2.4 Applications of Tree Structures in Video Understanding

트리 구조는 다양한 task에서 비디오 데이터의 계층적이고 시간적인 특성을 모델링하는 데 효과적임이 입증되었다. 비디오 검색 분야에서 TCE [42]는 잠재 의미 트리(latent semantic tree)를 사용하여 쿼리를 계층적으로 표현함으로써 비디오 임베딩과의 정렬을 향상시킨다. **Kang et al. [11]**은 비디오 분할(segmentation)을 위해 재귀 이진 트리(recursive binary tree)를 도입하여 전역-지역(global-local) 표현을 포착했다. 이 접근 방식은 관련 없는 프레임을 줄이지만, 재귀 연산에 의존하기 때문에 긴 비디오의 경우 계산 비용이 증가한다. 비디오 grounding 분야에서 **Zhao et al. [55]**는 segment-tree 구조를 사용하여 grounding을 계층적 예측 task로 모델링하여 localization 정확도를 크게 향상시켰다. 유사하게, IT-OS [17]는 sparse annotation을 사용하여 공간 grounding을 위해 정보 트리(information tree)를 활용하지만, 비디오 콘텐츠의 높은 가변성(variability) 하에서는 견고성을 유지하는 데 어려움을 겪는다. 트리 기반 방법은 계층적 종속성을 포착하는 데 뛰어나지만, 계산 복잡성과 다양한 비디오 시나리오에 대한 제한된 적응성은 여전히 주요 과제로 남아 있다. 이러한 한계를 해결하는 것은 point-supervised VMR을 포함한 비디오 이해 task에서 트리 기반 방법의 잠재력을 최대한 발휘하는 데 중요하다.

3 METHODOLOGY

3.1 Problem Definition

$T$ 개의 프레임으로 구성된 untrimmed video $V=\left[f_{1}, f_{2}, \ldots, f_{T}\right]$ 와 $m$ 개의 단어로 구성된 textual query $Q=\left[w_{1}, w_{2}, \ldots, w_{m}\right]$ 가 주어졌을 때, VMR(Video Moment Retrieval)의 목표는 $V$ 내에서 가장 의미적으로 관련성 높은 temporal segment $(\hat{s}, \hat{e})$ 를 찾아내는 것이다. 여기서 $\hat{s}$ 와 $\hat{e}$ 는 각각 타겟 모멘트의 시작 및 끝 프레임 인덱스를 나타낸다. 이 task는 다음과 같이 공식화된다:

(\hat{s}, \hat{e})=\arg \max _{(s, e)} \operatorname{Score}\left(V_{s: e}, Q\right)

여기서 $V_{s: e}$ 는 프레임 $s$ 부터 프레임 $e$ 까지의 segment를 나타내며, $\operatorname{Score}\left(V_{s: e}, Q\right)$ 는 비디오 segment와 쿼리 간의 관련성을 평가한다. Fully supervised VMR에서는 $\hat{s}$ 와 $\hat{e}$ 모두에 대한 정확한 annotation이 필요하지만, weakly supervised VMR은 더 coarse한 레이블에 의존하여 temporal precision을 희생한다. 최근에는 point-supervised VMR이 중간 패러다임으로 등장했는데, 이는 $\hat{s} \leq g \leq \hat{e}$ 를 만족하는 단일 타임스탬프 $g$ 만 annotation하여 annotation 비용을 크게 줄이면서도 유용한 supervision을 유지한다.

point supervision은 효율적임에도 불구하고 상당한 도전 과제를 안고 있다: (1) 무작위로 배치된 annotation에서 발생하는 본질적인 불확실성으로 인해 프레임 간의 의미적 관련성이 일관되지 않을 수 있다. (2) 제한된 contextual information으로 인해 향상된 local-global semantic modeling과 더 효과적인 negative sample selection이 필요하다. 이러한 한계점을 해결하기 위해, 계층적 temporal modeling, cross-modal semantic alignment, adaptive proposal refinement를 통합하여 sparse supervision 하에서 검색 정확도를 향상시키는 새로운 프레임워크가 도입되었다.

Fig. 2. 제안된 ADTC 방법의 개요. 이 프레임워크는 다음 단계를 포함한다: (1) 준비(Preparation): 비디오 및 쿼리 feature는 사전학습된 모델을 통해 인코딩된다. (2) 클러스터링 및 분할(Clustering & Segmentation): 프레임은 K-means를 통해 그룹화되고, 장면은 연속성을 기반으로 분할된다. (3) 이중 단계 트리 구성(Dual-stage Tree Construction): 상세한 장면을 위해 local tree가 구축되고, 더 넓은 패턴을 위해 global tree가 구축된다. (4) 가지치기 및 선택(Pruning & Selection): 가지치기를 통해 트리가 정제되고, proposal이 선택된다. (5) 감독(Supervision): 모델은 여러 loss function을 사용하여 학습된다.

3.2 Method Overview

Figure 2에 묘사된 바와 같이, ADTC 프레임워크는 point-supervised VMR을 위한 이중 단계 계층적 파이프라인을 개척한다.
초기 단계에서는 untrimmed video와 query가 사전학습된 모델과 Transformer encoder를 통해 처리되어 기본 feature를 추출하고 풍부하게 만든다.
동시에, K-means clustering은 시각적 유사성에 따라 프레임을 그룹화하고, temporal continuity는 장면 경계를 구분하여 비디오를 의미적으로 일관된 단위로 분할한다.
각 segment에 대해, **다차원 관련성 지표(시각, 언어, 클러스터링 일관성)**를 기반으로 노드를 적응적으로 병합하여 **지역 계층적 트리(local hierarchical trees)**가 동적으로 구성된다.
이러한 지역 트리는 이후 **전역 트리(global tree)**로 통합되어 장면 간의 장거리 의미 관계를 포착한다.
이어서 **계층적 적응형 가지치기(hierarchical adaptive pruning)**는 중복 노드를 제거하여 트리 구조를 정제하고, **제안 선택 메커니즘(proposal selection mechanism)**은 강력한 긍정 및 부정 학습 예시를 식별한다.
마지막으로, 랭킹 손실(ranking loss)과 다단계(segment, scene, video) 제약 조건을 결합한 포괄적인 supervision 전략은 모델의 견고성과 검색 정확도를 향상시킨다.

3.3 Feature Encoding

Feature Encoding 모듈은 입력 비디오와 쿼리를 처리하여, 의미적으로 풍부하고 문맥적으로 일관된 표현(representation)으로 변환한다. Frame-level 비디오 feature와 word-level 쿼리 embedding은 사전학습된 모델을 통해 추출되며, intramodal contextual dependency를 강화하기 위해 Transformer encoder [31]를 통해 추가적으로 정제된다.

Video Encoding.
매우 유사한 인접 프레임에서 발생하는 중복성을 완화하기 위해, 고정된 비율의 샘플링 전략을 적용하여 필수적인 시간 정보(temporal information)를 보존한다. 샘플링된 프레임 시퀀스는 사전학습된 **3D CNN (예: C3D [30])**을 사용하여 공간-시간(spatial-temporal) 표현을 추출한다. 다음으로, Transformer encoder는 self-attention 메커니즘을 통해 장거리 종속성(long-range dependencies)을 모델링하여 이러한 feature를 더욱 정제하고, **압축된 비디오 표현 $\mathbf{V}=\left\{\mathbf{v}_{i}\right\}_{i=1}^{N_{v}} \in \mathbb{R}^{N_{v} \times d}$ **를 생성한다. 여기서 $N_{v}$ 는 샘플링된 프레임의 수이고, $d$ 는 feature 차원을 나타낸다.

Query Encoding.
입력 쿼리의 경우, GloVe [27]를 사용하여 초기 word embedding을 추출한다. GloVe는 각 단어를 feature 공간의 dense vector로 표현한다. 이 embedding은 Transformer encoder에 입력되어 시퀀스 전반의 의미론적 종속성(semantic dependencies)과 문맥적 관계(contextual relationships)를 포착한다. 그 결과, **통합된 문맥 인식 문장 수준 표현 $\mathbf{q} \in \mathbb{R}^{d}$ **가 생성되며, 여기서 $d$ 는 feature 차원을 나타낸다.

3.4 Clustering and Segmentation

MHST 방법 [20]은 프레임 시퀀스를 가설 트리의 leaf node로 모델링하지만, 장면들이 의미적 일관성과 뚜렷한 시각적 전환을 보이는 전역적인 비디오 구조를 간과한다. 이러한 한계를 해결하기 위해, 초기 단계에서 구조적 이해를 높이기 위해 프레임 클러스터링과 장면 분할(scene segmentation)이 도입된다. 외부 지식을 활용하여, 각 장면 내에서 시각적 일관성과 의미적 정렬을 보장하기 위해 적응형 지역 가설 트리(adaptive local hypothesis trees)가 구축된다.

Visual Clustering. [37]을 따라, 3D convolutional feature를 기반으로 비디오 프레임을 그룹화하기 위해 K-means 클러스터링이 적용되어 $K$ 개의 클러스터 $\mathrm{C}=\left\{\mathrm{C}_{0}, \mathrm{C}_{1}, \ldots, \mathrm{C}_{K-1}\right\} \in \mathbb{R}^{K \times D}$ 를 형성한다. 각 클러스터는 프레임 수준의 의미적 관계를 포착하기 위한 사전 정보(prior) 역할을 한다. 프레임은 클러스터 중심과의 거리를 최소화하여 클러스터 레이블이 할당되며, 이는 다음과 같이 공식화된다:

l_{i}=\underset{0 \leq j<K}{\operatorname{argmin}}\left\|\mathbf{v}_{i}-\mathbf{u}_{j}\right\|^{2}, \quad \forall i \in\left\{0,1, \ldots, N_{v}-1\right\},

여기서 $l_{i}$ 는 $i$ -번째 프레임의 클러스터 레이블이고, $\mathbf{u}_{j}$ 는 $j$ -번째 클러스터 중심을 나타낸다.

Scene Segmentation. 비디오는 시간적 연속성을 가지며, 하나의 장면은 의미적으로 일관된 연속적인 프레임으로 구성된다. 그러나 직접적인 클러스터링은 동일한 클러스터 레이블이 비연속적으로 나타나기 때문에 종종 단편화된 하위 영역(fragmented subregions)을 초래한다. 이를 해결하기 위해, 의미적 일관성과 구조적 무결성을 강화하는 시간적 정제(temporal refinement) 과정이 도입된다. 초기에는 동일한 클러스터 레이블을 공유하는 연속적인 프레임들이 $S=\left\{S_{0}, S_{1}, \ldots, S_{N_{\text {region }}-1}\right\}$ 로 표시되는 세그먼트로 그룹화된다. 미리 정의된 임계값 $L_{\text {min }}$ 보다 짧은 세그먼트들은 단편화를 줄이기 위해 인접 세그먼트와 병합된다.

추가적인 정제는 각 세그먼트 $S_{i}$ 에 대해 프레임 feature의 평균으로 중심 feature $\mathbf{c}_{i}$ 를 계산함으로써 달성된다. 인접 세그먼트 $S_{i}$ 와 $S_{j}$ 는 코사인 유사도(cosine similarity)가 다음 조건을 만족하면 병합된다:

\operatorname{sim}\left(\mathbf{c}_{i}, \mathbf{c}_{j}\right)=\frac{\mathbf{c}_{i} \cdot \mathbf{c}_{j}^{\top}}{\left\|\mathbf{c}_{i}\right\|_{2}\left\|\mathbf{c}_{j}\right\|_{2}}>\sigma_{\operatorname{sim}},

여기서 $\sigma_{\text {sim }}$ 은 미리 정의된 유사도 임계값이다. 이 과정은 시간적 일관성과 의미적 일관성을 모두 보장하는 $N_{\text {scene }}$ 개의 최종 세그먼트를 생성한다. 이 세그먼트들은 후속 트리 구축을 위한 구조화된 기반 역할을 한다.

3.5 Dual-stage Tree Construction

본 논문은 시각적 차이가 뚜렷한 장면들을 처리하기 위한 이중 단계 가설 트리 전략을 소개한다. 첫 번째 단계에서는 각 장면에 대해 독립적으로 로컬 가설 트리(local hypothesis tree)가 구축되며, 이는 쿼리와의 의미론적 관련성(semantic relevance)에 의해 노드 병합 및 선택이 유도된다. 이를 통해 쿼리와의 정렬도가 높은 영역이 더 큰 주목을 받게 된다. 두 번째 단계에서는 로컬 트리들이 전역 가설 트리(global hypothesis tree)로 병합되어, 장면 간의 장거리 의미론적 관계(long-range semantic relationships)를 포착한다. 이러한 계층적이고, coarse-to-fine 방식의 다중 스케일 접근법은 로컬 및 전역 의미론을 효과적으로 포착함으로써 쿼리 관련성 모델링을 개선하고, 결과적으로 향상된 비디오 이해 및 더 정확한 쿼리 기반 분석을 가능하게 한다.

3.5.1 로컬 트리 구축 (Local Tree Construction)

각 장면 영역 $S_i$ 에 대해, 장면 내용과 쿼리 간의 의미론적 정렬(semantic alignment)을 포착하고 표현하기 위해 해당 로컬 가설 트리 Tree $_{\text{local}}^i$ 가 구축된다. 장면 내의 모든 프레임은 초기에는 리프 노드(leaf node)로 시작하며, 각 노드에는 문맥 정보로 풍부해진 프레임 수준 feature가 부여된다. 인접 노드 간의 연결을 평가하기 위해 언어적 관련성(linguistic relevance), 시각적 관련성(visual relevance), 클러스터링 일관성(clustering consistency)을 통합한 관련성 평가 지표가 적용되어 다양한 차원에서의 관계를 포착한다. 이 평가에 따라, 각 로컬 트리는 내부 노드 쌍을 포괄적인 유사도 점수(comprehensive similarity score)에 따라 정렬한다. **장면-쿼리 의미론적 유사도(scene-query semantic similarity) 및 프레임 수에 맞춰 조정된 적응형 병합 임계값 제어 전략(adaptive merging threshold control strategy)**이 어떤 노드 쌍을 병합할지 결정한다. 이러한 반복적인 병합은 더 이상 기준을 충족하는 쌍이 없을 때까지 계속되며, 그 결과 각각 고유한 의미론적 테마를 나타내는 여러 로컬 가설 트리가 생성된다. 이 트리들은 쿼리와 관련하여 비디오 콘텐츠를 미묘하고 구조적으로 일관성 있게 묘사한다.

Fig. 3. 로컬 가설 트리에서 노드 병합 과정의 그림.

Figure 3은 두 인접 노드 $v_i$ 와 $v_j$ 를 예시로 들어 노드 병합 과정을 보여준다. 이 노드들 간의 포괄적인 관련성(comprehensive relevance)은 세 가지 기준에 따라 평가된다: 언어적 관련성, 시각적 관련성, 클러스터링 일관성. 각 노드에 대한 쿼리와의 언어적 관련성은 다음과 같이 계산된다:

\begin{aligned} & r_{v_{i}}^{q v}=\operatorname{sigmoid}\left(\left(\mathbf{W}_{1} \cdot \mathbf{v}_{i}\right) \cdot\left(\mathbf{W}_{2} \cdot \mathbf{q}\right)^{\top}\right), \\ & r_{v_{j}}^{q v}=\operatorname{sigmoid}\left(\left(\mathbf{W}_{1} \cdot \mathbf{v}_{j}\right) \cdot\left(\mathbf{W}_{2} \cdot \mathbf{q}\right)^{\top}\right), \end{aligned}

여기서 $\mathbf{W}_1$ 과 $\mathbf{W}_2$ 는 시각 feature와 쿼리 embedding을 공유된 의미 공간으로 매핑하는 학습 가능한 projection matrix이다. 노드들 간의 **언어적 관련성 $r^{qv}$ **는 쿼리 기반 유사도 값의 절대 차이로 정의된다:

r^{q v}=1-\left|r_{v_{i}}^{q v}-r_{v_{j}}^{q v}\right| .

**시각적 관련성 $r^{vv}$ **는 두 노드의 feature 간의 cosine similarity로 정량화된다:

r^{v v}=\frac{\mathbf{v}_{i} \cdot \mathbf{v}_{j}^{\top}}{\left\|\mathbf{v}_{i}\right\|_{2}\left\|\mathbf{v}_{j}\right\|_{2}} .

계층적 트리 구축 과정에서 원래의 프레임 수준 정보는 희석되는 경향이 있다. 이를 해결하기 위해 프레임 시퀀스를 나타내는 노드들 간의 관련성을 평가하는 지표로 클러스터링 일관성(clustering consistency)이 도입된다. Subsection 3.4에서 자세히 설명된 바와 같이, 각 프레임은 클러스터링 레이블을 부여받으며, 노드 내에서 이러한 레이블의 분포는 정규화된 벡터 $\mathbf{P}_v = [p_1, p_2, \ldots, p_K]$ 로 정량화된다. 이 벡터는 각 클러스터에 할당된 프레임의 비율을 나타낸다. **클러스터의 centroid vector를 사용하여 cosine similarity로 계산된 의미론적 유사도 행렬 $\mathrm{S}_{\text{label}} \in \mathbb{R}^{K \times K}$ **는 이 분포에 가중치를 부여하여 의미론적으로 가중된 분포 $\tilde{\mathbf{P}}_v = \mathrm{S}_{\text{label}} \cdot \mathbf{P}_v$ 를 생성한다. 두 노드 $v_i$ 와 $v_j$ 간의 **클러스터링 일관성 $r^{ll}$ **은 그들의 의미론적으로 가중된 분포 간의 Jensen-Shannon divergence (JSD) [6]를 사용하여 계산된다:

r^{l l}=1-\mathrm{JSD}\left(\tilde{\mathbf{P}}_{v_{i}}, \tilde{\mathbf{P}}_{v_{j}}\right),

여기서 JSD는 다음과 같이 정의된다:

\mathrm{JSD}\left(\tilde{\mathbf{P}}_{v_{i}}, \tilde{\mathbf{P}}_{v_{j}}\right)=\frac{1}{2} \mathrm{KL}\left(\tilde{\mathbf{P}}_{v_{i}} \| \mathbf{M}\right)+\frac{1}{2} \mathrm{KL}\left(\tilde{\mathbf{P}}_{v_{j}} \| \mathbf{M}\right),

여기서 $\mathbf{M}=\frac{\tilde{\mathbf{P}}_{v_{i}}+\tilde{\mathbf{P}}_{v_{j}}}{2}$ 이다. **포괄적인 관련성(comprehensive relevance)**은 언어적 관련성 $r^{qv}$ , 시각적 관련성 $r^{vv}$ , 클러스터링 일관성 $r^{ll}$ 을 다음과 같이 통합하여 계산된다:

r=\lambda_{1} r^{q v}+\lambda_{2} r^{v v}+\lambda_{3} r^{l l},

여기서 $\lambda_1, \lambda_2, \lambda_3$ 는 각 지표의 영향력을 조절하는 가중치 파라미터이다. 로컬 트리는 짧은 시간의 동작이나 이벤트 세그먼트를 나타내므로, 시각적 관련성에 대한 가중치는 미세한 시간적 및 공간적 세부 정보를 포착하는 중요성을 강조하기 위해 적절히 증가되어야 한다.

각 로컬 트리에서 포괄적인 관련성 순위를 기반으로 병합할 노드 쌍을 선택하는 것은 매우 중요하다. 너무 엄격하거나 너무 관대한 병합 기준은 중요한 관계를 간과하거나 잘못된 병합으로 이어질 수 있다. 이 문제를 해결하기 위해 우리는 장면-쿼리 의미론적 유사도(scene-query semantic similarity)와 프레임 수에 따라 각 로컬 트리의 병합 비율 $\alpha_{s_i}$ 를 동적으로 조정하는 적응형 병합 임계값 제어(AMTC) 전략을 도입한다:

\alpha_{s_{i}}=\alpha_{\min }+\left(\alpha_{\max }-\alpha_{\min }\right) \cdot\left(\omega_{1} f_{1}\left(r_{s_{i}}^{q s}\right)+\omega_{2} f_{2}\left(L_{s_{i}}\right)\right),

여기서 $\alpha_{\text{min}}$ 과 $\alpha_{\text{max}}$ 는 각각 사전 설정된 최소 및 최대 병합 비율이다. 함수 $f_1(r_{s_i}^{qs})$ 와 $f_2(L_{s_i})$ 는 장면-쿼리 의미론적 유사도와 장면 내 프레임 수가 $\alpha_{s_i}$ 에 미치는 영향을 결정한다.

쿼리와의 의미론적 일관성이 높은 영역에서는 병합 비율을 높여 노드 통합 및 의미론적 강화를 촉진한다. 반대로, 의미론적 일관성이 낮은 영역에서는 비율을 낮춰 부적절한 병합으로 인한 오류를 최소화한다. **장면-쿼리 유사도를 포착하는 함수 $f_1(r_{s_i}^{qs})$ **는 다음과 같이 정의된다:

\begin{gathered} f_{1}\left(r_{s_{i}}^{q s}\right)=\frac{r_{s_{i}}^{q s}-r_{\min }^{q s}}{r_{\max }^{q s}-r_{\min }^{q s}}, \\ r_{s_{i}}^{q s}=\operatorname{sigmoid}\left(\left(\mathbf{W}_{1} \cdot \mathbf{s}_{i}\right) \cdot\left(\mathbf{W}_{2} \cdot \mathbf{q}\right)^{\top}\right) . \end{gathered}

여기서 $\mathbf{s}_i$ 는 프레임 feature를 평균하여 계산된 장면 feature를 나타내며, $r_{s_i}^{qs}$ 는 장면에 대한 쿼리 기반 유사도를 나타낸다. 세부적인 granularity를 유지하면서 의미론적 깊이를 보존하기 위해, 프레임 수에 따른 $\alpha_{s_i}$ 의 조정은 다음과 같이 제어된다:

f_{2}\left(L_{s_{i}}\right)=1-\frac{\log \left(L_{s_{i}}\right)-\log \left(L_{\min }\right)}{\log \left(L_{\max }\right)-\log \left(L_{\min }\right)},

여기서 $L_{s_i}$ 는 장면 $S_i$ 의 프레임 수를 나타낸다. 이러한 적응형 전략은 병합 방식이 각 장면의 다양한 특성과 의미론적 문맥에 맞춰 정교하게 조정되도록 보장하며, 이는 로컬 가설 트리 구축의 효과를 증가시킨다.

각 반복마다 인접 노드 쌍 중 상위 $\alpha_{s_i}$ 개가 선택되어 새로운 상위 계층의 비리프 노드(nonleaf node)를 형성하기 위해 병합된다. 병합된 노드는 다음과 같이 표현된다:

\mathbf{v}_{i, j}^{\text {new }}=\mathbf{W}_{3} \cdot \mathbf{v}_{i}+\mathbf{W}_{3} \cdot \mathbf{v}_{j}+\mathbf{b},

여기서 $\mathbf{W}_3$ 과 $\mathbf{b}$ 는 학습 가능한 가중치이다. 이 과정은 더 이상 병합 가능한 노드 쌍이 없을 때까지 계속되어, 로컬 가설 트리의 엄격하고 체계적인 개발을 보장한다.

3.5.2 전역 트리 구축 (Global Tree Construction)

각 장면에 대해 구축된 $N_{\text{scene}}$ 개의 로컬 트리를 기반으로, 이어서 비디오 수준의 전역 가설 트리 Tree $_{\text{global}}$ 이 생성된다. 구체적으로, 모든 로컬 트리의 루트 노드(root node)가 전역 트리의 리프 노드 역할을 한다. 로컬 트리 구축 과정과 유사하게, 전역 트리에서 인접 노드 쌍은 포괄적인 관련성에 대해 평가되고 병합을 위해 선택되며, 전역 트리가 더 이상 병합할 수 없는 여러 루트 노드를 포함할 때까지 반복적으로 상위 수준 노드를 형성한다.

전역 트리는 장면 간의 장거리 의미론적 관계를 포착하는 것을 목표로 한다. 로컬 트리에 비해 더 풍부한 문맥 정보를 제공하며 더 추상적인 의미론적 표현을 지원한다. 따라서 포괄적인 관련성 계산(Equation (10))에서 언어적 관련성 $\lambda_1$ 의 가중치는 증가되어야 하며, 시각적 관련성 $\lambda_2$ 의 가중치는 감소되어 장면 간의 의미론적 정렬을 강조해야 한다. 또한, 전역 트리의 각 수준에서 노드 쌍에 대한 병합 임계값은 $\alpha_{\text{global}} = \frac{\alpha_{\text{min}} + \alpha_{\text{max}}}{2}$ 로 설정되어, 전역 트리 구축의 상위 수준 요구 사항을 반영하는 균형 잡히고 적응적인 병합 전략을 보장한다.

3.6 Hierarchical Adaptive Tree Pruning

로컬 및 글로벌 트리를 구성하는 동안, 미리 정의된 비율에 기반한 노드 병합은 중복성(redundancy)과 관련 없는 노드(irrelevant nodes)를 도입하여 쿼리와의 의미론적 정렬(semantic alignment)을 감소시킬 수 있다. 이 문제를 완화하기 위해 우리는 계층적 적응형 트리 가지치기(Hierarchical Adaptive Tree Pruning, HATP) 전략을 제안한다. 이 전략은 로컬 및 글로벌 트리를 통합하여 형성된 완전한 가설 트리(hypothesis tree)를 하향식(top-down) 가지치기 메커니즘을 통해 정제한다. 이 전략은 구조적 최적화와 의미론적 무결성(semantic integrity)을 모두 보장한다.

비-리프 노드(nonleaf node) $v_i$ 에 대한 가지치기 결정은 두 가지 핵심 요소에 기반한다. 첫째, 노드 병합 중에 계산되는 **언어적 관련성(linguistic relevance) $r_{v_i}^{qv}$ **는 세그먼트와 쿼리 간의 의미론적 정렬을 정량화하여 의미 있는 세그먼트-쿼리 대응을 보장한다. 둘째 요소는 **세그먼트 경계에서의 의미론적 변화(semantic variation)**이다. 이는 세그먼트 경계 근처의 내부 프레임이 외부 프레임보다 쿼리에 더 큰 의미론적 유사성을 보이는지 여부를 평가한다. 이 변화는 다음과 같이 공식화된다:

\Delta r_{v_{i}}=\frac{1}{2}\left(\left(r_{\text {start }}^{q s}-r_{\text {start-1 }}^{q s}\right)+\left(r_{\text {end }}^{q s}-r_{\text {end }+1}^{q s}\right)\right),

여기서 $r_{\text {start}}^{qs}$ 와 $r_{\text{end}}^{qs}$ 는 각각 세그먼트의 시작 및 끝 프레임이 쿼리에 대한 관련성을 나타내며, $r_{\text{start-1}}^{qs}$ 와 $r_{\text{end+1}}^{qs}$ 는 인접한 외부 프레임의 관련성을 측정한다. 이러한 값들은 초기 로컬 트리 구성 중에 계산된다. 노드 $v_i$ 에 대한 최종 가지치기 점수 $\tilde{r}_{v_i}^{qv}$ 는 다음과 같이 주어진다:

\tilde{r}_{v_{i}}^{q v}=\phi_{1} r_{v_{i}}^{q v}+\phi_{2} \Delta r_{v_{i}} .

모델이 긴 세그먼트를 과도하게 선호하는 것을 방지하기 위해, **트리 내 노드의 계층적 수준에 적응하는 동적 가지치기 임계값(dynamic pruning threshold)**이 도입된다:

\tau_{h_{i}}=\tau_{\min }+\left(\tau_{\max }-\tau_{\min }\right) \cdot \frac{h_{i}}{h_{\text {tree }}},

여기서 $h_i$ 는 노드 깊이를 나타내고, $h_{\text{tree}}$ 는 트리의 총 레이어 수이다. 이 동적 임계값은 가지치기가 계층을 인식하는 방식으로 적용되도록 보장한다. 이전 연구들 [20]에 따라, $L$ -scan 가지치기 전략과 리프 노드 가중치 감소(leaf node downweighting) 기법도 적용된다. 구체적으로, 만약 $\tilde{r}_{v_i}^{qv}$ 가 $\tau_{h_i}$ 보다 낮으면, 해당 노드와 이전 $L-1$ 단계에서 파생된 하위 비-리프 노드들은 가지치기된다.

3.7 Positive and Negative Proposal Selection

긍정 제안 선택 (Positive Proposal Selection)
local 및 global tree를 가지치기(pruning)한 후, 압축된 query-guided hypothesis tree가 얻어진다. 각 root node는 그 하위 leaf node들의 프레임으로 구성된 세그먼트를 나타낸다. 이 tree를 탐색하여 **일련의 후보 세그먼트(candidate segments)**가 식별된다.
긍정 제안(positive proposals)을 선택하기 위해, ground truth 세그먼트 내에 있는 것으로 알려진 단일 annotated frame이 선택 과정을 안내하는 anchor로 활용된다. 이 프레임을 포함하는 후보 세그먼트들이 hypothesis tree 내에서 먼저 식별된다.
학습 데이터셋에는 ground truth 세그먼트의 정확한 시간적 경계가 제공되지 않으므로, 단일 annotated frame을 활용하는 것은 ground truth 분포와의 일관성을 유지하면서 높은 신뢰도의 세그먼트를 근사하는 데 도움이 된다.
이러한 후보 세그먼트들의 node representation은 완전 연결(fully connected) layer와 sigmoid 활성화 함수를 거쳐 신뢰도 점수(confidence scores)를 계산한다. 신뢰도에 따라 순위가 매겨진 가장 높은 점수를 가진 상위 $N_{\text {pos }}$ 개 세그먼트가 최종 긍정 제안으로 선택되며, 이는 pos $=\left\{\operatorname{pos}_{i}\right\}_{i=1}^{N_{\text {pos }}}$ 집합과 해당 신뢰도 점수 **score $=\left\{\operatorname{score}_{i}\right\}_{i=1}^{N_{\text {pos }}}$ **를 형성한다.

부정 제안 마이닝 (Negative Proposal Mining)
고품질의 부정 제안(negative proposals)을 마이닝하는 것은 모델의 판별 능력(discriminative ability)을 향상시키고 cross-modal semantic alignment를 강화하는 데 매우 중요하다. 우리는 수렴 효율성과 최종 성능의 균형을 맞추기 위해 쉬운(easy) 부정 샘플과 어려운(hard) 부정 샘플을 모두 포함하는 이중 부정 제안 마이닝(DNPM) 전략을 채택한다.
부정 후보(negative candidates)는 어떤 긍정 제안과도 겹치지 않는 hypothesis tree 세그먼트들에서 선택된다. 각 긍정 제안 $\operatorname{pos}_{i}$ 에 대해, 다양성을 도입하기 위해 후보 집합에서 쉬운 부정 제안 $\operatorname{neg}_{i}^{E}$ 가 무작위로 샘플링된다.
동시에, 어려운 부정 제안(hard negative proposal)은 후보 집합 내에서 $\operatorname{pos}_{i}$ 와 시각적 유사성(visual similarity)이 가장 높은 세그먼트로 식별된다. tree 구성 과정에서 각 node는 이미 클러스터 레이블 분포 $\tilde{\mathbf{P}}_{v}$ 를 계산했으며, 이를 통해 Equation (8)을 사용하여 클러스터링 일관성 점수(clustering consistency scores)를 계산할 수 있다. 가장 높은 일관성 점수를 가진 후보 세그먼트가 어려운 부정 제안 $\operatorname{neg}_{i}^{H}$ 로 선택된다.
학습 전반에 걸쳐 어려운 부정 제안의 영향은 점진적으로 증가하며, 이를 통해 모델은 긍정 샘플과 부정 샘플을 점진적으로 구별하는 능력을 정교하게 다듬을 수 있다.

3.8 Model Training and Inference

학습 (Training)
본 연구에서는 효율적인 모델 학습을 위해 네 가지의 손실 함수를 사용한다: ranking loss, segment-level constraint loss, scene-level constraint loss, video-level constraint loss. 이 손실 함수들은 다양한 granularity 수준에서 협력하여, 모델이 세부적인 정보와 전반적인 문맥 정보를 모두 학습할 수 있도록 돕고, 이를 통해 VMR task의 성능을 향상시킨다.
ranking loss는 reward 기반 정책에 따라 각 proposal pos $_{i}$ 의 confidence score를 reward $R_i$ 를 사용하여 정제하고 조정한다. 이 메커니즘은 언어적 관련성을 높이고 의미적으로 정렬된 proposal에 우선순위를 부여한다. confidence score는 Softmax 함수를 통해 정규화되어, 잘 일치하는 proposal은 증폭시키고 불일치하는 proposal은 억제한다. ranking loss는 다음과 같이 공식화된다:

\mathcal{L}_{\text {rank }}=\sum_{i=1}^{N_{\text {pos }}}-R_{i} \log \left(\frac{\exp \left(\text { score }_{i}\right)}{\sum_{j=1}^{N_{\text {pos }}} \exp \left(\text { score }_{j}\right)}\right) .

가설 트리(hypothesis tree) 구성 시 노드 표현의 정확도를 높이기 위해, segment-level, scene-level, video-level constraint loss가 도입되어 다양한 granularity에서 긍정(positive) 및 부정(negative) 샘플을 구별한다.
segment-level constraint loss는 hinge loss를 사용하여 segment와 query 간의 언어적 유사성을 감독한다.

Algorithm 1 ADTC 모델의 학습 과정
    Input: \(\mathcal{D}=\left\{\left(\mathbf{v}_{i}, \mathbf{q}_{i}, g_{i}\right)\right\}\) : 주석된 프레임이 있는 비디오-쿼리 쌍 데이터셋
    Output: \(\theta\) : 최적화된 모델 파라미터
    \(\mathbf{V} \leftarrow \mathrm{C} 3 \mathrm{D}(\mathbf{v}), \mathrm{Q} \leftarrow \operatorname{GloVe}(\mathbf{q}) \quad / /\) 특징 추출
    for \(t=1\) to \(T\) do
        for each batch \((\mathbf{v}, \mathbf{q}, g) \in \mathcal{D}\) do
            \(\mathbf{v}, \mathbf{q} \leftarrow f_{\text {enc }}(\mathbf{v}), f_{\text {enc }}(\mathbf{q}) \quad / /\) 특징 인코딩
            \(\mathrm{C}_{i} \leftarrow\) K-means \((\mathrm{V}), \quad i=1, \ldots, K \quad / /\) 클러스터링
            \(\mathcal{S} \leftarrow\left\{\left(s_{i}, e_{i}\right)\right\}_{i=1}^{N_{\text {scene }}} \quad\) // 장면 분할
            for \(i=1\) to \(N_{\text {scene }}\) do // 로컬 트리
                \(\mathcal{T}_{i} \leftarrow\) BuildLocalTree \(\left(\mathrm{V}_{s_{i}: e_{i}}\right)\)
                while 병합 가능한 노드가 존재하는 동안 do
                    인접 노드 \(\left(\mathbf{v}_{i}, \mathbf{v}_{j}\right)\)에 대해 \(r_{i j}\) 계산: \(r_{i j} \leftarrow \lambda_{1} r_{i j}^{q v}+\lambda_{2} r_{i j}^{v v}+\lambda_{3} r_{i j}^{l l}\)
                    \(r_{i j}\)를 기반으로 상위 \(\alpha_{S_{i}}\) 쌍 병합
                end while
            end for
            \(\mathcal{T}_{\text {global }} \leftarrow\) BuildGlobalTree \(\left(\mathcal{T}_{1}, \ldots, \mathcal{T}_{N_{\text {scene }}}\right) \quad\) // 글로벌 트리
            while 병합 가능한 노드가 존재하는 동안 do
                인접 노드 ( \(\mathbf{u}_{i}, \mathbf{u}_{j}\) )에 대해 \(r_{i j}\) 계산: \(r_{i j} \leftarrow \lambda_{1} r_{i j}^{q v}+\lambda_{2} r_{i j}^{v v}+\lambda_{3} r_{i j}^{l l}\)
                \(r_{i j}\)를 기반으로 상위 \(\alpha_{\text {global }}\) 쌍 병합
            end while
            for each \(v_{i} \in \mathcal{T}_{\text {complete }}\) do // 트리 가지치기
                if \(\tilde{r}_{v_{i}}^{q v}<\tau_{h_{i}}\) then
                    노드 \(v_{i}\) 및 비-리프 자손 가지치기
                end if
            end for
            \(\boldsymbol{\operatorname { p o s }} \leftarrow\left\{\boldsymbol{\operatorname { p o s }}_{i}\right\}_{i=1}^{N_{\text {pos }}} \quad\) // 제안 선택
            for each \(\operatorname{pos}_{i}\) do
                \(\mathbf{n e g}_{i}^{E}, \mathbf{n e g}_{i}^{H}\)에 대해 평가
            end for
            \(\mathcal{L}_{\text {total }} \leftarrow \mu_{1} \mathcal{L}_{\text {rank }}+\mu_{2} \mathcal{L}_{\text {segment }}+\mu_{3} \mathcal{L}_{\text {scene }}+\mu_{4} \mathcal{L}_{\text {video }} \quad\) // 감독
            \(\theta \leftarrow \theta-\eta \nabla_{\theta} \mathcal{L}_{\text {total }}\) 업데이트
        end for
    end for

각 비디오에서 추출된 $N_{\text {pos }}$ 개의 긍정 proposal과 해당 easy 및 hard negative proposal을 활용한다 (자세한 내용은 Section 3.7 참조). segment-level loss는 다음과 같이 표현된다:

\mathcal{L}_{\text {segment }}=\sum_{i=1}^{N_{\mathrm{pos}}} \max \left(0, \beta_{1}-r_{i}^{q v}+\eta_{t} r_{i, E}^{q v}+\left(1-\eta_{t}\right) r_{i, H}^{q v}\right) .

여기서 $\eta_{t}=\max \left(\eta_{\min }, 1-\frac{t}{T}\right)$ 이며, $t$ 는 현재 학습 epoch을, $T$ 는 총 epoch 수를 나타낸다. $\eta_{t}$ 는 학습 중에 점진적으로 감소하여, 모델이 판별 능력을 향상시킴에 따라 easy negative sample에서 hard negative sample로 초점을 이동시킨다.
장면 분할 모듈을 사용하여 비디오는 연속적인 segment로 나뉜다. 주석된 프레임을 포함하는 segment는 긍정 샘플로 처리되고, 다른 segment는 부정 샘플로 간주된다. 결과적으로, scene-level constraint loss는 다음과 같이 정의될 수 있다:

\mathcal{L}_{\text {scene }}=\sum_{i=1}^{N_{\text {scene }}-1} \max \left(0, \beta_{2}-r_{s_{g}}^{q s}+r_{s_{i}}^{q s}\right),

여기서 $r_{s_{g}}^{q s}$ 는 긍정 장면 segment와 query 간의 언어적 관련성을 나타낸다.
긍정 및 부정 샘플의 다양성을 높이기 위해, 서로 다른 비디오-쿼리 쌍의 proposal 간 비교가 수행된다. 일치하는 쌍은 긍정 샘플로 간주되고, 불일치하는 쌍은 부정 샘플로 처리된다. 그런 다음 cross-entropy loss가 적용되어 다양한 비디오에 걸쳐 언어적 관련성을 감독하며, 이는 video-level constraint loss를 생성한다:

\mathcal{L}_{\text {video }}=\sum_{j=1}^{N_{b}} \sum_{i=1}^{N_{\mathrm{pos}}}\left(-y_{j} \log \left(r_{i}^{q v}\right)-\left(1-y_{j}\right) \log \left(1-r_{i}^{q v}\right)\right) .

여기서 $N_{b}$ 는 비디오-쿼리 쌍의 수를 나타내며, $y_{j}$ 는 $j$ -번째 비디오-쿼리 쌍이 일치하는지 여부를 나타내는 이진 레이블이다.
전체 손실 함수는 $\mathcal{L}_{\text {overall }}=\mu_{1} \mathcal{L}_{\text {rank }}+\mu_{2} \mathcal{L}_{\text {segment }}+\mu_{3} \mathcal{L}_{\text {scene }}+\mu_{4} \mathcal{L}_{\text {video }}$ 로 주어지며, 여기서 $\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}$ 는 각 손실 항과 관련된 가중치이다.

이 실험 프레임워크에서 batch size는 1로 설정되며, gradient accumulation 전략을 활용한다. ranking loss, segment-level constraint loss, scene-level constraint loss, video-level constraint loss는 $N_{b}$ 개의 샘플에 도달할 때까지 계산 및 누적되며, 이 시점에서 단일 파라미터 업데이트가 수행된다. ADTC의 학습 과정은 Algorithm 1에 요약되어 있다.

추론 (Inference)
추론 과정 동안, 모델은 트리밍되지 않은 비디오와 쿼리를 다양한 모듈을 통해 순차적으로 처리한다. 가설 트리의 **적응형 가지치기(adaptive pruning)**가 완료된 후, 트리의 루트 노드를 기반으로 후보 segment가 추출된다. 가장 높은 confidence score를 가진 segment가 최종 예측 출력으로 선택된다.

4 EXPERIMENTS

4.1 Experimental Settings

4.1.1 데이터셋. 평가는 널리 알려진 두 가지 벤치마크 데이터셋인 Charades-STA와 ActivityNet Captions를 기반으로 수행되었다. 이 데이터셋들은 **다양한 시간적 세분성(temporal granularity)과 의미적 복잡성(semantic complexity)**을 가진 시나리오를 제공함으로써 서로를 보완한다. Charades-STA는 간결하고 액션 중심적인 세그먼트에 초점을 맞추는 반면, ActivityNet Captions 데이터셋은 의미적으로 풍부하고 문맥적으로 미묘한 어노테이션을 제공한다. 이 둘은 함께 VMR 모델의 효과성과 일반화 능력을 평가하기 위한 포괄적인 프레임워크를 구축한다.

Charades-STA. VMR의 핵심 벤치마크인 Charades-STA는 5,338개의 훈련 비디오와 1,334개의 검증 비디오에서 파생된 12,408개의 비디오-쿼리 쌍을 훈련용으로, 3,720개를 검증용으로 포함한다. 쿼리는 평균 7.2단어 길이의 자연어 문장으로 구성되며, 실제 시나리오의 특정 액션이나 이벤트를 설명한다. 타겟 세그먼트의 평균 길이는 8.1초이며, 평균 30.6초 길이의 untrimmed 비디오에서 추출된다. 이 데이터셋은 짧고 액션 중심적인 세그먼트를 강조하는 fine-grained moment retrieval에 특히 적합하다.

ActivityNet Captions. ActivityNet Captions 데이터셋은 VMR을 위한 더욱 포괄적이고 복잡한 벤치마크로, 여러 사람이 작성한 설명으로 주석 처리된 19,290개의 비디오를 특징으로 한다. 이 데이터셋은 훈련용으로 37,417개의 관심 순간(MoIs), 검증용(val_1)으로 17,505개의 MoIs, 테스트용(val_2)으로 17,031개의 MoIs를 포함한다. 쿼리는 평균 14단어 길이로 의미적으로 풍부하여 더 깊이 있는 비디오 콘텐츠 분석을 가능하게 한다. Untrimmed 비디오의 평균 길이는 117.6초인 반면, 주석 처리된 순간은 일반적으로 36.2초에 걸쳐 있어 장거리 시간적 종속성(long-range temporal dependencies)과 다면적인 이벤트 의미론(multifaceted event semantics)을 이해하는 데 어려움을 제시한다.

4.1.2 평가 지표. VMR 시스템 성능을 평가하기 위해, **temporal intersection over union (IoU= $m$ )**을 핵심 지표로 사용하여 쿼리 전반에 걸쳐 **평균 재현율(R@n)**이 계산된다. IoU는 예측된 비디오 세그먼트와 ground truth 비디오 세그먼트 간의 겹침 비율을 측정하며, 다음과 같이 계산된다:

\mathrm{IoU}=\frac{\text { Area of Overlap }}{\text { Area of Union }} .

여기서 $n$ 은 상위 $n$ 개 예측 내의 재현율을 나타내고, $m$ 은 사전 정의된 IoU 임계값을 나타낸다. 이 지표는 상위 $n$ 개 결과 내에서 지정된 IoU 임계값 $m$ 을 초과하는 예측의 비율을 평가하여 정밀도에 대한 강력한 측정값을 제공한다. 구체적으로, Charades-STA의 경우 $m \in\{0.5,0.7\}$ , ActivityNet Captions의 경우 $m \in\{0.3,0.5\}$ , 그리고 모든 데이터셋에 대해 $n \in\{1,5\}$ 로 결과가 보고된다.

4.1.3 구현 세부 사항. 실험은 40GB 메모리의 NVIDIA Tesla A100 GPU에서 PyTorch를 사용하여 수행되었다. 이전 연구와의 일관성을 위해, 비디오 feature 추출에는 **사전학습된 C3D 모델 [30]**이 사용되었고, 텍스트 데이터에는 **GloVe embedding [27]**이 사용되었다. 비디오 시퀀스는 Charades-STA의 경우 최대 128프레임, ActivityNet Captions의 경우 256프레임으로 제한되었으며, 프레임 중복을 완화하기 위해 전략적 샘플링을 사용했다. 쿼리는 Charades-STA의 경우 10단어, ActivityNet Captions의 경우 20단어의 고정된 길이로 표준화되었으며, 이는 **절단(truncation) 또는 패딩(padding)**을 통해 달성되었다. 클러스터링 파라미터 $K$ 는 Charades-STA의 경우 8, ActivityNet Captions의 경우 16으로 설정되었다. 병합 비율은 $\alpha_{\min }=40 \%$ 및 $\alpha_{\max }=80 \%$ 로 정의되었으며, 균형 가중치는 $\omega_{1}=0.7$ 및 $\omega_{2}=0.3$ 이다. 노드 가지치기 점수는 $\phi_{1}=0.8$ 및 $\phi_{2}=0.2$ 를 사용하여 계산되었으며, 가지치기 임계값은 $\tau_{\min }=0.5$ 및 $\tau_{\max }=0.7$ 이다. 훈련은 Adam optimizer를 활용하며, 초기 학습률은 $7 \times 10^{-5}$ 이고, 모델 훈련 효율성을 높이기 위해 30 epoch마다 10의 감소 계수가 적용된다.

4.2 Comparison with State-of-the-art Methods

4.2.1 비교 방법. 제안된 ADTC 방법의 효과를 검증하기 위해, 우리는 널리 사용되는 두 가지 벤치마크 데이터셋인 Charades-STA와 ActivityNet Captions 데이터셋에서 비교 실험을 수행한다. ADTC는 완전 지도(fully supervised), 약 지도(weakly supervised), 점 지도(point-supervised) VMR의 세 가지 범주에 걸쳐 state-of-the-art 방법들과 비교된다. 비교 방법들의 세부 사항은 다음과 같이 요약된다:

완전 지도 VMR (Fully Supervised VMR).

CTRL [7]: sliding window mechanism 기반의 선구적인 방법으로 VMR 연구의 기반을 마련했다.
SV-VMR [38]: semantic role tree와 contextual attention을 통해 세분화된 의미론적 및 시각적 구조 통합을 강화하여 검색 성능을 향상시키고, 다단계 feature fusion을 가능하게 한다.
FVMR [8]: cross-modal interaction을 semantic distillation을 통한 moment-query alignment를 위한 공유 공간으로 대체하여 강건한 feature 학습을 수행한다.
2D-TAN [52]: 2D 맵으로 비디오 moment 간의 시간적 관계를 모델링하고, 인접 종속성을 인코딩하여 moment matching을 개선한다.
DRN [46]: frame 거리에 대한 dense supervision과 IoU regression head를 도입하여 grounding 정확도를 높인다.
DPIN [32]: top-down alignment와 bottom-up boundary prediction을 semantically conditioned interaction module과 결합하여 보완적인 표현을 생성한다.
APGN [21]: adaptive graph convolution을 사용하여 동적 feature aggregation을 수행하고, cross-modal interaction을 강화한다.
VSLNet [51]: NLVL을 span-based QA로 공식화하고, query-guided highlighting을 사용하여 일치하는 비디오 span을 찾는다.
CRNet [29]: 다중 granularity feature를 통합하고, 배경을 억제하며, IoU와 graph attention을 통해 moment 종속성을 모델링한다.

약 지도 VMR (Weakly Supervised VMR).

SCN [19]: context-aggregated proposal과 semantic completion을 통해 scoring refinement 및 segment selection을 개선한다.
WSTAN [33]: temporal adjacent network를 통해 cross-modal semantic alignment를 학습하고, self-discriminating loss를 사용한 pseudo-supervision을 적용하여 refinement를 수행한다.
SAN [35]: multiscale Siamese module과 context-aware multiple instance learning을 사용하여 moment와 query의 약 지도 alignment를 강화한다.
MARN [28]: intra- 및 inter-proposal attention mechanism을 통해 proposal을 개선하여 약 지도 학습을 향상시킨다.
CCL [54]: feature, interaction-, relation-level transformation을 통해 counterfactual contrastive learning을 개발하여 visual-textual alignment를 개선한다.
VCA [36]: contrastive learning을 활용하여 비디오 전반의 visual feature를 정렬하고, 표현 학습의 강건성을 강화한다.
LCNet [41]: 세분화된 비디오-텍스트 대응 관계를 계층적으로 모델링하고, cycle-consistent self-supervision을 사용하여 더 나은 alignment를 수행한다.
MSCL [26]: framewise matching을 위한 self-contrastive learning framework와 coarse-to-fine contrastive learning을 도입하여 세분화된 세부 정보를 포착한다.
CPL [56]: 학습 가능한 Gaussian function을 사용하여 고품질 proposal을 생성하고, controllable easy-to-hard negative mining 전략을 채택하여 구별 능력을 향상시킨다.
SCANet [43]: scene complexity measurement를 도입하여 약 지도 VMR을 위한 adaptive proposal을 생성한다.

점 지도 VMR (Point-supervised VMR).

**ViGA [4]**는 저비용 "glance annotations" 패러다임을 도입하여 contrastive learning을 glance-guided Gaussian weighting과 통합한다.
**PS-VTG [39]**는 attention-based grounding network와 함께 point supervision을 사용하며, pseudo segment-level label과 multilevel distribution calibration을 활용하여 정확한 temporal grounding을 수행한다.
**D3G [15]**는 glance annotations를 dynamic Gaussian prior 및 semantic alignment group contrastive learning과 결합하여 효율적인 temporal sentence grounding을 수행한다.
**CFMR [10]**는 개념 기반 multimodal alignment mechanism을 구현하여 계산 비용을 줄인다.
**MHST [20]**는 pruning 전략을 가진 tree-structure baseline을 사용하여 query-aware segment hypothesis를 생성하고, sparse annotation으로 framewise 정보를 포착한다.

4.2.2 검색 성능 결과 및 분석. Table 1과 2는 Charades-STA 및 ActivityNet Captions 데이터셋에서 우리 모델인 ADTC와 최신 state-of-the-art 방법들의 검색 성능을 비교한 결과를 보여준다. 이 결과로부터 다음과 같은 결론을 도출할 수 있다.

완전 지도 방법들과 비교한 성능. ADTC 방법은 상당히 적은 annotation에 의존함에도 불구하고, 여러 완전 지도 방법들과 비견되거나 심지어 능가하는 성능을 달성한다. Charades-STA에서 ADTC는 C3D 기반 APGN보다 IoU=0.5에서 R@1 기준으로 +2.08% 더 높은 성능을 보이며, I3D 기반 FVMR보다 IoU=0.7에서 R@1 기준으로 +1.05% 더 높은 성능을 보인다. ActivityNet Captions에서 ADTC는 VSLNet보다 IoU=0.3에서 R@1 기준으로 +1.86% 더 높은 성능을 보인다. 이러한 결과는 제안된 dual-stage tree construction 및 adaptive pruning 전략의 강건성을 보여주며, 이는 sparse supervision 하에서도 의미론적 관계를 효과적으로 정렬한다.

약 지도 방법들과 비교한 성능. ADTC 방법은 두 데이터셋 모두에서 약 지도 접근 방식들을 크게 능가한다. Charades-STA에서 IoU=0.7의 엄격한 R@1 metric 기준으로, ADTC는 고급 negative mining 및 Gaussian 기반 proposal을 사용하는 CPL보다 +12.18% 더 높은 성능을 달성한다. ActivityNet Captions에서 ADTC의 R@1 값은 IoU=0.5에서 SCANet보다 +14.61% 더 높은 성능을 보인다. 이 상당한 차이는 point-level supervision이 제안된 계층적 alignment 전략과 결합될 때, 약하고 coarse-level의 annotation보다 더 정확한 temporal grounding을 제공함을 입증한다.

다른 점 지도 방법들과 비교한 성능. 점 지도(point-supervised) 범주 내에서 ADTC는 대부분의 metric에서 일관되게 최고의 성능을 달성한다. 예를 들어, Charades-STA에서 ADTC는 MHST보다 IoU=0.5에서 R@1 기준으로 +0.66% 더 높은 성능을 보이며, ActivityNet Captions에서 IoU=0.3에서 R@5 기준으로 +0.75% 더 높은 성능을 보인다. 이러한 개선은 다양한 계층적 수준에 걸친 의미 정보의 효과적인 통합과 지역 및 전역 컨텍스트에 대한 관련성 가중치를 동적으로 조정하는 adaptive tree construction 전략에 기인한다. 효율성과 정확도 간의 trade-off를 효과적으로 해결함으로써, ADTC는 점 지도 방법들을 위한 새로운 벤치마크로서 강력한 잠재력을 보여준다.

4.2.3 다양한 지도 수준에서의 Annotation 비용. 참고 문헌 [24]는 유사한 temporal action localization task에서 frame-level (point-supervised) annotation이 segment-level (fully supervised) annotation에 필요한 시간의 약 6분의 1에 불과하다고 보여준다. VMR의 annotation 효율성을 평가하기 위해, 우리는 Charades-STA 및 ActivityNet Captions에서 샘플링된 1,200개 비디오(28시간)의 하위 집합에 대해 30명의 숙련된 annotator와 함께 실험을 수행했다.

Table 1. Charades-STA 데이터셋에서의 성능 비교. FS, WS, PS는 각각 완전 지도, 약 지도, 점 지도 방법을 나타낸다. 결과는 기본 C3D feature를 사용하여 보고되었으며, $\dagger$ 와 $\ddagger$ 는 각각 VGG 및 I3D feature를 나타낸다. 굵은 글씨는 PS에서 가장 좋은 성능을 나타낸다.

Method	Type	R@1, IoU=m		R@5, IoU=m
		$\mathrm{m}=0.5$	$\mathrm{m}=0.7$	$\mathrm{m}=0.5$	$\mathrm{m}=0.7$
CTRL [7]	FS	23.63	8.89	58.92	29.52
SV-VMR [38]	FS	38.09	19.98	84.05	40.44
FVMR [8]	FS	38.16	18.22	82.18	44.96
2D-TAN [52] ${ }^{\dagger}$	FS	39.81	23.25	79.33	52.15
DRN [46]	FS	45.40	26.40	88.01	55.38
DPIN [32] ${ }^{\dagger}$	FS	47.98	26.96	85.53	55.00
APGN [21]	FS	48.20	29.37	89.05	58.49
DRN [46] ‡	FS	53.09	31.75	89.06	60.05
VSLNet [51]	FS	54.19	35.22	-
FVMR [8] ‡	FS	55.01	33.74	89.17	57.24
CRNet [29] ‡	FS	60.94	41.32	89.97	65.19
APGN [21] ‡	FS	62.58	38.86	91.24	62.11
SCN [19]	WS	23.58	9.97	71.80	38.87
WSTAN [33] ${ }^{\dagger}$	WS	29.35	12.28	76.13	41.53
SAN [35]	WS	31.02	13.12	72.56	41.75
MARN [28]	WS	31.94	14.18	70.00	37.40
CCL [54]	WS	33.21	15.68	73.50	41.87
VCA [36]	WS	38.13	19.57	78.75	37.75
LCNet [41]	WS	39.19	18.87	80.56	48.49
MSCL [26]	WS	43.15	23.49	81.23	48.45
CPL [56] ${ }^{\ddagger}$	WS	49.05	22.61	84.71	52.37
SCANet [43] ${ }^{\ddagger}$	WS	50.85	24.07	86.32	53.28
VIGA [4]	PS	35.11	15.11	-	-
PSTVG [39] ${ }^{\ddagger}$	PS	39.22	20.17	-	-
D3G [15] ${ }^{\dagger}$	PS	41.64	19.60	79.25	49.30
CFMR [10] ${ }^{\ddagger}$	PS	48.14	22.58	80.06	56.09
MHST [20]	PS	49.62	34.48	89.29	57.50
Ours (ADTC)	PS	50.28	34.79	89.12	57.84

각 annotator는 비디오당 세 가지 작업 중 하나를 수행했다: (1) **약 지도(weak supervision)**는 비디오에서 발생하는 활동이나 이벤트에 대한 자연어 설명을 제공했다. (2) **점 지도(point supervision)**는 segment 내의 대표적인 frame을 추가로 표시했다. (3) **완전 지도(full supervision)**는 정확한 시작 및 종료 timestamp를 annotation했다. Annotator는 비디오를 자유롭게 탐색할 수 있었고, annotation 시간은 비디오 로딩부터 제출까지 기록되었다. Figure 4에서 볼 수 있듯이, 약 지도는 1분 비디오당 평균 50.4초가 소요되었고, 점 지도는 57.2초, 완전 지도는 거의 96.0초가 소요되었다. 이러한 결과는 점 지도가 약 지도보다 단지 약간 더 많은 시간이 필요하지만, cross-modal semantic alignment를 크게 향상시킨다는 것을 나타낸다. 반면, 완전 지도는 정확한 temporal boundary marking에 필요한 노력으로 인해 annotation 시간이 거의 두 배가 된다. 전반적으로, 점 지도는 annotation 효율성과 검색 성능 사이에서 유리한 trade-off를 제공하여, 대규모 데이터셋에 대한 확장 가능한 선택지가 된다.

Table 2. ActivityNet Captions 데이터셋에서의 성능 비교. FS, WS, PS는 각각 완전 지도, 약 지도, 점 지도 방법을 나타낸다. 결과는 기본 C3D feature를 사용하여 보고되었으며, 굵은 글씨는 PS에서 가장 좋은 성능을 나타낸다.

Method	Type	R@1, IoU=m		$\mathrm{R} @ 5, \mathrm{IoU}=\mathrm{m}$
		$\mathrm{m}=0.3$	$\mathrm{m}=0.5$	$\mathrm{m}=0.3$	$\mathrm{m}=0.5$
CTRL [7]	FS	-	29.01	-	59.17
2D-TAN [52]	FS	59.45	44.51	85.53	77.13
FVMR [8]	FS	60.63	45.00	86.11	77.42
SV-VMR [38]	FS	61.39	45.21	85.98	77.10
DRN [46]	FS	-	45.45	-	77.97
DPIN [32]	FS	62.40	47.27	87.52	77.45
VSLNet [51]	FS	63.16	43.22	-	-
CRNet [29]	FS	-	47.27	-	78.84
APGN [21]	FS	-	48.92	-	78.87
MARN [28]	WS	47.01	29.95	72.02	57.49
SCN [19]	WS	47.23	29.22	71.45	55.69
SAN [35]	WS	48.44	30.54	82.41	64.52
LCNet [41]	WS	48.49	26.33	82.51	62.66
CCL [54]	WS	50.12	31.07	77.36	61.29
VCA [36]	WS	50.45	31.00	79.38	53.83
WSTAN [33]	WS	52.45	30.01	76.13	63.42
MSCL [26]	WS	55.05	38.23	82.72	68.05
CPL [56]	WS	55.73	31.37	63.05	43.13
SCANet [43]	WS	56.07	31.52	82.34	64.09
D3G [15]	PS	58.25	36.68	87.84	74.21
VIGA [4]	PS	59.61	35.79	-	-
CFMR [10]	PS	-	36.97	-	69.28
PSTVG [39]	PS	59.71	39.59	-	-
MHST [20]	PS	64.34	45.68	86.92	77.75
Ours(ADTC)	PS	65.02	46.13	87.67	78.25

4.3 Ablation Study

ADTC 프레임워크 내 개별 구성 요소들의 기여를 더 잘 이해하기 위해, 우리는 Charades-STA 데이터셋에 대해 광범위한 ablation study를 수행한다. 이 실험들은 핵심 모듈의 중요성과 다양한 관련성 가중치(relevance weighting) 및 손실 함수(loss function) 구성의 영향을 평가한다.

4.3.1 핵심 모듈의 영향 분석

세 가지 핵심 모듈인 dual-negative proposals mining (DNPM), hierarchical adaptive tree pruning (HATP), 그리고 **adaptive Merging threshold control (AMTC)**의 기여를 평가하기 위해, 각 모듈을 더 간단한 baseline으로 대체하는 ablation 실험을 수행했다. 구체적으로, "w/o DNPM" 조건에서는 DNPM 전략을 기본적인 무작위 negative 샘플링(random negative sampling) 방식으로 대체했다. "w/o HATP" 조건에서는 HATP 모듈을 균일한 고정 임계값 가지치기(uniform fixed-threshold pruning) 전략으로 대체했으며, "w/o AMTC" 조건에서는 AMTC 메커니즘을 고정 임계값 병합(fixed-threshold merging) 전략으로 대체했다.

Table 3에서 볼 수 있듯이, AMTC를 제거했을 때 $\mathrm{R} @ 1$ , IoU $=0.5$ 에서 -0.41의 성능 감소가 발생했으며, 이는 계층화된 의미론적 종속성을 포착하기 위한 병합 임계값의 동적 조정이 중요함을 강조한다. 유사하게, HATP를 균일한 가지치기 방식으로 대체했을 때 $\mathrm{R} @ 1, \mathrm{IoU}=0.5$ 에서 -0.24의 감소가 발생했으며, 이는 관련 없는 노드를 제거하는 데 있어 적응적이고 계층적인 가지치기의 이점을 보여준다. DNPM은 상대적으로 작은 영향을 미쳤지만(무작위 negative 샘플링으로 대체했을 때 $\mathrm{R} @ 1, \mathrm{IoU}=0.5$ 에서 -0.16 감소), 이는 dual-negative 전략이 더 우수한 훈련 신호를 생성하여 더 견고한 proposal 선택을 제공함을 시사한다. 이러한 결과들은 각 모듈이 모델 성능 향상에 독특하고 상호 보완적인 역할을 한다는 것을 종합적으로 보여준다.

Fig. 4. 다양한 supervision 수준에서의 어노테이션 비용 비교.

Table 3. Charades-STA 데이터셋에서 각 모듈을 더 간단한 baseline으로 대체하여 핵심 구성 요소의 기여도 평가. "w/o DNPM" 조건에서는 dual-negative proposals mining이 무작위 negative 샘플링으로 대체되었고, "w/o HATP"에서는 hierarchical adaptive tree pruning이 균일한 고정 임계값 가지치기로 대체되었으며, "w/o AMTC"에서는 adaptive merging threshold control이 고정 임계값 병합으로 대체되었다.

Method	R@1, IoU=m		R@5, IoU=m
	$\mathrm{m}=0.5$	$\mathrm{m}=0.7$	$\mathrm{m}=0.5$	$\mathrm{m}=0.7$
Full Model	50.28	34.79	89.12	57.84
w/o DNPM	50.12	34.68	88.95	57.76
w/o HATP	50.04	34.62	88.83	57.70
w/o AMTC	49.87	34.54	88.71	57.58

4.3.2 관련성 가중치(Relevance Weights)의 영향

이중 단계 가설 트리 구성 모델은 다양한 길이의 비디오 세그먼트의 고유한 특성을 수용하도록 설계되었으며, 이는 다른 계층 수준에서 언어적 관련성(linguistic relevance), 시각적 관련성(visual relevance), 그리고 클러스터링 일관성(clustering consistency)에 대한 적응적 강조를 필요로 한다. 관련성 가중치 구성이 모델 성능에 미치는 영향을 평가하기 위해, 우리는 로컬(local) 및 글로벌(global) 트리 구성 단계 모두에서 ablation study를 수행했다. Figure 5는 Charades-STA 데이터셋에 대한 결과를 제시하며, 다양한 가중치 조합에 따른 IoU=0.5에서의 R@1 값을 보고한다.

이러한 결과는 두 가지 핵심 통찰력을 제공한다. 첫째, 로컬 및 글로벌 단계 모두에서 노드 간의 클러스터링 일관성을 강제하는 것은 검색 성능을 지속적으로 향상시키며, 이는 의미론적 일관성을 유지하고 구조적으로 유사한 노드를 효과적으로 정렬하는 데 중요한 역할을 한다. 둘째, 언어적 관련성과 시각적 관련성은 트리 구성 단계에 따라 다르게 기여한다.

로컬 트리 구성에서는 시각적 관련성( $\lambda_2$ )의 가중치를 높이는 것이 짧은 시간의 이벤트와 시각적으로 연속적인 동작을 포착하는 모델의 능력을 향상시킨다. 이러한 이벤트와 동작은 강한 시간적 및 공간적 종속성을 보인다.
반대로, 글로벌 트리 구성에서는 언어적 관련성( $\lambda_1$ )을 강조하는 것이 세그먼트 전반에 걸쳐 장기적인 의미론적 연관성을 확립하는 모델의 능력을 향상시킨다. 이는 언어적 단서가 문맥적 간극을 더 잘 연결하기 때문이다.

Ablation 실험을 통해 최적의 가중치 구성도 식별되었다:

Fig. 5. 이중 단계 가설 트리 구성에서 관련성 가중치가 모델 성능에 미치는 영향.

로컬 트리 구성의 경우 $\lambda_1=0.4, \lambda_2=0.5, \lambda_3=0.1$ 이며, 글로벌 트리 구성의 경우 $\lambda_1=0.6, \lambda_2=0.3, \lambda_3=0.1$ 이다. 이러한 설정은 계층적 구조 정렬과 시각적 및 언어적 feature의 동적 중요성 사이의 균형을 이루어 검색 성능을 최적화한다.

4.3.3 손실 함수 조합의 영향

다양한 손실 함수가 모델 성능에 미치는 영향은 ranking loss $\mathcal{L}_{\text {rank }}$ 만을 사용하는 baseline부터 평가되었다. 추가 손실 함수를 점진적으로 통합함으로써, Table 4에 제시된 결과는 일관된 성능 향상을 보여주며, 이는 다단계 supervision의 상호 보완적인 역할을 강조한다.

평가된 손실 함수 중, **video-level constraint loss ( $\mathcal{L}_{\text {video}}$ )는 가장 인상적인 개선( $\mathrm{R} @ 1$ , IoU=0.5에서 +1.33)**을 제공하며, 이는 비디오 간 비교를 활용하여 시간적 경계를 정제하는 데 효과적임을 입증한다. 글로벌 문맥 이해를 강제함으로써, 이는 미묘한 비디오 간 의미론적 구별을 포착하고 유사한 쿼리 해석을 가진 어려운 시나리오에서 모호성을 줄이는 데 도움이 된다. **segment-level constraint loss ( $\mathcal{L}_{\text {segment}}$ ) 또한 상당한 영향( $\mathrm{R} @ 1$ , IoU=0.5에서 +1.16)**을 미치며, 이는 세부적인 쿼리-세그먼트 관계에 초점을 맞춰 미세한 시간적 정렬을 향상시키는 역할을 강조한다. 이는 특히 짧거나 시각적으로 복잡한 동작에 대해 중요한 순간을 정확하게 식별하도록 보장한다. 이에 비해, **scene-level constraint loss ( $\mathcal{L}_{\text {scene}}$ )는 완만한 개선( $\mathrm{R} @ 1$ , IoU=0.5에서 +0.27)**을 제공하는데, 이는 더 거친 scene-level 표현에 의존하고 긍정적인 장면의 다양성이 제한적이기 때문일 가능성이 높다. 그럼에도 불구하고, 이는 모델에 추가적인 고수준 문맥 이해를 제공한다. 종합적으로, 이러한 손실 함수들은 글로벌 및 로컬 목표의 균형을 맞춰 검색 정확도와 확장성을 향상시키는 상호 보완적인 다단계 supervision 프레임워크를 형성한다.

4.4 Qualitative Results

Figure 6은 다양한 수준의 장면 복잡도를 가진 비디오에 대한 VMR의 정성적 시각화 결과를 보여준다. 결과에 따르면, 모델은 장면 복잡도가 낮은 비디오에서 탁월한 성능을 보이며, 미세한 의미론적 변화를 효과적으로 포착한다. 장면 복잡도가 높은 비디오의 경우, 배경 노이즈와 의미론적 변화가 존재하여 어려움이 있음에도 불구하고, 모델은 여전히 경쟁력 있는 검색 성능을 보여준다. 그러나 이러한 경우 더욱 미세한 검색을 달성하는 것은 ground-truth 클립 내의 관련 없는 의미론적 세그먼트들로 인해 방해받는다. 이 세그먼트들은 쿼리와 무관한 것으로 해석된다. 이러한 한계는 노이즈가 많거나 모호한 ground-truth annotation을 처리하기 위한 더 강력한 메커니즘의 필요성을 강조한다. 향후 연구는 관련 있는 세그먼트와 관련 없는 세그먼트를 구별하는 모델의 능력을 향상시켜 이러한 장애물을 해결하고, 복잡한 시나리오에서 검색 성능을 더욱 개선하는 데 중점을 둘 것이다.

Table 4. Charades-STA 데이터셋에 대한 ablation study를 통한 손실 함수 조합 성능 평가.

$\mathcal{L}_{\text {rank }}$	$\mathcal{L}_{\text {segment }}$	$\mathcal{L}_{\text {scene }}$	$\mathcal{L}_{\text {video }}$	$\mathrm{R} @ 1, \mathrm{IoU}=\mathrm{m}$		R@5, IoU=m
				$\mathrm{m}=0.5$	$\mathrm{m}=0.7$	$\mathrm{m}=0.5$	$\mathrm{m}=0.7$
$\checkmark$	$\times$	$\times$	$\times$	47.70	32.38	86.27	55.64
$\checkmark$	$\checkmark$	$\times$	$\times$	48.86	33.15	87.50	56.58
$\checkmark$	$\times$	$\checkmark$	$\times$	47.97	32.64	86.66	55.93
$\checkmark$	$\times$	$\times$	$\checkmark$	49.03	33.50	87.91	56.85
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	50.28	34.79	89.12	57.84

Fig. 6. 다양한 장면 복잡도를 가진 비디오에 대한 VMR 시각화.

5 CONCLUSION

본 논문은 point-supervised VMR을 위한 adaptive dual-stage tree construction (ADTC) 모델을 소개하며, 이는 어노테이션 효율성과 검색 성능 간의 최적 균형을 달성한다. 이 모델은 계층적 이중 단계 트리 프레임워크를 활용하는데, 여기서 local hypothesis tree는 세분화된 단기 이벤트를 포착하고, global tree는 장거리 의미론적 종속성을 확립한다. 주요 혁신 사항은 다음과 같다:

시각, 언어, 클러스터링 일관성을 통합한 새로운 관련성 평가 지표
장면 인지 트리 구성을 위한 적응형 임계값 메커니즘
점진적 개선을 위한 계층적 가지치기(pruning) 전략

광범위한 실험과 ablation study는 이 모델의 효과를 입증하며, 벤치마크 데이터셋에서 state-of-the-art 성능을 달성한다.

이러한 강점에도 불구하고, 몇 가지 과제는 여전히 남아있다. 특히 어노테이션된 프레임이 세그먼트 경계 근처에 있을 때와 같이 모호한 경우에는 성능 저하가 지속된다. 클러스터링 일관성이 잠재적으로 대표성이 없는 어노테이션에 대한 의존도를 완화하지만, 이러한 시나리오에서 견고성을 더욱 향상시키는 것은 여전히 문제이다. 또한, 감독 신호의 희소성으로 인해 의미론적으로 중첩되는 다중 이벤트 쿼리를 처리하는 것은 여전히 어렵다. 이러한 한계를 해결하기 위해, 향후 연구에서는 불확실성 인식 어노테이션 전략과 고급 cross-modal fusion 기술을 탐구할 것이다. 더욱이, 이미지 및 비디오 캡셔닝 코퍼스와 같은 다양한 멀티모달 데이터셋을 통합하면 단일 프레임 표현과 전체적인 시간적 이해 사이의 간극을 메워, 미묘한 이벤트 구조를 포착하는 모델의 능력을 향상시킬 수 있을 것이다.

ACKNOWLEDGMENTS

본 연구는 중국 국가 핵심 R&D 프로그램(과제 번호 2022YFF0902500)의 부분적인 지원을 받았다. 또한 '5G+AI 데이터 기반 O2O 통합 몰입형 교육 플랫폼 프로젝트'(과제 번호 202201026)를 통해 상하이 도시 디지털 전환 특별 기금의 지원을 받았다. 추가적인 지원은 상하이대학교 과학공학 컴퓨팅 기술 서비스 센터에서 제공되었다.

Online Appendix

A HYPERPARAMETER SELECTION AND SENSITIVITY ANALYSIS

ADTC 모델은 클러스터링, 트리 구성 및 가지치기(pruning)에 영향을 미치는 몇 가지 핵심 하이퍼파라미터를 포함한다. 우리는 접근 방식의 견고성과 일반화 능력을 보장하기 위해 이러한 하이퍼파라미터의 선택 전략과 민감도를 체계적으로 분석한다.

A. 1 Hyperparameter Selection Strategy

최적의 하이퍼파라미터를 결정하기 위해, 우리는 Charades-STA 및 ActivityNet Captions 데이터셋에 대해 grid search 실험을 수행한다. 주요 하이퍼파라미터는 다음과 같이 분류된다:

Frame Clustering $K$ : 비디오 분할의 **세분화 정도(granularity)**를 정의한다. 우리는 Charades-STA에 대해 $K=8$ , **ActivityNet Captions에 대해 $K=16$ **으로 설정하여, 세그먼트 다양성과 계산 비용 간의 효과적인 균형을 확보한다.
Adaptive Merging Ratio ( $\alpha_{\min}, \alpha_{\max}$ ): 트리 구성 중 노드 병합을 제어한다. 경험적 평가에 따르면, ** $\alpha_{\min}=40\%$ 및 $\alpha_{\max}=80\%$ **가 undersegmentation과 oversegmentation 사이에서 최적의 trade-off를 달성한다.
Pruning Thresholds ( $\tau_{\min}, \tau_{\max}$ ): 관련 없는 노드를 필터링하는 기준을 결정한다. 우리는 ** $\tau_{\min}=0.5$ 및 $\tau_{\max}=0.7$ **이 가장 안정적인 결과를 제공하며, 쿼리 관련성을 유지하면서 과도한 pruning을 방지함을 확인했다.

A. 2 Sensitivity Analysis and Observations

모델 성능에 대한 하이퍼파라미터 변화의 영향을 평가하기 위해, 우리는 Charades-STA 데이터셋에서 ablation study를 수행하였다. 이 연구에서는 다른 하이퍼파라미터들을 고정한 채 개별 하이퍼파라미터만 수정하였다. 평가는 다양한 IoU 임계값에서의 R@1을 기반으로 하며, 통계적 신뢰성을 확보하기 위해 5회 독립적인 실행에 걸쳐 평균을 내고 평균 $\pm$ 표준편차로 결과를 보고한다.

Table 5에 요약된 결과에 따르면, 클러스터링 파라미터 $K$ 는 중간 정도의 민감도를 보인다. 너무 작은 $K$ (예: 4)는 부정확한 segment 경계를 초래하고, 반대로 큰 $K$ (예: 12)는 과도한 fragmentation을 야기한다. 최적의 $K=8$ 은 정밀도와 fragmentation 사이의 균형을 이루며, segment 경계 정확도와 구조적 일관성 사이의 효과적인 trade-off를 반영한다.

adaptive merging ratio $\alpha_{\text {min }}$ 과 $\alpha_{\text {max }}$ 는 낮은 민감도를 보인다. 성능 변화 (예: $\alpha_{\min }$ 의 경우 $49.76 \pm 0.13$ 에서 $50.28 \pm 0.14$ )가 오차 범위 내에 있어, 임계값 변화에 대한 우리의 merging 전략의 견고함을 강조한다.

이와 대조적으로, pruning threshold $\tau_{\text {min }}$ 은 뚜렷한 민감도를 나타낸다. 낮은 값 (예: $0.4, 48.45 \pm 0.16$ )은 과도한 노이즈를 유지하는 반면, 높은 값 (예: $0.6, 49.12 \pm 0.24$ )은 정보성 노드를 버릴 위험이 있다. 최적의 $\tau_{\min }=0.5 (50.28 \pm 0.14)$ 는 과도한 pruning 없이 노이즈를 효과적으로 필터링하여 성능을 극대화한다. pruning threshold $\tau_{\text {max }}$ 는 중간 정도의 민감도를 보이며, 공격적인 pruning이 약간의 성능 저하를 유발하지만, $\tau_{\min }$ 보다는 덜 중요하다.

Table 5에서는 각 결과에 대한 실행 간 표준편차도 보고한다. 특히, 표준편차가 상대적으로 작아, 주어진 하이퍼파라미터 설정에서 성능이 안정적임을 나타낸다. 민감도가 낮은 하이퍼파라미터 (예: $\alpha_{\min }$ 및 $\alpha_{\max }$ )의 경우, 테스트된 값들 간의 성능 차이가 오차 범위 내에 있어, 이러한 값들의 선택에 대한 ADTC의 견고함을 확인시켜준다. 그러나 $\tau_{\text {min }}$ 과 같이 더 민감한 파라미터의 경우, 해당 범위에서 평균 성능의 변화가 해당 표준편차를 초과하여, 무작위 변동이 아닌 통계적으로 유의미한 효과를 나타낸다. 전반적으로, 표에 포함된 오차 막대는 선택된 하이퍼파라미터 값 (굵게 표시됨)이 변동성 마진을 넘어 일관되게 거의 최적의 결과를 산출함을 보여준다. 이 결과는 성능 차이의 통계적 유의미성과 우리 모델의 견고함을 모두 입증한다.

Table 5. Charades-STA 데이터셋에서 주요 하이퍼파라미터의 민감도 분석. 성능은 다양한 IoU 임계값에서의 R@1 (5회 실행에 대한 평균 $\pm$ 표준편차)을 사용하여 측정되었다. 가장 좋은 성능을 보인 값은 굵게 표시되었다.

Hyperparameter	Range tested	IoU	R@1
Clustering $K$	4, 8, 12	0.5 0.7	$49.41 \pm 0.18 \rightarrow \mathbf{50 . 2 8} \pm \mathbf{0 . 1 4} \rightarrow 49.75 \pm 0.23 33.94 \pm 0.15 \rightarrow \mathbf{34 . 7 9} \pm \mathbf{0 . 1 1} \rightarrow 34.17 \pm 0.14$
Merging $\alpha_{\text {min }}$	30%, 40%, 50%	0.5 0.7	$49.76 \pm 0.13 \rightarrow \mathbf{50 . 2 8} \pm \mathbf{0 . 1 4} \rightarrow 50.06 \pm 0.16 34.32 \pm 0.09 \rightarrow \mathbf{34 . 7 9} \pm \mathbf{0 . 1 1} \rightarrow 34.51 \pm 0.12$
Merging $\alpha_{\text {max }}$	70%, 80%, 90%	0.5 0.7	$50.19 \pm 0.08 \rightarrow \mathbf{50 . 2 8} \pm \mathbf{0 . 1 4} \rightarrow 49.87 \pm 0.17 34.68 \pm 0.12 \rightarrow \mathbf{34 . 7 9} \pm \mathbf{0 . 1 1} \rightarrow 34.40 \pm 0.15$
Pruning $\tau_{\text {min }}$	0.4,0.5, 0.6	0.5 0.7	$48.45 \pm 0.16 \rightarrow \mathbf{50 . 2 8} \pm \mathbf{0 . 1 4} \rightarrow 49.12 \pm 0.24 32.94 \pm 0.21 \rightarrow \mathbf{34 . 7 9} \pm \mathbf{0 . 1 1} \rightarrow 33.73 \pm 0.17$
Pruning $\tau_{\text {max }}$	0.6, 0.7, 0.8	0.5 0.7	$48.90 \pm 0.20 \rightarrow \mathbf{50 . 2 8} \pm \mathbf{0 . 1 4} \rightarrow 49.47 \pm 0.11 33.49 \pm 0.13 \rightarrow \mathbf{34 . 7 9} \pm \mathbf{0 . 1 1} \rightarrow 34.15 \pm 0.19$

B MODEL COMPLEXITY, TRAINING TIME, AND RESOURCE CONSUMPTION ANALYSIS

제안된 ADTC 프레임워크의 실용성을 종합적으로 평가하기 위해, 이 섹션에서는 모델 복잡도, 학습 효율성, 자원 소비, 병렬화 가능성에 대해 자세히 설명한다. 모든 실험은 Section 4.1.3에 설명된 설정에 따라 Charades-STA 데이터셋을 사용하여 수행되었다.

B. 1 Model Complexity

ADTC 모델은 약 1,339만 개의 파라미터를 가진 것으로 추정된다. 특히, 이 아키텍처는 두 개의 개별 Transformer encoder를 사용한다. 하나는 비디오 인코딩을 위한 것이고, 다른 하나는 쿼리 인코딩을 위한 것이다. 각 encoder는 2개의 layer로 구성되며, 각 layer는 4개의 attention head와 512의 model dimension을 갖는다. 두 encoder를 합친 파라미터 수는 약 1,261만 개이다.
추가적인 학습 가능한 파라미터는 projection matrix( $\mathbf{W}_{1}$ 및 $\mathbf{W}_{2}$ 는 query-guided relevance를 위한 것이고, $\mathbf{W}_{3}$ 는 node merging을 위한 것)와 proposal scoring에 사용되는 fully connected layer에서 발생하며, 이는 추가로 78만 개의 파라미터를 더한다. 학습 불가능한 구성 요소(예: 프레임 그룹화 및 장면 분할을 위한 K-means clustering)는 파라미터 수에 포함되지 않지만, 런타임에 영향을 미친다. 전반적으로, 이 모델의 파라미터 복잡도는 중간 수준을 유지하여 효율적인 최적화 및 배포를 지원한다.

B. 2 Training Time and Resource Consumption

학습은 **NVIDIA Tesla A100 GPU (40 GB)**에서 수행되었다. Charades-STA 데이터셋 (약 12,400개의 비디오-쿼리 쌍, 128 프레임 입력)의 경우, 약 80 epoch에서 수렴이 이루어졌으며, 5회 독립적인 실행에 대한 평균 학습 시간은 총 약 21.60시간이었다. 이 시간은 **이중 단계 트리 구성(반복적인 노드 병합 및 가지치기 포함)**과 안정적인 최적화를 위한 gradient accumulation에 따른 계산 오버헤드를 포함한다. 학습 중 사용된 평균 GPU 메모리는 15.24 GB였으며, 이는 중간 프레임 feature, 계층적 트리 구조, Transformer 기반 encoder의 attention matrix 저장에 주로 사용되었다.

B. 3 Parallelization Potential

ADTC 모델은 본질적으로 병렬 실행을 위해 설계되었다. 비디오 및 쿼리 feature 인코딩은 사전학습된 네트워크와 multihead self-attention을 활용하며, 행렬 곱셈(matrix multiplication) 및 Softmax와 같은 연산은 GPU에서 효율적으로 병렬화된다. 또한, K-means clustering과 scene segmentation은 여러 프레임을 동시에 처리하도록 벡터화되어 있다.
트리 구성(tree construction) 및 adaptive merging은 반복적이지만, 인접 노드 쌍에 대한 시각적 및 언어적 관련성 점수 계산은 동시에 수행될 수 있다. 더욱이, 트리 가지치기(tree pruning) 및 제안 선택(proposal selection)은 개별 브랜치에서 독립적으로 적용되어 병렬 효율성을 더욱 높인다. 최적화된 GPU 구현 및 최신 병렬 라이브러리를 통해 ADTC는 대규모 비디오 처리에 매우 적합하다.

Fig. 7. 주석 위치가 검색 정확도에 미치는 영향.

C EFFECT OF THE ANNOTATION POSITION ON RETRIEVAL PERFORMANCE

결론에서 논의된 한계점, 특히 세그먼트 경계 근처의 모호한 어노테이션에 대한 모델의 민감성을 추가적으로 조사하기 위해, 우리는 ground-truth 세그먼트 내에서 어노테이션된 프레임의 상대적 위치가 검색 성능에 미치는 영향에 대한 전용 분석을 수행한다. 이 섹션은 이러한 영향을 정량화하여, 제안된 ADTC 프레임워크의 견고성 및 경계 인식 능력에 대한 더 깊은 통찰력을 제공하는 것을 목표로 한다.

C. 1 Experimental Setup

이 실험은 Charades-STA에 대한 주요 실험과 동일한 학습 및 평가 파이프라인을 채택하며, point annotation으로 선택된 프레임만 다르다. 각 ground-truth segment에 대해, 우리는 시간적 범위(temporal span)를 지속 시간 백분율을 기준으로 다섯 가지 상대적인 하위 영역으로 분류한다:

Start: segment의 처음 5%에 해당
Near-start: 5%부터 25%까지
Center: 25%부터 75%까지
Near-end: 75%부터 95%까지
End: 마지막 5%

각 경우에, 우리는 해당 구간에서 프레임을 무작위로 선택하여 annotated point로 사용하고, IoU 임계값 0.5와 0.7에서 R@1을 사용했을 때의 검색 성능을 보고한다.

C. 2 Results and Discussion

Figure 7에서 볼 수 있듯이, 주석된 프레임의 위치는 검색 정확도에 일관되고 측정 가능한 영향을 미친다. IoU=0.5에서 R@1은 47.14% (Start)에서 50.84% (Center)로 정점을 찍은 후 47.43% (End)로 감소한다. 유사한 경향이 IoU=0.7에서도 나타나는데, 성능은 32.36%에서 35.19%로 증가한 후 32.85%로 감소한다. 이러한 성능 패턴은 두 가지 주요 요인에 기인할 수 있다. 첫째, 세그먼트 경계에 가까운 프레임은 의미론적 모호성에 더 취약하다. 이는 해당 프레임이 액션이 시작되거나 끝나는 전환 영역에 위치할 가능성이 높기 때문이며, 따라서 쿼리 정렬을 위한 제한적이고 잠재적으로 오해의 소지가 있는 문맥적 단서를 제공한다. 둘째, 우리의 트리 기반 proposal mining 프레임워크를 사용할 때, 주석된 프레임은 긍정 샘플을 선택하기 위한 supervisory anchor 역할을 한다. 이 프레임이 중앙 근처에 위치할 때, 잘 형성되고 의미론적으로 완전한 세그먼트 내에 존재할 확률이 더 높으므로, 모델이 학습 중에 더 높은 품질의 긍정 proposal을 식별할 수 있게 한다.

이러한 위치 민감성에도 불구하고, 전반적인 성능 변화는 좁은 범위 내에 유지되며, 이는 ADTC 프레임워크가 주석 변화에 대해 어느 정도의 견고성(robustness)을 유지함을 나타낸다. 그럼에도 불구하고, 세그먼트 경계 근처에서 관찰된 성능 저하는 point-supervised 설정에서 경계 모호성이 여전히 도전 과제로 남아있음을 재확인시켜주며, 세그먼트의 완전성과 경계에서의 문맥적 추론을 향상시키기 위한 전략에 대한 추가 연구가 필요함을 시사한다.