Piergiovanni, A. J., et al. "Mirasol3b: A multimodal autoregressive model for time-aligned and contextual modalities." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

AJ Piergiovanni Google DeepMind

Isaac Noble Google Research

Dahun Kim Google DeepMind

Michael S. Ryoo Google DeepMind

Victor Gomes Google Research

Anelia Angelova Google DeepMind

Abstract

멀티모달 학습의 주요 과제 중 하나는 비디오, 오디오, 텍스트와 같이 이질적인 여러 모달리티를 결합하는 것이다. 비디오와 오디오는 텍스트보다 훨씬 높은 속도로 얻어지며 시간적으로 대략 정렬되어 있다. 반면, 텍스트는 제목이나 설명과 같은 전역적인(global) context로 제공되므로, 비디오 및 오디오와 반드시 동기화되어 있지는 않다. 또한, 비디오 및 오디오 입력은 훨씬 더 큰 볼륨을 가지며 비디오 길이가 길어질수록 증가한다. 이는 자연스럽게 이러한 모달리티에 더 많은 연산 자원을 요구하고, 장거리 종속성(long-range dependencies) 모델링을 더 어렵게 만든다.

우리는 여기서 멀티모달 모델링을 분리하여, 각 모달리티의 특성에 따라 입력을 처리하는 별도의 autoregressive model로 구성한다. 우리는 시간적으로 동기화된 모달리티(오디오 및 비디오)를 위한 autoregressive component와, 시간적으로 반드시 정렬되지는 않지만 여전히 순차적인 context 모달리티를 위한 autoregressive component로 구성된 멀티모달 모델을 제안한다.

비디오-오디오 입력의 긴 시퀀스 문제를 해결하기 위해, 우리는 비디오 및 오디오 시퀀스를 연속적인 스니펫(snippet)으로 추가 분할하고, 이들의 표현(representation)을 autoregressive하게 처리한다. 이를 위해 우리는 Combiner 메커니즘을 제안한다. 이 메커니즘은 오디오-비디오 정보를 공동으로 모델링하여, 압축적이면서도 표현력이 풍부한 representation을 생성한다. 이를 통해 모델 파라미터 증가 없이 512개의 입력 비디오 프레임까지 확장할 수 있다.

우리의 접근 방식은 여러 잘 확립된 멀티모달 벤치마크에서 state-of-the-art 성능을 달성한다. 이는 압축적인 representation 학습, 오디오-비디오 feature representation의 시퀀스 길이 제어, 그리고 시간적 종속성 모델링을 통해 미디어 입력의 높은 연산 요구 사항을 효과적으로 해결한다.

1. Introduction

멀티모달 모델은 여러 다양한 소스의 신호를 결합하는 것을 목표로 하며, 이는 모델을 범용적(universal)이면서도 실용적인 애플리케이션에 유용하게 만든다. 그러나 이러한 모달리티들은 다양한 특성을 가지고 있으며, 단일 모델로 균일하게 결합하기 어렵다.
예를 들어, 비디오와 텍스트는 샘플링 속도가 다르다: 비디오는 초당 많은 프레임을 가지지만, 텍스트나 설명, 제목과 같은 다른 유형의 전역적(global) 컨텍스트는 비디오당 한 번만 제공되거나 비디오와 비동기적으로 제공될 수 있다. 또한 비디오는 입력의 더 큰 부분을 차지한다.
동시에, 비디오와 오디오는 자연스럽게 함께 발생하며 (거의) 동기적으로 나타난다. 이들은 대략적으로 정렬되어 있으며 상호 보완적이다. 이러한 **시간적 동시 발생(co-occurrence)**은 공동 학습에 기여하고, 전역 텍스트 신호보다 더 자주 적용되는 풍부한 self-supervisory 학습 신호로 작용할 수 있다.
따라서 이상적으로는 이러한 모달리티들이 서로 다른 주파수의 입력을 더 적절하게 처리하고, 더 풍부한 모달리티에 더 많은 파라미터를 할당하는, 다르게 동기화된 모델 구성 요소에 의해 처리되어야 한다.

Figure 1. 시간 정렬된 비디오 및 오디오 모달리티의 시간적 autoregressive 학습과 **autoregressive 텍스트 모델링으로부터의 분리(decoupling)**는 더 작은 크기에서 더 효과적인 멀티모달 모델을 가능하게 하며, 더 긴 비디오로의 확장을 이끈다.

텍스트 입력 시퀀스가 autoregressive하게 처리되는 대규모 language model의 성공에 따라, 많은 최신 멀티모달 모델들은 autoregressive 텍스트 모델을 재사용하며, 다른 모달리티를 embedding [2, 7, 27, 29, 37, 51] 형태로 입력하거나, 시각 입력을 토큰화하여 텍스트 토큰 시퀀스와 함께 처리한다 [1, 41, 53, 69, 72].
그러나 정보량의 불균형이 크고, 텍스트 시퀀스를 인코딩/디코딩하는 데 적합한 모델들은 고도로 압축된 이미지 또는 비디오 feature만 처리한다 [2, 33]. 예를 들어, Flamingo 모델 [2]은 비디오 feature를 크게 subsample하여, 이미지 및 비디오 입력에 전체 파라미터의 약 1%만을 할당하고 나머지는 텍스트 처리에 사용한다.
대안적으로, 각 프레임을 인코더 또는 토크나이저를 통해 독립적으로 실행하여 비디오를 처리하는 방법들은 제한된 수의 프레임만 처리할 수 있다 [40, 64]. 더 긴 입력의 경우, 이러한 표현은 모달리티를 적절하게 나타내기에 불충분하며, 이는 미세하거나 장거리 종속성(long-range dependencies)을 모델링하는 능력을 본질적으로 제한한다.

우리는 여기서 오디오-비디오-텍스트 멀티모달 모델을 제안한다. 이 모델에서는 autoregressive 모델링을 두 가지 구성 요소로 분리한다: (1) 시간 정렬된 모달리티(예: 오디오 및 비디오)를 위한 구성 요소: 이들은 시간적으로 autoregressive하게 처리된다. (2) 시간 정렬되지 않은 문맥적 모달리티(예: 텍스트)를 위한 autoregressive 구성 요소 (Fig. 1). Cross-attention 가중치는 이러한 구성 요소들 간의 학습을 조율한다. 이러한 **분리(decoupling)**는 모델 내에서 더 나은 파라미터 분배를 가능하게 하여, 미디어 모달리티(비디오 및 오디오)에 충분한 용량을 할당하고 전반적으로 더 작은 모델을 만든다.
또한, 우리는 시간 정렬된 모달리티를 시간 세그먼트로 분할한다. 여기서 오디오-비디오 표현은 시간적으로 autoregressive하게 모델링되기 전에 공동으로 학습된다. 이를 위해 우리는 Combiner라고 불리는 오디오와 비디오를 위한 공동 feature 학습 메커니즘을 도입한다. Combiner는 두 모달리티의 feature를 융합하여 더 압축된 표현을 생성한다. 우리는 비디오의 동적인 특성을 포착하기 위해 원시 미디어 입력에서 저수준의 시공간(spatio-temporal) 표현을 추출하고, 이를 동시 타임스텝 내의 오디오 feature와 결합한다. Combiner는 효율적인 오디오+비디오 표현의 필요성과 미디어 콘텐츠를 보존할 만큼 충분히 표현력 있는 표현의 필요성 사이의 균형을 효과적으로 맞춘다. 이는 비디오 및 기타 동시 모달리티의 이벤트와 활동을 충분히 표현하며, 후속 autoregressive 모델에 의해 처리될 수 있어 장거리 종속성(long-range dependencies) 학습을 가능하게 한다. 우리 모델은 서로 다른 속도로 멀티모달 입력을 소비할 수 있으며, 더 긴 비디오에도 잘 확장된다. 우리의 기여는 다음과 같다:

Autoregressive 멀티모달 모델: 학습을 시간 정렬된 미디어 모달리티를 위한 autoregressive 모델링과 시간 정렬되지 않은 문맥적 모달리티를 위한 autoregressive 모델링으로 세분화한다.
Combiner를 통한 공동 feature 표현 학습: 효율적이면서도 충분히 표현력 있는 비디오+오디오 표현 학습의 균형을 맞춘다.
모델 파라미터 증가 없이 128-512 프레임으로 학습하는 것을 시연한다. 이는 8개 또는 32개 프레임을 사용하는 기존 멀티모달 모델 [13, 64]과 대조적이다. 우리 모델은 여러 벤치마크에서 state-of-the-art 성능을 능가하며, 특히 오디오-비디오-텍스트 데이터셋과 긴 비디오 데이터셋에서 큰 차이를 보인다.

비디오-언어 이해를 위한 아키텍처는 일반적으로 joint Transformer를 사용하며, 여기서 비디오 입력은 텍스트 토큰과 함께 입력되어 autoregressive 방식으로 처리된다 [11, 71]. 이는 종종 시각 입력을 토큰화함으로써 이루어진다. 비디오-텍스트 사전학습(pretraining) 접근 방식 [26, 30-32, 50, 54]은 masked token modeling 및 재구성 [11], 멀티모달 입력에 대한 cross-attention을 이용한 마스킹 [2], 또는 contrastive learning [10, 50, 62, 71]을 사용한다. 시각 합성 모델은 픽셀 단위 예측을 학습하거나 [48], 이미지 또는 비디오에서 학습된 discrete token을 사용하여 [56, 57, 65] autoregressive 모델을 광범위하게 활용해왔다. 다른 모델에서는 encoder-decoder 또는 decoder-only 아키텍처가 이미지-텍스트 모델을 비디오-텍스트 모델로 확장하며 [23, 40, 51, 64], 여기서 비디오는 개별 프레임으로 처리된 후 결합된다. 일부 아키텍처는 대신 전체 비디오 신호(일반적으로 embedding 형태)를 추출한 후 모델에 입력한다 [62]. 또 다른 옵션은 projection 또는 re-tokenization layer를 부착하는 것인데, 예를 들어 Flamingo의 Perceiver [2]처럼 모델에 추가되는 visual token의 양을 줄이는 방식이다. 우리의 접근 방식은 미디어 입력 feature를 공동으로, 그리고 시간적으로 학습하도록 특별히 설계된 구성 요소를 가지고 있어, 더 추상적인 표현을 생성하고 긴 비디오 모델링에 적합하다는 점에서 크게 다르다.

멀티모달 오디오-비디오-텍스트 모델 또한 인기를 얻고 있다 [16-18, 45, 72]: UAVM [16]은 오디오와 비디오의 joint learning을 제안하며, 두 신호 모두 재사용 가능한 invariant Transformer 모듈을 구축한다. Multimodal Transformer [47]는 비디오-오디오-텍스트 데이터의 모든 쌍에 대한 cross-modal learning을 위한 cross-attention 메커니즘을 제안하며, Pellegrain et al. [35]은 이를 더 긴 시퀀스로 확장한다. Zellers et al. [72]은 joint multimodal 오디오-비디오-텍스트 학습을 시연하지만, 텍스트와 오디오만 정렬한다. Gong et al. [17]은 contrastive 오디오-비디오 학습을 사용하는 반면, Huang et al. [18]은 masked autoencoder를 오디오-비디오 학습에 사용한다. 두 접근 방식 모두 오디오 비디오 입력을 2D 패치로 독립적으로 토큰화하여 추가 처리에 사용한다. 오디오-비디오 신호에 대한 contrastive learning은 시간 정렬(time-alignment)을 활용하며 [22, 42], 오디오-비디오 late fusion 또한 일반적이다 [36].

우리의 연구는 long-form 비디오 이해 [46, 58]와 관련이 있다. Long-form 비디오는 계층적 feature 학습을 통해 처리되어 왔다. 예를 들어, Temporal Window Attention

Figure 2. Mirasol3B 모델 아키텍처는 **오디오 및 비디오와 같이 시간 정렬된(time-aligned) 모달리티를 위한 autoregressive 모델(왼쪽)**과 **여전히 순차적이지만 정렬되지 않은 컨텍스트 모달리티(예: 텍스트)를 위한 autoregressive 모델(오른쪽)**로 구성된다. 시간 정렬된 모달리티는 청크(chunk)로 분할된다(왼쪽). 이를 통해 비디오/오디오 시간 동기화 입력에 적절한 계산 용량을 제공하며, 시간적으로 autoregressive하게 처리한 후 정렬되지 않은 텍스트를 위한 autoregressive decoder(오른쪽)와 융합한다. Combiner는 압축된 표현의 필요성과 시간적으로 충분히 정보성 있는 feature를 처리할 수 있도록 하는 것 사이의 균형을 맞추면서 joint feature learning을 수행한다.

[46]에서는 의존성이 로컬하게 학습된 후 더 높은 수준의 cross-attention 모듈로 전파된다. Ashutosh et al. [4]은 다른 계층적 수준에서 contrastive learning을 제안한다. **Gao et al. [13]은 비디오를 분할한 다음 feature를 작은 표현으로 풀링(pooling)**한다. 긴 비디오를 위한 memory-augmented 모델 [59]은 학습의 각 단계에서 참조될 수 있도록 학습 가능한 '메모리'에 이전 컨텍스트를 축적한다. 우리의 연구는 모달리티 내에서 중요한 feature를 로컬하게, 그리고 공동으로 학습하는 균형 잡힌 접근 방식을 제안함으로써 기여한다.

3. Approach

Autoregressive model은 시퀀스 형태로 나타나는 데이터에 적합한 강력한 생성 모델로, 이전 값에 조건화된 현재 값의 확률을 모델링한다. 비디오 및 오디오 정보는 순차적이지만 대략적으로 시간 동기화되어 있다. 동시에 텍스트와 같은 다른 양식(modality)은 비디오 전체에 대한 맥락으로 전역적으로 제공될 수 있으며, 특정 부분보다는 전체 비디오에 적용될 수 있다. 다양한 멀티모달 입력 모델링의 어려움을 해결하기 위해, 우리는 autoregressive 모델링을 세분화하여 별도의 autoregressive 모델을 학습하는 방식을 제안한다:

**시간 정렬된 양식(audio-video)**을 위한 모델 (Sec. 3.3),
시간적으로 반드시 정렬되지는 않지만 여전히 순차적인 양식을 위한 모델 (Sec. 3.4).

이들 간의 학습은 cross-attention 메커니즘에 의해 조정되며, 여기서 audio+video 입력에는 훨씬 더 많은 파라미터가 할당되고 시간적으로 적절하게 모델링된다. Combiner라고 불리는 학습 모듈(Sec. 3.2)은 비디오/오디오 스니펫의 하위 수준 신호를 결합한다. 여기서 정보는 시공간적으로 처리되어, 입력의 동적 변화와 특히 관련된 feature를 추출한다.

아키텍처 개요. 높은 수준에서 아키텍처는 두 가지 주요 학습 구성 요소로 구성된다 (Fig. 2): 첫 번째는 (거의) 동기화된 멀티미디어 입력(예: video+audio)을 처리하고 시간적으로 입력을 결합하도록 설계된 autoregressive 구성 요소이다 (Fig. 3). 비디오 및 오디오 신호를 처리하고 더 긴 비디오/오디오 입력을 수용하기 위해, 이들은 더 작은 청크(시간적으로 대략 동기화됨)로 분할되며, 이에 대해 아래 설명된 Combiner를 통해 공동 오디오-시각 표현이 학습된다 (Fig. 4). 두 번째 구성 요소는 맥락(context) 또는 시간적으로 정렬되지 않은 신호(예: 전역 텍스트 정보)를 처리하며, 이들은 종종 여전히 순차적이다. 이 또한 autoregressive이며, 결합된 잠재 공간을 cross-attention 입력으로 사용한다.

모델 입력. 우리는 $N$ 프레임의 입력 비디오 시퀀스 $\boldsymbol{v}=\left\{\boldsymbol{v}_{1}^{f}, \boldsymbol{v}_{2}^{f}, \ldots \boldsymbol{v}_{N}^{f}\right\}$ 와 $M$ 타임스텝의 오디오 파형 신호 $\boldsymbol{a}=\left\{\boldsymbol{a}_{1}^{f}, \boldsymbol{a}_{2}^{f}, \ldots \boldsymbol{a}_{M}^{f}\right\}$ 를 가진다. 여기서 오디오 신호는 비디오 재생 시간 동안 캡처되며 주어진 비디오 입력에 해당한다. 추가적으로 우리는 비디오/오디오와 관련이 있고 task에 따라 달라질 수 있는 입력 텍스트 시퀀스 $\boldsymbol{t}=\left\{\boldsymbol{t}_{1}^{f}, \boldsymbol{t}_{2}^{f}, \ldots \boldsymbol{t}_{P}^{f}\right\}$ 를 가진다 (예: 설명, 질문-답변 쌍, 메타 정보).

미디어 입력 분할. 비디오 시퀀스를 효율적으로 처리하고 시간적으로 feature의 상관관계를 학습하기 위해, 우리는 입력 비디오를 $T$ 개의 겹치지 않는 세그먼트 또는 청크로 분할한다. 여기서 $\boldsymbol{v}_{t}$ 와 $\boldsymbol{a}_{t}$ 는 각 세그먼트당 비디오 및 오디오 입력을 나타낸다 ( $K=N / T$ 라고 하자). 각 청크는 두 타임스탬프 사이의 모든 입력 데이터(즉, 비디오 및 오디오 스니펫)를 다음과 같이 캡처한다: $\underbrace{\boldsymbol{v}_{1}^{f}, \boldsymbol{v}_{2}^{f}, \ldots, \boldsymbol{v}_{K}^{f}}_{\boldsymbol{v}_{1}}, \underbrace{\boldsymbol{v}_{K+1}^{f}, \boldsymbol{v}_{K+2}^{f}, \ldots, \boldsymbol{v}_{2 K}^{f}}_{\boldsymbol{v}_{2}}, \ldots \underbrace{\boldsymbol{v}_{(T-1) K+1}^{f}, \ldots, \boldsymbol{v}_{N}^{f}}_{\boldsymbol{v}_{T}}$ ,

Figure 3. 시간적으로 비디오 및 오디오의 Autoregressive 모델링.

따라서 비디오는 대신 청크 $\boldsymbol{v}= \left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots \boldsymbol{v}_{T}\right\}$ 로 표현되며, 더 구체적으로 각 청크에서 잠재 feature가 추출되어 비디오를 표현한다 (Sec. 3.1에 설명된 대로). 오디오 신호에 대해서도 유사한 분할이 이루어지며, 오디오 신호는 비디오 청크와 시간적으로 동기화되도록 $T$ 개의 청크 $\boldsymbol{a}= \left\{\boldsymbol{a}_{1}, \boldsymbol{a}_{2}, \ldots \boldsymbol{a}_{T}\right\}$ 로 분할된다. 여기서도 우리는 원시 오디오 신호에서 오디오 feature가 추출될 것이라고 가정한다 (Sec. 3.1).

3.1. Audio/video features

비디오 feature
기존 모델들은 개별적으로 드문드문 샘플링된 프레임에서 비디오 정보를 캡처했는데, 이는 비디오 이해에 필수적인 시간 정보가 부족하고 동적인 이벤트들을 놓칠 수 있다는 한계가 있었다. 대안적으로, 3D convolution [57], sparse 3D tube [39] 등은 시공간적으로 학습하여 비디오 내의 핵심적인 동적 변화를 포착할 수 있다. 우리는 이러한 아이디어를 확장하여, 비디오 스니펫의 다양한 위치에서 시작하여 3차원 전체에 걸쳐 있는 sparse 3D tube [39]를 비디오에서 추출한다. 이 sparse 3D tube는 표준 2D patch와 함께 ViT encoder를 통해 처리된다. offset을 적용하는 대신, tube는 스니펫의 시작 부분에 적용된다. 각 비디오 청크 $t$ 에 대해 $\hat{\boldsymbol{v}}_{t}$ 를 이 청크의 시간 정렬된 feature로 나타내며, 따라서 $\hat{\boldsymbol{v}}=\left\{\hat{\boldsymbol{v}}_{1}, \hat{\boldsymbol{v}}_{2}, \ldots, \hat{\boldsymbol{v}}_{T}\right)$ 는 전체 비디오에 대한 시간 정렬된 비디오 표현이다.

오디오 feature
오디오 입력은 미리 정의된 주파수로 들어오며 다양한 방식으로 처리될 수 있다. 우리는 여기서 오디오를 spectrogram으로 표현한다. spectrogram은 비디오에서 사용된 초당 25프레임과 시간 대역이 일치하도록 생성되어, 비디오와 정렬된 스니펫으로 쉽게 분할될 수 있다. 각 스니펫의 spectrogram은 오디오 입력 projection layer를 거친 후 ViT 모델에 의해 처리된다. 이 ViT backbone은 비디오 feature에 사용된 것과 동일하다. 시각 구성 요소를 재사용하는 것은 이전에 이점이 있는 것으로 나타났다 [16]. 위와 유사하게, 우리는 $\hat{\boldsymbol{a}}_{t}$ 를 청크 $t$ 당 오디오 feature로, $\hat{\boldsymbol{a}}=\left\{\hat{\boldsymbol{a}}_{1}, \hat{\boldsymbol{a}}_{2}, \ldots, \hat{\boldsymbol{a}}_{T}\right)$ 를 전체 비디오에 대한 오디오 feature로 나타낸다.

Figure 4. Combiners: Transformer Combiner (왼쪽): 모든 feature가 Transformer에 입력되고, 더 적은 수의 $m$ 개 feature가 결합된 feature로 선택된다. TTM Combiner (오른쪽): TTM 메커니즘을 사용하여 메모리를 저장하고 각 시간 단계에 대한 $m$ 개의 결합된 feature를 계산한다. 이 과정은 각 단계마다 반복된다.

3.2. Modality Combiner

Combiner 모듈의 역할은 두 가지이다:

특정 시간 스니펫(snippet)에서 비디오 (및 오디오) feature들을 결합하여 공동 표현(joint representation)을 학습하는 것,
각 비디오/오디오 스니펫으로부터의 표현을 효과적으로 압축하여 모델이 더 긴 비디오에도 확장될 수 있도록 하는 것.

입력을 분할할 때, 각 modality(이 경우 비디오와 오디오)의 feature들은 (대략적으로) 시간 정렬된(time-aligned) latent feature $\hat{\boldsymbol{v}}=\left\{\hat{\boldsymbol{v}}_{1}, \hat{\boldsymbol{v}}_{2}, \ldots, \hat{\boldsymbol{v}}_{T}\right)$ 및 $\hat{\boldsymbol{a}}= \left\{\hat{\boldsymbol{a}}_{1}, \hat{\boldsymbol{a}}_{2}, \ldots, \hat{\boldsymbol{a}}_{T}\right\}$ 이다. 여기서 $\hat{\boldsymbol{v}}_{t}$ 또는 $\hat{\boldsymbol{a}}_{t}$ 에 포함된 데이터의 최대 타임스탬프는 $\hat{\boldsymbol{v}}_{t+1}$ 또는 $\hat{\boldsymbol{a}}_{t+1}$ 에 포함된 데이터의 최소 타임스탬프보다 작다.
명시적으로 $\hat{\boldsymbol{v}}_{t}$ 는 크기 $d$ 의 $f$ 개 feature로 구성되어 $(f, d)$ 의 형태를 가지며, $\hat{\boldsymbol{a}}_{t}$ 는 크기 $d$ 의 $s$ 개 feature로 구성되어 $(s, d)$ 의 형태를 가진다. Combiner의 역할은 이러한 시간 정렬된 모달 latent feature들을 더 작은 공유 latent feature 집합으로 매핑하는 것이다.
구체적으로, $\boldsymbol{u}= \left\{\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \ldots, \boldsymbol{u}_{T}\right\}$ 라고 할 때, $\boldsymbol{u}_{t}=\left(\hat{\boldsymbol{v}}_{t}, \hat{\boldsymbol{a}}_{t}\right)$ 는 $(n, d)$ 크기를 가지며 $n=f+s$ 는 모든 modality로부터의 모든 시간 정렬된 feature들의 집합이다. Combiner는 $\boldsymbol{u}$ 를 더 낮은 차원의 latent feature 공간 $\boldsymbol{x}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{T}\right\}$ 로 매핑하며, 여기서 $\boldsymbol{x}_{t}$ 는 $(m, d)$ 형태를 가지고 $n \gg m$ 이다.

Combiner는 비디오+오디오 feature의 차원을 줄이기 때문에, 각 chunk별 feature뿐만 아니라 시퀀스 내의 모든 feature를 효과적으로 사용할 수 있다. 그러나 Combiner가 생성하는 feature는 비디오/오디오의 순차적인 autoregressive 모델링에 사용될 것이므로, Combiner가 인과성(causality)을 깨뜨리지 않는 것이 중요하다. 따라서:

\boldsymbol{x}_{t}=\operatorname{Combiner}\left(\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \ldots, \boldsymbol{u}_{t}\right)

우리는 Combiner를 위해 두 가지 다른 아키텍처를 활용한다: 표준 Transformer 기반 아키텍처와 Token Turing Machine [44]에 기반한 메모리 기반 아키텍처로, 메모리 사용량을 줄이는 데 목적이 있다.

Causal Transformer Combiner
우리는 Combiner의 간단한 버전으로, $R$ 개의 layer (여기서는 $R=8$ )로 구성된 표준 Transformer 모델을 탐구한다. 각 스텝 $t$ 에서, 이 모델은 원본 feature 집합 $\boldsymbol{u}_{t}$ 를 $\boldsymbol{x}_{t}$ 로 매핑하며, $\boldsymbol{x}_{t}$ 는 훨씬 낮은 차원, 즉 토큰의 수를 효과적으로 줄인다 (여기서는 $m=32$ ) (Fig. 4). Combiner의 입력은 비디오와 오디오의 latent feature이며, 이들은 Combiner에 입력되기 전에 연결된다. 우리는 여기서 미래 타임스탬프(즉, $>t$ )의 입력을 마스킹하는 causal 버전의 Transformer를 특별히 구현한다. Transformer의 attention 메커니즘은 나중에 Sec. 3.3.1에서 설명된 대로 (Eq. (8) 사용), time-chunk 수준에서 feature를 마스킹하도록 수정된다. 따라서 Eq. (2)와 같이 $\boldsymbol{u}_{t}$ 및 이전 타임스텝의 모든 feature가 $\boldsymbol{x}_{t}$ 의 각 출력 feature를 계산하는 데 사용된다. 이는 인과성을 존중하면서 모든 modality 입력에 attention 메커니즘을 공동으로 적용하는 효과를 가진다.

Token Turing Machine Combiner
Token Turing Machine (TTM) [44]은 Transformer와 토큰 기반 연산을 사용하는 recurrent sequential model이다. 이는 feature 집합으로서 외부 '메모리' $M_{t}$ 를 유지하며, 매 타임스텝마다 읽기(reading) 및 쓰기(writing)를 통해 이를 업데이트한다. 각 타임스텝에서 입력 $\boldsymbol{u}_{t}$ 가 주어지면, 먼저 입력 feature와 메모리 feature로부터 처리할 feature를 '읽는다'. 이러한 feature $\boldsymbol{z}_{t}$ 는 '프로세서'로 전달되며, 이는 표준 Transformer로 구현되어 중간 출력 feature 집합 $\boldsymbol{o}_{t}$ 를 생성한다. 이 중간 출력은 $M_{t}$ 를 업데이트(즉, 메모리 '쓰기')하고 최종 출력 $\boldsymbol{x}_{t}$ 를 생성하는 데 사용된다.

\begin{aligned} \boldsymbol{z}_{t} & =\operatorname{Read}\left(\boldsymbol{u}_{t}, M_{t}\right) \\ \boldsymbol{o}_{t} & =\operatorname{Process}\left(\boldsymbol{z}_{t}\right) \\ M_{t+1} & =\operatorname{Write}\left(M_{t}, \boldsymbol{o}_{t}, \boldsymbol{u}_{t}\right) \\ \boldsymbol{x}_{t} & =\operatorname{Output}\left(\boldsymbol{o}_{t}\right) \end{aligned}

핵심 아이디어는 TTM 프로세서가 전체 feature 히스토리 $\left\{\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{t-1}\right\}$ 대신 메모리 $M_{t}$ 를 활용하여 출력을 생성하도록 하는 것이다. 일단 학습되면, 미분 가능한 읽기 및 쓰기 연산은 $M_{t}$ 가 이전 타임스텝 $\left\{\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{t-1}\right\}$ 의 중요한 feature를 저장하고 매 스텝마다 업데이트하도록 최적화된다.

우리는 TTM을 Combiner 모듈로 구현하여 $\boldsymbol{u}$ 를 순차적으로 결합한다. 'Process' 함수는 multi-head self-attention 및 MLP layer를 가진 표준 Transformer로 구현된다. 'Read', 'Write', 'Output' 함수는 TokenLearner [43] (Perceiver [20] 및 attention pooling [24]과 유사)로 구현된다. 우리는 메모리의 feature 수와 'Output' 함수의 feature 수를 개별적으로 제어할 수 있어 효율적인 Combiner 계산 및 feature 생성이 가능하다.

TTM Combiner의 주요 장점은 메모리 feature를 활용하여 $\boldsymbol{u}_{t}$ 를 순차적으로 처리한다는 점이다. 이러한 메모리 feature의 수는 일반적으로 전체 히스토리 feature의 총 수 $\left(\left\{\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{t-1}\right\}\right)$ 보다 훨씬 적다 (예: 256개 대 약 10,000개). 이는 TTM을 모델에 자연스럽게 적합하게 만들 뿐만 아니라, TTM Combiner의 총 시간 복잡도를 Transformer의 $O(t)$ 또는 $O\left(t^{2}\right)$ 대신 $t$ 에 대해 상수(constant)로 감소시킨다. 우리는 TTM Combiner가 학습 및 추론 모두에서 메모리를 절약하여 약 30% 적은 메모리를 사용하고 런타임을 약 18% 단축시킨다는 것을 관찰했다.

3.3. Time-Aligned Video/Audio Autoregressive Modeling

우리는 시간 정렬된 비디오와 오디오의 autoregressive 모델링에 대해 설명한다. 우리는 이전 시간 간격의 feature representation에 기반하여 특정 시간 간격에 해당하는 비디오/오디오 representation을 조건화하는 autoregressive 모델링 전략을 적용한다. 이러한 representation은 Section 3.2에서 설명된 Combiner에 의해 공동으로 학습된다.
앞서 언급했듯이, 비디오는 먼저 $T$ 개의 더 작은 비디오 스니펫으로 분할된다. 각 스니펫은 4-64 프레임 크기일 수 있다 (오버랩은 가능하지만 현재 사용되지 않는다). 우리는 동일한 비디오 파티션에서 시공간 정보를 **잠재 비디오 feature $\hat{\boldsymbol{v}}_{t}$ **와 **오디오 feature $\hat{\boldsymbol{a}}_{t}$ **로 추출하고, Combiner를 적용하여 $x_{t}$ 를 생성한다.
각 비디오 청크 $x_{t}$ 에 대한 feature representation은 autoregressive 모델에 순차적으로 입력되며, 각 단계에서 이전 입력과 autoregressive 모델 내에서 학습된 잠재 representation에 해당하는 잠재 벡터 $\boldsymbol{h}$ 를 조건으로 하여 이전 단계의 feature를 재구성한다:

p(\boldsymbol{v}, \boldsymbol{a})=\prod_{t=1}^{T} p\left(\boldsymbol{v}_{t+1}, \boldsymbol{a}_{t+1} \mid \boldsymbol{h}_{t}\right) p\left(\boldsymbol{h}_{t} \mid \boldsymbol{x}_{t}\right) p\left(\boldsymbol{x}_{t} \mid \boldsymbol{v}_{t}, \boldsymbol{a}_{t}\right)

여기서

$\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots \boldsymbol{v}_{T}\right\}$ 와 $\left\{\boldsymbol{a}_{1}, \boldsymbol{a}_{2}, \ldots \boldsymbol{a}_{T}\right\}$ 는 비디오 및 오디오의 feature representation이며,
$p\left(\boldsymbol{x}_{t} \mid \boldsymbol{v}_{t}, \boldsymbol{a}_{t}\right)$ 는 Combiner에 의해 추정되고,
$p\left(\boldsymbol{h}_{t} \mid \boldsymbol{x}_{t}\right)$ 는 latent causal model에 의해 추정되며,
$p\left(\boldsymbol{v}_{t+1}, \boldsymbol{a}_{t+1} \mid \boldsymbol{h}_{t}\right)$ 는 modality reconstruction model (아래 설명)에 의해 추정된다.

이러한 방식은 시퀀스 내의 이전 representation(시간상)으로부터 학습하고 다음 단계의 feature representation을 예측하는 것을 목표로 한다 (Fig. 3).
autoregressive 모델링은 비디오와 이미지에 사용되어 왔지만, 종종 픽셀 단위로 수행되어 [55] 매우 비효율적이며 단기적인 종속성만 포착한다. 우리의 접근 방식은 autoregressive 모델링과 Combiner를 통해 이러한 두 가지 단점을 모두 해결한다.
Combiner는 이전 청크의 정보도 누적하지만, autoregressive 모델은 Combiner에서 이미 학습된 feature를 사용하여 더 높은 추상화 수준에서 작동한다. ablation 연구에서 우리는 두 메커니즘이 함께 작동할 때 가장 유익하다는 것을 발견했다.

Latent Causal Modeling
autoregressive latent model은 $\prod_{t=1}^{T} p\left(\boldsymbol{h}_{t} \mid \boldsymbol{x}_{t}\right)$ 를 추정한다. 이는 $\boldsymbol{x}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{T}\right\}$ 에 autoregressive Transformer를 적용하여 $\hat{\boldsymbol{h}}=\left\{\hat{\boldsymbol{h}}_{1}, \hat{\boldsymbol{h}}_{2}, \ldots, \hat{\boldsymbol{h}}_{T}\right\}$ 를 생성함으로써 이루어진다. 여기서 $\hat{\boldsymbol{h}}_{t}$ 의 목표는 $\boldsymbol{x}_{t+1}$ 이므로, $\boldsymbol{x}_{2, \ldots, T}$ 와 $\hat{\boldsymbol{h}}_{1, \ldots, T-1}$ 의 차이가 Combiner 출력 $\hat{\boldsymbol{x}}$ 의 잠재 representation을 제어하는 손실로 사용된다.
우리는 데이터를 시간상 autoregressive하게 모델링하므로, 학습 중 attention 메커니즘에 주의해야 한다. Transformer는 Section 3.3.1, Eq. (8)에 설명된 수정된 attention 메커니즘을 사용한다.

Modality Reconstruction
autoregressive modality reconstruction model은 $\prod_{t=1}^{T} p\left(\boldsymbol{v}_{t+1}, \boldsymbol{a}_{t+1} \mid \hat{\boldsymbol{h}}_{t}\right)$ 를 추정한다. 이는 $\hat{h}$ 에 별도의 Transformer를 적용하여 오디오 및 비디오 신호 $\hat{\boldsymbol{v}}$ 와 $\hat{\boldsymbol{a}}$ 의 재구성을 생성함으로써 이루어지며, 이는 아래에 **선택적 손실(optional loss)**로 추가된다. 계산 비용을 절약하기 위해, 비디오 입력 $\boldsymbol{v}$ 는 재구성 목표를 위해 $\boldsymbol{v}^{\text {small }}$ 로 다운샘플링되므로, 실제 재구성은 $\hat{\boldsymbol{v}}^{\text {small }}$ 이다.

3.3.1 Attention mechanisms for Autoregressive modeling

autoregressive 모델은 시간에 따라 학습되므로, 인과성(causality)을 만족시키기 위해 마스킹(masking)이 수행된다. 마스킹 시에는 청크(chunk) 내부 및 청크 간의 attention 메커니즘을 수정해야 한다. 이는 Combiner와 Autoregressive 학습(Section 3.2 및 Section 3.3) 모두에 적용된다.
autoregressive 모델링을 위해 feature를 마스킹할 때, 각 feature를 개별적으로 마스킹하는 표준 패턴은 동일한 time-chunk 내의 feature들 간에도 마스킹을 적용하게 된다. 이는 여전히 인과성을 만족시키지만, 동일한 time-chunk 내의 feature들이 time-chunk 내에서의 위치를 기반으로 상호작용하는 것을 불필요하게 제한하여 모델의 표현력을 저해한다.
동일한 청크 내의 feature들이 상호작용할 수 있도록, time-chunk $t$ 에 속하는 모든 feature $\boldsymbol{i}$ 와 다른 feature $\boldsymbol{j}$ 사이의 autoregressive mask는 다음과 같이 계산된다 ( $N$ 은 feature의 개수, $T$ 는 time-chunk의 개수):

\operatorname{mask}_{j}^{i}= \begin{cases}0 & j<=\operatorname{ceil}(t * T / N) * N / T \\ 1 & \text { otherwise. }\end{cases}

3.4. Combining Aligned and Non-aligned Autoregressive Modeling

텍스트 또는 다른 문맥 정보는 비디오 및 오디오 양식과 시간적으로 반드시 정렬되지 않을 수 있다. 이는 여전히 순차적이다. 따라서 여기서는 텍스트 표현과 시각-오디오 정보를 결합하는 데 전념하는 별도의 autoregressive model로 모델링된다.
입력 텍스트 $\boldsymbol{t}=\left\{\boldsymbol{t}_{1}^{f}, \boldsymbol{t}_{2}^{f}, \ldots \boldsymbol{t}_{P}^{f}\right\}$ 에 대한 tokenization이 제공되어, 길이 L의 tokenized 텍스트 시퀀스 $t= \left\{\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \ldots \boldsymbol{w}_{L}\right\}$ 를 얻는다고 가정할 때, 우리는 오디오 및 비디오에 조건화된 텍스트를 순차적으로 모델링한다.
비디오/오디오 autoregressive model의 출력을 결합하기 위해 cross-attention 전략 [2]을 사용한다. 여기서 이전 연구와 달리, latent causal model에서 얻은 모든 feature representation $\hat{\boldsymbol{h}}=\left\{\hat{\boldsymbol{h}}_{1}, \hat{\boldsymbol{h}}_{2}, \ldots, \hat{\boldsymbol{h}}_{T}\right\}$ 이 주 텍스트 모델에서 사용된다.

p(\boldsymbol{w} \mid \hat{\boldsymbol{h}})=\prod_{l=1}^{L} p\left(\boldsymbol{w}_{l} \mid \boldsymbol{w}_{l-1}, \hat{\boldsymbol{h}}\right)

autoregressive 텍스트 모델은 입력 텍스트 시퀀스 $\boldsymbol{w}= \left\{\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \ldots, \boldsymbol{w}_{L}\right\}$ 에 Transformer를 적용하고, latent model 출력 $\hat{\boldsymbol{h}}$ 를 cross-attention으로 사용하여 $\hat{\boldsymbol{w}}$ 를 생성함으로써 Equation (9)를 추정한다. 손실 함수는 타겟 $\boldsymbol{w}$ 와 출력 텍스트 시퀀스 $\hat{\boldsymbol{w}}$ 사이의 표준 cross-entropy loss이다. 이는 cross-attention layer를 통해 Combiner의 latent representation $\hat{\boldsymbol{h}}$ 에 추가적인 피드백을 제공한다.
모델의 모든 부분이 autoregressive이므로, 스트리밍 비디오에 자연스럽게 적용 가능하다는 점이 주목할 만하다.

3.5. Model Losses

우리는 주로 두 가지 loss를 사용하며, 각 loss는 해당 autoregressive 모델을 학습시킨다:

**시간 정렬된 입력에 대한 잠재 공간 재구성 loss (Latent space reconstruction loss for time-aligned inputs)**는 autoregressive 설정에서 $\hat{\boldsymbol{h}}_{t}=\boldsymbol{x}_{t+1}$ 이 되도록 $\boldsymbol{x}_{2, \ldots, T}$ 와 $\hat{\boldsymbol{h}}_{1, \ldots, T-1}$ 간의 차이를 나타낸다. 우리는 $L^2$ normalization을 적용한 후, feature vector 간의 dot product를 loss로 사용한다 (즉, cosine similarity).

**정렬되지 않은 텍스트 cross entropy loss (Unaligned text cross entropy loss)**는 정렬되지 않은 텍스트 출력 $\boldsymbol{w}$ 와 $\hat{\boldsymbol{w}}$ 간의 표준 cross-entropy loss이다.

또한, 우리는 Section 3.3에서 설명된 대로 모달리티 재구성(modality reconstruction)을 장려하기 위한 loss를 구현한다. 더 구체적으로, 우리는 비디오에서 일반적으로 사용되는 **비디오 재구성 loss (video reconstruction loss)**를 추가한다 (오디오 재구성 loss도 추가할 수 있다). 위에서 언급된 잠재 공간 재구성 loss와 유사하게, 비디오 재구성 loss는 autoregressive 설정에서 $\hat{\boldsymbol{v}}_{t}^{\text {small }}=\boldsymbol{v}_{t+1}^{\text {small }}$ 이 되도록 $\hat{\boldsymbol{v}}^{\text {small }}$ 과 $\boldsymbol{v}^{\text {small }}$ 간의 차이를 근사한다. 우리는 비디오 재구성 loss에 잠재 공간 재구성 문제와 동일한 거리 측정 방식을 사용한다. 이 loss는 특히 생성 task에 유용할 수 있지만, 우리 모델의 경우 대부분 잠재 공간 재구성 loss에 의해 subsume된다는 것을 발견했다.

이러한 loss들은 가중치를 부여하여 최종 loss를 계산한다.

3.6. Implementation details

모델 (Model)
우리의 모델은 3B 파라미터를 가지며, 오디오를 제외하면 2.9B 파라미터이다. 이 중 절반이 조금 넘는 파라미터가 오디오+비디오 autoregressive 모델에 할당된다.
우리 모델은 일반적으로 **128 프레임(16개 chunk, 각 8프레임)**으로 작동하지만, **더 긴 비디오의 경우 더 많은 프레임(예: 512 프레임 = 16개 chunk $\times$ 32프레임)**도 처리할 수 있다.
우리는 **Combiner dimension $m=32$ **를 사용한다.
causal model의 latent reconstruction을 안정화하는 데 도움이 된다는 것을 발견하여, dropout regularization의 한 형태로 Combiner 출력 feature에 0.75% 비율로 랜덤 마스킹을 적용한다.
우리 모델의 설계(partitioning 및 Combiner) 덕분에, 프레임 수를 늘리거나, chunk 크기, chunk 개수 등을 늘려도 파라미터 수는 미미하게 증가할 뿐이다.

Method	Accuracy (%)
Just Ask [66]	41.5
ALPRO [26]	42.1
MERLOT [71]	43.1
VIOLETv2 [12]	44.5
VindLU [9]	44.6
VideoOFA [8]	45.4
GIT2 [51]	45.6
Iterative Co-Tok [38]	45.7
VideoCoca [64]	46.3
All-in-one [49]	46.8
UMT-L [30]	47.1
InternVideo [54]	47.1
Flamingo [2]	47.4
M-PLUG2 [62]	48.0
Mirasol3B - TTM	50.01
Mirasol3B	50.42

Table 1. MSRVTT-QA에서의 Video QA 결과. 회색으로 표시된 결과는 VideoQA를 분류 문제로 간주한 것이다.

chunk 수를 늘리는 것은 파라미터 증가로 이어지지는 않지만, 메모리 사용량을 증가시키는데, 이는 Combiner, 특히 TTM의 중요성을 강조한다.
모델 학습 (Model training): 모델은 웹에서 수집된 noisy한 비디오-텍스트 쌍으로 구성된 Video-Text Pairs (VTP) 데이터셋 [2]으로 사전학습된다. 우리는 전체 데이터의 약 12%인 3백만 개의 샘플만을 사용한다.
사전학습 동안 모든 loss는 동일한 가중치를 부여받는다.
fine-tuning 시에는 unaligned text loss의 가중치를 10배 증가시켜, 학습 loss가 최종 평가와 더 잘 정렬되도록 하였으며, 이는 실험적으로도 확인되었다.

4. Experiments

우리는 표준 Video Question Answering (VideoQA) 벤치마크, long-video VideoQA 벤치마크, 그리고 Audio+Video 벤치마크에 대한 결과를 보고한다. [25, 28]에 따라 open-ended text-generative 평가 방식을 사용한다. 우리 모델은 자유 형식의 텍스트 응답을 생성하며, 이는 정확한 일치(exact match) 여부를 기준으로 목표 응답과 비교된다. 이 방식은 분류(classification) 설정보다 더 도전적이다. 왜냐하면 모델이 올바른 답변(예: 원하는 답변의 동의어)을 생성하더라도, 그것이 목표 클래스에 포함되지 않으면 정확한 답변으로 간주되지 않을 수 있기 때문이다. 이 평가는 더 일반적이고 폭넓게 적용 가능하다.

Video Question Answering
우리는 먼저 가장 널리 사용되는 Video QA 벤치마크인 **MSRVTT-QA VideoQA 데이터셋 [63]**에 대한 Video Question Answering 결과를 보고한다. 결과는 Table 1에 최고의 state-of-the-art (SOTA) 성능과 함께 제시되어 있다. 우리 방법은 이 도전적인 데이터셋에서 이전의 모든 방법들을 능가하며, 평가 시 유리한 분류 평가를 사용한 방법들까지 포함한다. 3B 미만의 파라미터 수를 가진 우리 모델은 **5B 규모의 GIT2 [51]**를 큰 차이로 능가하며, **80B 파라미터를 가진 매우 큰 Flamingo [2]**보다도 뛰어난 성능을 보인다 (직접적인 비교를 위해 Flamingo의 전체 fine-tuning 결과 [2]가 보고되어 있다). 이는 우리 모델 설계의 이점을 보여주는데, 훨씬 적은 파라미터와 그에 따른 훨씬 적은 연산량으로도 이러한 결과를 달성할 수 있음을 의미한다.

Long Video Question Answering
우리는 또한 long video 데이터셋에 대한 Video QA 결과를 보고한다. **ActivityNetQA [70]**는 비디오당 약 160초 길이의 더 긴 비디오를 포함한다. **NExT-QA [60]**는 약 44초 길이의 긴 비디오를 사용하여 복잡한 이벤트를 목표로 한다. 우리는 모델 크기를 늘리지 않고 **최대 512 프레임(예: 각 32프레임으로 구성된 16개의 청크)**을 샘플링한다. 결과는 Table 2, Table 3에 제시되어 있으며, 128 프레임과 512 프레임 모두에서 SOTA를 능가함을 보여준다. 더 많은 프레임을 사용할수록 명확한 성능 향상이 있으며, 모델 크기는 증가하지 않는다. 또한 Transformer Combiner 또는 TTM Combiner를 사용하든 관계없이 우수한 성능을 보인다.

Audio-Video 결과
Table 4는 Kinetics-Sound [3], VGGSound [6], Epic-Sound [19] 세 가지 Audio-Video 벤치마크에 대한 결과를 보여준다. 이 데이터셋들은 Audio-Video 분류(classification) 데이터셋이므로, 우리는 이 task를 open-ended 생성(generation)으로 처리한다. 즉, 'Classify the video audio clip.'이라는 텍스트를 입력하고, 출력으로 목표 클래스 이름(예: 'playing drums')을 기대하며, 정확히 일치하는 경우에만 정확한 답변으로 간주한다. 이전의 모든 연구에서 사용된 분류 방식과 달리, 더 도전적인 open-text 생성 평가 방식에도 불구하고, 우리는 모든 데이터셋에서 SOTA를 큰 차이로 능가한다.

Method	Acc %
Just Ask [66]	38.9
MERLOT [71]	41.4
FrozenBiLM [67]	43.2
VideoCoca [64]	56.1
Sing-Temp [25]	44.1
VindLU [9]	44.7
UMT-L [30]	47.9
Mirasol3B - 512 frames TTM	$\mathbf{4 9 . 85}$
Mirasol3B - 128 frames	$\mathbf{4 8 . 25}$
Mirasol3B - 512 frames	$\mathbf{5 1 . 1 3}$

Table 2. ActivityNet에 대한 Long Video QA 결과. 회색은 분류 설정을 나타낸다.

Method	(Acc %)
CLIP (single frame)	43.7
VQA-T [66]	52.32
AIO [49]	50.60
ATP [5]	54.3
VGT [61]	55.02
MIST - CLIP [13]	57.18
HiTeA [68]	63.1
Mirasol3B - 512 frames TTM	$\mathbf{7 3 . 2}$
Mirasol3B - 128 frames	$\mathbf{6 8 . 2}$
Mirasol3B - 512 frames	$\mathbf{7 2 . 0}$

Table 3. NExT-QA에 대한 Long Video QA 결과.

Method	Acc. %	Method	Acc. %	Method	Acc. %
		UAVM [16]	65.8	SSAST[19]	53.47
MBT [33] (A+V)	85.0	MMT [74]	66.2	ASF[19]	53.75
Mirasol3B (Sm, Video)	81.3	MAViL [18]	67.1	Mirasol3B (Audio)	62.4
Mirasol3B ( $\mathrm{Sm}, \mathrm{A}+\mathrm{V}$ )	85.0	ONE-PEACE [52]	68.2	Mirasol3B (Video)	72.4
Mirasol3B TTM (A+V)	88.3	Mirasol3B TTM (A+V)	66.4	Mirasol3B TTM (A+V)	79.4
Mirasol3B (A+V)	90.1	Mirasol3B (A+V)	69.8	Mirasol3B (A+V)	78.2

(a) Kinetics-Sound. (b) VGG-Sound. (c) Epic-Sound..

Table 4. Kinetics-Sound, VGG-Sound, Epic-Sound에 대한 Audio-Video 결과.
Model	Frames/Chunks	Acc.
Baseline	32/4	41.5
+ AR	32/4	43.2	Combiner type	Fr./Ch.	Acc.
+ Combiner	32/4	42.1	Perceiver	32/4	43.1
+ AR + Combiner	32/4	44.7	Transf.+CLS	32/4	43.7
+ Pretraining	32/4	45.2	Ours-Transf.	32/4	44.2
+ AR + Comb. + PT	32/4	47.9	Ours-TTM	32/4	44.8

(a) 제안된 구성 요소의 효과.

Model	Frames/Chunks	Acc.
Baseline	$64 / 1$	41.8
Ours-Autoreg.	$64 / 8$	45.1
Ours + BD	$64 / 8$	45.1
Ours-Autoreg.	$128 / 8$	45.8

(b) Combiner 유형.

Model	Fr./Ch.	Dim	Acc.
Ours-8	$32 / 4$	8	42.53
Ours-16	$32 / 4$	16	43.36
Ours-32	$32 / 4$	32	44.20
Ours-64	$32 / 4$	64	44.22

(d) Combiner 차원.

Table 5. MSRVTT-QA 데이터셋에 대한 Ablation study.

4.1. Ablations

ablation 연구(Table 5)는 이 아키텍처의 주요 동작을 이해하기 위해 비디오 및 텍스트 모델로 수행되었다. 우리는 연산 비용을 절약하기 위해 더 작은 모델과 구성, 그리고 동일한 batch size로 사전학습 단계를 2배 적게 사용했다 (자세한 내용은 보충 자료 참조).

주요 모델 구성 요소: 우리는 먼저 각 구성 요소의 효과를 연구했다 (Table 5a). baseline 모델 위에 autoregressive (AR) 모델, Combiner, 그리고 사전학습(pretraining)을 각각 추가했을 때 개별적으로 도움이 되며, 이 세 가지를 모두 조합했을 때 성능이 더욱 향상됨을 발견했다.

Combiner 유형 ablation: 우리는 Transformer 기반 (우리의 방식, CLS, Perceiver [2]) 및 TTM Combiner를 비교했다. CLS-token Combiner는 시퀀스 끝에 $m$ 개의 학습 가능한 feature를 추가하고, 전체 시퀀스를 Transformer를 통과시킨 후 이들의 값을 결합된 feature로 사용한다. 우리의 주요 Combiner는 Figure 4에 나와 있다. 우리는 직접적인 비교를 위해 동일한 설정을 사용했다. Table 5b는 우리가 제안한 Combiner가 가장 좋은 성능을 보임을 보여준다.

시간에 따른 Autoregressive 모델링: 우리는 모델의 Autoregressive 부분을 ablation했다. Table 5c는 비디오를 시간에 따라 autoregressive하게 청크(chunk) 단위로 처리하는 것이 전체 비디오를 한 번에 학습하는 것보다 더 유리하며, 성능이 크게 향상됨을 보여준다 (첫 두 행). 우리의 autoregressive 모델은 더 긴 비디오에 대해 실행 가능할 뿐만 아니라, 동일한 크기의 입력에 대해서도 더 유익하다. 청크당 더 많은 프레임은 성능 향상에 기여한다 (두 번째 및 네 번째 행). 우리는 또한 bidirectional (BD) 모델과 비교했으며, 성능이 autoregressive 부분과 동일하다는 것을 발견했다.

Combiner 크기 ablation: 우리는 Combiner가 각 timestep마다 출력하는 feature의 개수를 비교했다. 우리는 더 큰 Combiner 출력이 더 좋은 결과를 제공하는 경향을 발견했다 (Table 5d의 3-4행). 우리는 충분히 압축된 feature 길이와 충분히 표현력 있는 feature 길이 사이의 trade-off로 32를 선택했다.

5. Conclusions

우리는 멀티모달 autoregressive model을 제안한다. 이 모델은 autoregressive 모델링을 두 가지 구성 요소로 분리한다:

시간 정렬된(time-aligned) 모달리티(비디오, 오디오) 전용 구성 요소,
정렬되지 않은(non-aligned) 문맥적(contextual) 모달리티(텍스트) 전용 구성 요소.

긴 비디오/오디오 입력을 처리하기 위해, 우리는 미디어 입력을 분할하고 Combiner를 통해 이들을 함께 학습한다. 이 Combiner는 시퀀스 길이를 제어할 수 있게 해준다. 이 모델은 모델 크기를 늘리지 않고도 512 프레임을 처리할 수 있다. 우리의 접근 방식은 긴 비디오를 효과적으로 다룰 수 있을 뿐만 아니라, SOTA를 능가하며 기존 모델 대비 성능 향상을 달성한다.

A. Datasets details

본 논문에서 평가에 사용된 데이터셋은 다음과 같다:

MSRVTT-QA [63]는 약 1만 개의 비디오 클립과 24만 3천 개의 질문-답변 쌍으로 구성된 인기 있는 Video QA 데이터셋이다. 이 데이터셋은 MSRVTT 데이터셋에서 자동 생성된 질문-답변 쌍을 기반으로 하며, 어느 정도의 노이즈를 포함하고 있다. 비디오의 평균 길이는 약 14초이다.

ActivityNet-QA [70]는 더 긴 비디오 이해를 위한 일반적으로 사용되는 벤치마크이다. 이 데이터셋은 5,800개의 비디오와 5만 8천 개의 질문-답변 쌍을 포함한다. 비디오 길이가 훨씬 길어 더 길고 복잡한 장면을 포함하며, 비디오당 평균 길이는 약 160초이다.

NExT-QA [60] 데이터셋 또한 긴 비디오 이해를 다룬다. 이 데이터셋은 5,440개의 비디오와 약 5만 2천 개의 수동으로 주석된 질문-답변 쌍을 포함한다. 비디오의 평균 길이는 44초이다. NExT-QA는 비디오 내의 설명 및 내용과 관련된 질문 외에도, 이벤트 및 이벤트 시퀀스와 관련된 질문에 중점을 둔다. 예를 들어, 인과 관계('Why' 및 'How' 질문), 이벤트 순서와 관련된 시간적 질문, 또는 동시 활동 등과 관련된 질문들이 포함된다.

VGG-Sound [6]는 20만 개 이상의 비디오와 오디오 사운드를 포함하는 대규모 오디오-비디오 데이터셋이다. 이 데이터는 300개의 오디오 클래스를 가진 분류 task로 구성되어 있다.

Epic-Sound [19]는 Epic-Kitchens 데이터셋을 기반으로 하는 오디오-비디오 데이터셋이다. 7만 8천 4백 개의 예시와 44개의 타겟 클래스를 가지고 있다.

Kinetics-Sound [3]는 인기 있는 Kinetics-400 비디오 인식 데이터셋에서 파생된 데이터셋이다. Kinetics-Sound는 비디오와 함께 샘플링된 오디오 입력을 포함하며 36개의 클래스를 가지고 있다.

위에 언급된 모든 오디오-비디오 데이터셋은 본 논문에서 분류 task를 위한 데이터셋으로 구성되었다. 여기서 우리는 **클래스 출력(일반적으로 '문을 두드리는 소리'와 같이 활동, 악기 또는 소리 유형을 설명하는 짧은 구문)**을 사용하고, 이를 open-ended 텍스트 생성 task로 처리하여 오디오-비디오-텍스트 데이터셋으로 활용한다.

B. Additional ablations

Tab. 6은 추가적인 ablation 결과를 보여준다. 이 실험은 연산 비용 절감을 위해 전체 epoch의 절반만 학습된 모델로 수행되었다. 각 ablation 테이블 내의 모든 실험은 동일한 스텝 수로 진행되었다.

Autoregressive ablations, 총 차원 수 동일화
Tab. 6a에서 우리는 총 Combiner 차원 수를 동일하게 맞춘 상태에서 autoregressive 모델과 non-autoregressive 모델을 비교한다. 구체적으로, 전체 비디오가 $T$ 개의 chunk로 나뉘고 각 chunk의 Combiner 차원이 $K$ 일 때, 우리는 두 모델 간의 비교를 최대한 공정하게 하기 위해 총 $T * K$ 차원을 가진 non-autoregressive 모델과 비교한다.
실험 결과, 총 차원 수를 동일하게 맞추었을 때 autoregressive 모델이 더 유리함을 알 수 있다. 예상대로 더 많은 프레임이 유익하며, 이는 본 논문의 다른 발견들과도 일치한다. 또한, 다른 모든 조건이 동일할 때 더 많은 차원을 할당하는 것이 약간 더 이점이 있음을 확인했다.

Loss ablations: 우리는 학습 시 다른 loss 가중치를 사용했을 때의 결과를 비교한다 (Tab. 6b). 텍스트 생성 loss에 대한 가중치를 높이는 것이 전반적으로 유익함을 알 수 있다. 이 작업은 fine-tuning 단계에서만 수행되었다. 이 ablation 결과는 더 큰 모델을 fine-tuning할 때 unaligned text loss 가중치를 10.0으로 더 크게 설정하는 결정에 영향을 주었다.

C. Combiner Visualizations.

Figure Fig. 5에서는 우리가 탐구한 다양한 combiner들을 시각화하여 보여준다. Transformer combiner, CLS combiner, Perceiver combiner는 모두 Transformer 기반이며, 모든 비디오 및 오디오 feature를 입력으로 받아 $m$ 개의 결합된 feature로 축소한다. 우리는 본 논문의 Table 5에서 우리의 메인 combiner가 다른 두 combiner보다 우수한 성능을 보임을 확인했다. Perceiver combiner는 Perceiver resampling [20]을 적용하여 우리의 combiner를 변형한 것이다.
TTM combiner는 개념적으로 다르다: 이전의 모든 feature를 입력으로 받는 대신, 현재 시점의 feature만을 입력으로 받고, read 및 write 연산을 포함하는 memory mechanism을 사용하여 이를 업데이트한다. 그런 다음 MLP를 사용하여 $m$ 개의 결합된 출력 feature를 생성한다. 이 방식은 메모리 및 연산 사용량을 줄이지만, 때로는 정확도를 감소시킨다.

D. Additional Model and Implementation details

모델 세부 정보 (Model Details)
autoregressive text model은 약 1.3B 파라미터를 포함하며, 이 중 400M은 cross-attention 가중치에, 400M은 vocab embedding에 사용된다. 세부 사양은 다음과 같다: layer 수=18, model dims=1536, hidden dims=12288, heads=12, head dims=128.
오디오 관련 추가 가중치에는 약 100M 파라미터가 사용된다. 나머지 파라미터는 video input processor, combiner, causal latent model, video reconstruction model에 할당된다 (총 1.5B 파라미터 이상).
combiner, causal latent model, video reconstruction model은 128M 파라미터를 가진 Transformer이며, 세부 사양은 다음과 같다: layer 수=8, model dims=1024, hidden dims=4096, heads=16, head dims=64.
video chunk processor는 ViT-Huge를 따라 약 630M 파라미터를 가진다. convolutional tube는 1.5M 파라미터를 가지며, Transformer는 630M 파라미터를 가진다. Transformer의 세부 사양은 다음과 같다: layer 수=32, model dims=1280, hidden dims=5120, heads=16, head dims=80.
총 파라미터 크기는 3B 파라미터이다.

ablation 실험에 사용된 더 작은 모델은 main 모델과 동일한 combiner, causal latent model, video reconstruction model을 유지한다. 그러나 autoregressive text model은 128M 파라미터로 축소되며, combiner와 동일한 설정을 가진다. 이 모델은 20M의 cross-attention 가중치와 260M의 vocab embedding 파라미터를 가진다. 오디오 파라미터는 거의 동일하게 유지된다. video input processor는 ViT-Large로 축소되며, 이는 300M 파라미터를 가진다. 세부 사양은 다음과 같다: layer 수=24, model dims=1024, hidden dims=4096, heads=16, head dims=80. 총 파라미터 크기는 1.15B 파라미터이다.

TTM Combiner는 언급된 바와 같이 TokenLearner [43] 함수와 Transformer로 구현된다. 출력 차원 $K=32$ 는 표준 Transformer Combiner의 출력 차원과 동일하다. 'Read' 및 'Write' 함수의 출력 차원은 각각 512와 256이다. 이 두 파라미터는 TTM Combiner에 더 많거나 적은 용량을 허용하기 위해 독립적으로 제어될 수 있다. 'Process' 함수 내에서 사용되는 Transformer는 2개의 layer, 128개의 hidden dimension, 12개의 head를 가진다. 이들은 본 논문 전체에서 고정된다.

모델 사전학습 (Model Pretraining)
사전학습 데이터는 웹에서 수집된 노이즈가 있는 비디오-텍스트 쌍으로 구성된 VideoText Pairs (VTP) 데이터셋이다 [2]. 주요 사전학습은 **autoregressive, combiner, 그리고 저수준 비디오 feature를 처리하는 학습 구성 요소(예: video tube convolution)**에 대해 수행된다. 텍스트 backbone은 사전학습 동안 고정되며, cross attention 가중치를 포함한 다른 구성 요소들은 고정 해제된다. 모델의 이미지 및 텍스트 backbone과 cross attention layer는 contrastive image-text로 사전학습된 MaMMUT 모델 [23]로부터 초기화된다. 더 구체적으로, MaMMUT은 contrastive 및 텍스트 생성 objective로 함께 학습되며, 후자는 크게 중요하지 않고 contrastive-only 학습도 가능하다. 사전학습은 **Align 데이터셋 [21]**에서 수행된다. 오디오 backbone도 동일한 사전학습된 이미지 backbone을 재사용한다. 사전학습 동안 combiner model, causal latent reconstruction model, video reconstruction model, video tube는 모두 무작위로 초기화된다. 사전학습 동안 모든 loss는 동일한 가중치를 부여받는다. 사전학습을 위해 우리는 $1 \times 10^{-5}$ 의 learning rate, 32의 batch size, $224 \times 224$ 의 이미지 해상도, 128 프레임을 사용했다.

Fine-tuning
fine-tuning 동안 모든 파라미터는 고정 해제된다. 또한, latent space와 video reconstruction은 평가되지 않으므로, unaligned text loss에 추가 가중치를 부여하고 10배 증가시켜 최종 평가와 학습 loss를 더 잘 정렬한다. 모델은 MSRVTT-QA 데이터셋에 대해 10 epoch, ActivityNet-QA에 대해 80 epoch, NExT-QA에 대해 20 epoch 동안 학습된다. 이들 데이터셋에 대해 우리는 $5 \times 10^{-6}$ 의 learning rate, 0.01의 weight decay, $448 \times 448$ 의 이미지 해상도, 32의 batch size로 fine-tuning한다. 주요 실험에서는 128 프레임을 사용하지만, 긴 비디오 벤치마크에서는 512 프레임으로도 성능을 보고한다. 다른 벤치마크들은 상대적으로 짧은 비디오를 포함하므로 더 많은 프레임을 샘플링하는 것은 생산적이지 않다. 우리는 0.1의 dropout, 0.2의 label smoothing을 사용했다.

비디오-오디오 구현 세부 정보 (Video-Audio Implementation Details)
모델은 대부분의 비디오에 오디오가 없는 VTP 데이터로 사전학습되었으므로, 여기에 추가적인 오디오 사전학습 단계를 추가한다. 우리는 **AudioSet-2M [14]**을 사용하여 모델이 클래스 이름의 텍스트를 출력하도록 학습시킨다. 이 단계에서는 오디오 가중치를 제외한 모델의 가중치를 고정하여, 모델이 spectrogram 입력을 처리하는 방법을 학습하도록 한다. eval 데이터셋에 대한 fine-tuning 동안에는 모델을 완전히 학습시킨다. fine-tuning 동안 우리는 Mixup [73], specaugment [34], dropout, label smoothing을 이전 연구들(예: [15])의 설정을 따라 사용한다. 우리는 $1 \times 10^{-5}$ 의 learning rate, Adam optimizer (기본 설정), 0.0001의 weight decay, cosine learning rate decay를 사용한다. 우리는 $448 \times 448$ 의 이미지 해상도, 32의 batch size, 128 프레임을 사용한다.

Ablation 실험 세부 정보 (Ablation experiments details)
본 논문의 Tab. 5a, 5b, 5c, 5d에 있는 ablation 실험은 작은 모델로 수행되었다. 본 논문의 Tab. 5a에 있는 Baseline은 테이블에 테스트된 다른 접근 방식들과 마찬가지로 분할(partitioning)을 사용하며, 다른 방식들과 최대한 비교 가능하도록 feature들의 연결(concatenation)을 사용한다.

Tab. 6a의 baseline은 **단일 시간 청크(single time chunk)**를 사용하며, 이는 정렬된 autoregressive 모델링을 비활성화한다. 다양한 청크와 차원은 프레임 수와 combiner의 출력 크기(dim) 간의 관계를 탐색한다. 단일 시간 청크 설정 중 어느 것도 동일한 총 차원에서도 autoregressive 표현을 포함하는 것과 동일한 성능을 달성하지 못한다.

Model	Frames	Chunks	Dim	Total Dim		Acc.
Baseline	32	1	256		256	40.4
Baseline	128	1	256		256	44.8
Autoreg.	128	16	16		256	45.5
(a) Autoregressive model.
Model		Causal	Video	Text	Acc.
Main <br> Main		1.0	1.0	1.0	45.0
	Text Low	1.0	1.0	0.1	44.6
	Text High	1.0	1.0	10.0 <br> 10.0	45.4 <br> 45.4
(b) Loss weights.

Table 6. 추가 ablation 연구.

Figure 5. 본 논문에서 탐구한 다양한 combiner의 시각화. 우리가 주로 사용한 Transformer combiner는 출력의 마지막 $m$ 개 feature를 결합된 입력으로 표현한다. 우리는 이 방식이 잘 작동함을 발견했다. CLS combiner와 Perceiver combiner는 모두 기본 combiner보다 성능이 떨어졌다. TTM combiner는 다르다. 이는 이전 표현을 저장하기 위한 메모리를 사용하며, read, process, write 연산을 가진다. 우리는 이 방법이 일부 데이터셋에서 정확도와 일부 trade-off를 가지면서 메모리를 절약한다는 것을 발견했다.