Xue, Zihui, and Radu Marculescu. "Dynamic multimodal fusion." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

Dynamic Multimodal Fusion

Zihui Xue Radu Marculescu
텍사스 대학교 오스틴

Abstract

최근 몇 년간 Deep multimodal learning은 큰 발전을 이루었다. 그러나 현재의 fusion 접근 방식들은 본질적으로 **정적(static)**이다. 즉, 다양한 멀티모달 데이터의 계산 요구 사항을 고려하지 않고, 동일한 연산으로 멀티모달 입력을 처리하고 fusion한다. 본 연구에서는 **동적 멀티모달 fusion (DynMM)**을 제안한다. 이는 멀티모달 데이터를 적응적으로 fusion하고 추론 시 데이터에 따라 forward path를 생성하는 새로운 접근 방식이다. 이를 위해 우리는 멀티모달 feature를 기반으로 modality-level 또는 fusion-level 결정을 즉석에서 제공하는 gating function과 계산 효율성을 장려하는 resource-aware loss function을 제안한다. 다양한 멀티모달 task에 대한 결과는 우리 접근 방식의 효율성과 광범위한 적용 가능성을 입증한다. 예를 들어, DynMM은 정적 fusion 접근 방식과 비교했을 때, 단지 무시할 만한 정확도 손실(CMU-MOSEI 감성 분석)로 계산 비용을 46.5% 절감할 수 있으며, 21% 이상의 계산 절감(NYU Depth V2 semantic segmentation)으로 segmentation 성능을 향상시킬 수 있다. 우리는 우리의 접근 방식이 동적 멀티모달 네트워크 설계에 대한 새로운 방향을 열고, 광범위한 멀티모달 task에 적용될 수 있다고 믿는다.

1. Introduction

인간은 시각, 청각, 촉각, 미각 등 다중 모드(multimodal)를 통해 세상을 인지한다. 최근 몇 년간 다중 모달리티 데이터를 활용하는 딥러닝 접근 방식에서 큰 발전이 있었다. 그 결과, 멀티모달 융합(multimodal fusion)은 감성 분석 [21, 38, 50], 행동 인식 [6, 36], 의미론적 분할(semantic segmentation) [35, 45]과 같은 많은 고전적인 문제들의 성능을 향상시켰다.

이러한 발전에도 불구하고, 다중 모달리티로 특징지어지는 정보를 어떻게 가장 잘 결합할 것인가는 멀티모달 학습에서 여전히 근본적인 도전 과제로 남아있다 [2]. 다양한 연구 노력 [14, 20, 25, 26, 29, 42, 43, 50]이 멀티모달 데이터를 효과적으로 융합할 수 있는 새로운 융합 패러다임을 설계하는 데 투입되었다. 이러한 접근 방식들은 일반적으로 task 및 모달리티에 특화되어 있으며 수동 설계를 필요로 한다. Neural Architecture Search (NAS)의 성공에 힘입어, 최근 몇몇 연구들 [33, 39, 49]은 NAS를 채택하여 효과적인 융합 아키텍처를 자동으로 탐색하고 있다.

Figure 1. CMU-MOSEI [51]의 감정 인식 예시 두 가지. Figure (a)는 텍스트 정보만으로도 감정을 정확하게 예측하기에 충분한(긍정적인 감정) "쉬운" 멀티모달 인스턴스를 보여준다. Figure (b)는 정확한 예측을 위해 세 가지 모달리티가 모두 필요한(부정적인 감정) "어려운" 예시를 보여준다. 정적(static) 멀티모달 융합 네트워크는 "어려운" 입력과 "쉬운" 입력을 동일하게 처리하지만, 우리는 "쉬운" 예시에서는 계산 비용을 절감하고 "어려운" 인스턴스에서는 표현력을 유지할 수 있는 동적(dynamic) 인스턴스별 추론(instance-wise inference)을 제안한다. (a)의 경우, DynMM은 텍스트 경로만 활성화하고 다른 두 모달리티에 해당하는 경로는 건너뛰어 계산 효율성을 달성한다.

그러나 수동으로 설계된 접근 방식과 NAS 기반 접근 방식 모두 단일 융합 아키텍처 내에서 모든 인스턴스를 처리하며, 다양한 멀티모달 데이터에 대한 적응성이 부족하다. 즉, 융합 네트워크가 일단 학습되면, 다양한 멀티모달 입력의 내재된 특성 차이를 고려하지 않고 각 데이터에 대해 정적 추론(static inference)을 수행한다. 따라서 잘 설계된 융합 아키텍처의 계산 효율성뿐만 아니라 표현력도 그 정적인 특성으로 인해 제한될 수 있다. 동기 부여 예시로, Figure 1의 두 멀티모달 인스턴스를 살펴보자.

그림에서 보듯이, 위쪽 예시의 감정을 분류하는 것은 비교적 쉽다: 텍스트 모달리티만으로도 긍정적인 감정에 대한 강력한 증거를 제공한다. 반면에, 아래쪽 예시의 감정을 텍스트 정보만으로 정확하게 예측하기는 어렵다. 이 문장은 혼란스럽기 때문이다. 오디오 및 시각 모달리티는 멀티모달 네트워크가 올바른 결정을 내리는 데 중요한 단서를 제공할 수 있다. 이 예시를 통해 우리는 멀티모달 데이터가 모델이 "어려운" 입력의 풍부한 표현으로부터 학습할 수 있도록 하지만, "쉬운" 입력에 대해서는 계산의 중복을 초래할 수도 있음을 알 수 있다.

이러한 관찰에 영감을 받아, 우리는 **다중 모달리티로부터의 입력 데이터를 적응적으로 융합하는 새로운 접근 방식인 동적 멀티모달 융합(DynMM)**을 제안한다. 정적 멀티모달 아키텍처와 비교할 때, DynMM은 계산 감소, 표현력 향상 및 견고성(robustness)이라는 이점을 누린다. 더 정확히 말하면, 동적 융합은 모달리티의 부분집합이나 간단한 융합 연산만으로도 정확하게 예측될 수 있는 "쉬운" 입력에 대해 계산 비용을 절감한다. "어려운" 멀티모달 입력의 경우, DynMM은 모든 모달리티와 복잡한 융합 연산에 의존하여 예측함으로써 정적 네트워크의 표현력에 필적할 수 있다. 또한, 실제 멀티모달 데이터는 노이즈가 많고 모순될 수 있다 [22]. 이러한 경우, DynMM에서 특정 인스턴스에 대해 노이즈가 포함된 경로를 건너뛰는 것은 노이즈를 줄이고 성능을 향상시킬 수 있다.

동적 신경망(Dynamic neural networks) [11]은 지난 몇 년간 이미지 인식 [5, 28, 44, 46], 의미론적 분할 [23, 41], 기계 번역 [37]과 같은 광범위한 응용 분야에서 점점 더 많은 관심을 받고 있다. 단일 모달 네트워크를 위한 동적 추론의 큰 성공에 동기를 받아, 본 논문은 멀티모달 융합을 새로운 응용 분야로 제안하는 것을 목표로 한다. 이를 위해 우리는 기존 연구와는 다른 관점을 제공하는 멀티모달 데이터의 자연스러운 중복성(redundancy)에서 영감을 얻는다. 구체적으로, 우리는 모달리티 수준과 융합 수준 모두에서 점진적 융합(progressive fusion)을 제안한다. 모달리티 수준에서는 각 입력에 기반하여 예측을 위한 입력 모달리티의 부분집합(또는 모든 모달리티)을 선택하는 gating network를 학습한다. 융합 수준에서는 gating network가 어떤 융합 연산을 채택하고 언제 융합을 중단할지에 대한 샘플별 결정(sample-wise decisions)을 제공한다. 한편, "쉬운" 입력에 대해 초기 융합 단계에서 종료를 허용함으로써, DynMM은 후기 융합 모듈을 실행하는 계산을 절약한다. 다른 한편, "어려운" 멀티모달 입력의 경우, DynMM은 정확한 예측을 위해 모든 융합 모듈을 활성화할 수 있다.

우리의 접근 방식의 효능과 일반화 가능성을 검증하기 위해, 우리는 다양한 인기 있는 멀티모달 task에 대한 실험을 수행한다. DynMM은 계산 효율성과 학습 성능 사이에서 좋은 균형을 이룬다. 예를 들어, RGB-D 의미론적 분할 task의 경우, DynMM은 [35]와 비교했을 때 깊이 encoder의 곱셈-덧셈 연산(MAdds)을 21% 이상 줄이면서도 mIoU를 +0.7% 향상시킨다. 또한, 우리는 입력 모달리티가 노이즈에 의해 교란될 때 DynMM이 정적 융합 네트워크보다 더 나은 예측을 산출한다는 것을 발견했다. 이는 DynMM을 사용하여 멀티모달 견고성을 향상시킬 수 있는 가능성을 시사한다.

2.1. Dynamic Neural Networks

Dynamic neural network는 이미지 분류 [5, 28, 44, 46], 객체 탐지 [7, 52], 또는 semantic segmentation [23, 41]과 같은 고전적인 컴퓨터 비전 문제에서 큰 잠재력을 보여주었다. 일반적인 딥러닝 접근 방식이 정적인(static) 방식으로 추론을 수행하는 반면, dynamic network는 추론 과정에서 네트워크 구조가 입력 특성에 맞게 적응하도록 한다. 이러한 유연성은 높은 효율성, 표현력, 결과 해석 가능성을 포함한 많은 이점을 제공한다 [10, 34, 47]. Dynamic network 설계는 다음과 같이 분류할 수 있다: (a) dynamic depth; (b) dynamic width; (c) dynamic routing [11].

Dynamic depth의 아이디어는 각 샘플에 따라 네트워크 깊이를 조절하는 것이다. 얕은 layer에 early exit [4, 40]을 제공함으로써, "쉬운" 샘플에 대해 깊은 layer를 활성화하지 않아도 되어 연산량을 절약할 수 있다. Dynamic width의 아이디어는 샘플별로 네트워크 너비를 조절하는 것이다. dynamic width network를 구축하고 추론 효율성을 달성하기 위해, 이전 연구들은 fully-connected layer에서 뉴런을 건너뛰거나 [3], Mixture-of-Experts (MoE)에서 브랜치를 건너뛰거나 [28, 37], 또는 Convolutional Neural Network (CNN)에서 채널을 건너뛰는 방식 [17]을 제안했다. 더 많은 유연성을 가능하게 하기 위해, 최근 연구들 [5, 23]은 여러 추론 경로를 가진 SuperNet을 구축한다. 따라서 dynamic routing은 SuperNet 내부에서 수행되어 추론 중에 데이터에 따라 달라지는 forward path를 생성한다. 우리가 제안하는 modality-level DynMM은 dynamic width 접근 방식에 속하며, fusion-level DynMM은 dynamic routing 접근 방식으로 볼 수 있다.

2.2. Multimodal Learning

**멀티모달 융합 네트워크(Multimodal fusion networks)**는 감성 분석 [21, 38, 50], 행동 인식 [6, 36], 시맨틱 분할 [8, 35, 45] 등 다양한 응용 분야에서 단일 모달(unimodal) 네트워크에 비해 명확한 이점을 가진다. 그러나 정보를 더 잘 활용하기 위해 멀티모달 feature를 효과적으로 결합하는 방법은 여전히 큰 도전 과제이다. 기존 연구들은 도메인 지식에 기반한 수작업 융합 설계를 제안하거나 [20, 25, 26, 29, 43, 50], NAS(Neural Architecture Search)를 적용하여 좋은 아키텍처를 자동으로 탐색한다 [33, 39, 49]. 하지만 이러한 연구들의 범위는 정적 네트워크(static networks)에만 한정되어 있다.

시맨틱 분할 [45], 비디오 인식 [9, 32], 시각-관성 오도메트리(visual-inertial odometry) [48], 의료 분류 [12] 등 멀티모달 응용 분야에 동적 신경망(dynamic neural networks)을 도입하려는 초기 시도들이 있었다. 이 중 CEN [45]은 RGB 및 깊이(depth) 모달리티의 서브 네트워크 간에 채널을 동적으로 교환하여 성능을 향상시킨다. Han et al. [12]은 더 신뢰할 수 있는 의료 분류를 위해 다양한 샘플의 feature-level 및 modality-level 정보성을 동적으로 평가하는 방법을 제안하지만, 동적 신경망이 가져오는 계산 효율성 측면은 간과되었다. Gao et al. [9] 및 AdaMML [32]의 연구는 효율적인 비디오 인식을 위해 모달리티를 적응적으로 활용한다는 점에서 우리의 접근 방식과 가장 관련이 깊다. 그러나 이들의 방법은 비디오 데이터 및 행동 인식에 특화되어 있다. 본 연구에서는 다양한 멀티모달 task에 적합한 동적 멀티모달 융합의 체계적이고 일반적인 공식화를 향한 첫걸음을 목표로 한다.

3. Method

이 섹션에서는 우리가 제안하는 **동적 멀티모달 융합 네트워크(DynMM)**의 주요 설계 기여를 제시한다. 첫째, 추론 시 데이터에 따라 forward path를 생성할 수 있도록 하는 새로운 의사결정(decision making) 방식을 소개한다. 이때 **두 가지 수준의 세분성(granularity)**이 고려된다:

모달리티 수준(modality-level): coarse level
융합 수준(fusion-level): fine level

다음으로, DynMM을 위한 새로운 학습 전략을 제안한다. 이 전략은 다음으로 구성된다:

자원 예산(resource budget)을 고려하는 학습 objective,
미분 불가능한 gating network의 최적화.

3.1. Modality-level Decision

입력 데이터가 $M$ 개의 modality를 가진다고 가정하며, 이는 $\mathbf{x}=\left(x_{1}, x_{2}, \cdots, x_{M}\right)$ 으로 표현된다. 고전적인 Mixture-of-Experts (MoE) [27] 프레임워크를 따라, 우리는 다음과 같이 전문가 네트워크(expert network) 세트를 설계한다. 각 전문가는 전체 $M$ 개 modality의 부분집합에 특화된다. 예를 들어, $M=3$ 인 경우, 최대 7개의 전문가 네트워크를 가질 수 있으며, 이는 $E_{1}\left(x_{1}\right), E_{2}\left(x_{2}\right), E_{3}\left(x_{3}\right)$ , $E_{4}\left(x_{1}, x_{2}\right), E_{5}\left(x_{2}, x_{3}\right), E_{6}\left(x_{1}, x_{2}\right), E_{7}\left(x_{1}, x_{2}, x_{3}\right)$ 로 표현된다. 실제 응용에서는 도메인 전문 지식(domain expertise)을 활용하여 후보 전문가 네트워크를 좁힐 수 있다. 예를 들어, 깊이(depth) 이미지는 RGB 이미지와 결합될 때 유용한 단서를 제공할 수 있지만, semantic segmentation에서 단독으로는 종종 성능이 좋지 않다. 이러한 경우, 우리는 깊이만을 입력으로 받는 전문가 네트워크는 고려하지 않는다.

선택되는 전문가 네트워크의 수를 $B$ 라고 하자. 우리는 어떤 전문가 네트워크를 활성화할지 결정하기 위해 게이팅 네트워크(gating network) $G(\mathbf{x})$ 를 제안한다. 이 게이팅 네트워크는 멀티모달 입력 $\mathbf{x}$ 를 받아 전역적인 관점(global view)을 형성한 후, $B$ 차원의 희소 벡터(sparse vector) $\mathbf{g}$ 를 출력한다. 최종 출력 $y$ 는 $y= \sum_{i=1}^{B} g_{i} E_{i}\left(\mathbf{x}_{i}\right)$ 의 형태를 가지며, 여기서 $\mathbf{x}_{i}$ 는 $i$ 번째 전문가가 입력으로 받는 modality의 부분집합을 나타낸다.

출력이 전문가 네트워크의 가중 합산이며 모든 브랜치가 실행되는 기존 MoE [27]와 달리, 우리의 공식화에서는 게이팅 네트워크 $\mathbf{g}$ 의 출력이 one-hot encoding이다. 즉, 각 인스턴스에 대해 단 하나의 브랜치만 선택된다. 따라서,

Figure 2. Modality-level DynMM의 예시. 입력 데이터는 $x_{1}$ 과 $x_{2}$ 두 가지 modality로 표현되며, 출력은 $y$ 로 표시된다. 우리는 다양한 modality 부분집합에 특화된 전문가 네트워크 $\left\{E_{i}\right\}$ 세트를 설계하고, 게이팅 네트워크 $G(\mathbf{x})$ 를 채택하여 어떤 전문가 네트워크를 선택할지에 대한 데이터 의존적인 결정을 생성한다.

다른 전문가 네트워크에 필요한 계산량을 절약할 수 있다. 우리의 전문가 네트워크는 이미 광범위한 modality 조합을 다루기 때문에, 최대 계산 절약을 위해 각 forward pass에서 단 하나의 브랜치만 선택한다 (예를 들어, 상위 $K$ 개의 브랜치를 선택하는 대신). Figure 2는 2개의 modality와 3개의 전문가 네트워크(즉, $M=2$ 및 $B=3$ )를 가진 제안된 설계의 예시를 제공한다.

게이팅 네트워크 $G(\mathbf{x})$ 의 설계는 두 가지 일반적인 요구 사항을 따른다: (1) 작은 오버헤드를 위해 계산 비용이 저렴해야 한다. (2) 어떤 전문가를 선택할지에 대한 정보성 있는 결정을 내릴 수 있을 만큼 충분히 표현력이 풍부해야 한다. 다양한 게이팅 네트워크가 이전에 제안되었지만, 이들은 일반적으로 특정 task 및 네트워크 아키텍처에 맞춰져 있다 [11]. 실험에서는 세 가지 멀티모달 task에 대해 **다양한 게이팅 네트워크(즉, MLP gate, Transformer gate, convolutional gate)**를 고려하며, 게이팅 네트워크 아키텍처에 대한 자세한 설명은 Sec. 4에서 제공한다.

남아있는 한 가지 문제는 게이팅 네트워크 $G(\mathbf{x})$ 의 학습이다. $G(\mathbf{x})$ 에 의해 주어지는 이산적인 결정(discrete decision)의 비미분성(non-differentiability) 때문에, 네트워크는 back-propagation으로 직접 학습될 수 없다. 따라서, 우리는 reparameterization 기법을 제안하며, 이에 대해서는 Sec. 3.4에서 논의한다.

마지막으로, 이 게이팅 네트워크 $G(\mathbf{x})$ 는 입력 수준 feature를 받는 것에 국한되지 않는다. 각 modality의 중간 feature를 입력으로 받을 수도 있다. 따라서, modality-level DynMM은 멀티모달 네트워크의 어느 부분에든 플러그인되어 이 게이팅 네트워크 이후의 계산량을 절약할 수 있다.

3.2. Fusion-level Decision

모달리티 수준의 결정이 계산 효율성에 직접적인 영향을 미치지만, 한 모달리티의 계산을 완전히 건너뛰는 것은 **의미론적 분할(semantic segmentation)**과 같은 일부 어려운 task에서 성능 저하를 초래할 가능성이 높다. 따라서 다음으로 융합 수준(fusion-level)의 DynMM에 대한 더 세분화된 공식을 제시한다.

먼저 융합 셀(fusion cell)의 설계를 제시한다. 입력 데이터가 $M$ 개의 모달리티를 가진다고 가정한다. 즉, $\mathbf{x}=\left(x_{1}, x_{2}, \cdots, x_{M}\right)$ 이다.

Figure 3. (a) 융합 수준 DynMM의 예시. 입력 데이터는 $x_{1}$ 과 $x_{2}$ 로 표시된 두 가지 모달리티를 가진다. 우리는 **후보 연산 집합 $\left\{O_{i}\right\}$ 와 게이팅 네트워크 $G(\mathbf{x})$ **를 포함하는 융합 셀을 설계한다. $h$ 는 셀의 출력을 나타낸다. (b) 스택형 융합 셀을 갖춘 동적 멀티모달 아키텍처. 정적 feature 추출 블록(녹색 및 노란색)과 동적 융합 셀을 교차 배치한다. 네 개의 융합 셀에 있는 게이팅 네트워크 $G(\mathbf{x})$ 는 하나의 전역 게이팅 네트워크 $\hat{G}(\mathbf{x})$ 로 통합되어 네 개의 셀에 대한 결정을 한 번에 출력한다. (c) 게이팅 네트워크가 처음 두 융합 셀에 대해 $O_{2}$ 를 선택하고 마지막 두 셀에 대해 $O_{1}$ 을 선택할 때의 아키텍처 예시. 결과적으로, 융합 셀 3 & 4와 $x_{2}$ 에 대한 feature 추출 셀 3 & 4의 계산이 절약된다.

융합 연산 집합을 $\left\{O_{i}\right\}$ 라고 하자. $O_{i}$ 는 멀티모달 feature를 융합하는 어떤 함수로도 구현될 수 있다. 예를 들어, 단순 항등 매핑(identity mapping) (즉, $O_{i}=x_{1}$ ), 덧셈 (즉, $O_{i}=x_{1}+x_{2}+\cdots+x_{M}$ ), 연결(concatenation) (즉, $\left.O_{i}=\left[x_{1}, x_{2}, \cdots, x_{M}\right]\right)$ 및 self-attention 등이 있다. Figure 3 (a)는 두 개의 입력 모달리티 (즉, $\mathbf{x}=\left(x_{1}, x_{2}\right)$ )와 세 가지 연산 (즉, $O_{1}=x_{1}, O_{2}=x_{1}+x_{2}, O_{3}=w_{1} x_{1}+w_{2} x_{2}$ )을 갖는 융합 셀의 예시 설계를 보여준다. 여기서 $w_{1}$ 과 $w_{2}$ 는 학습 가능한 파라미터이다. 여기서는 설명을 위해 연산 집합을 단순화했지만, 실제로는 각 셀에서 더 복잡한 융합 연산을 채택하여 표현력을 확장할 수 있다. 총 연산 수를 $B$ 라고 하자. 게이팅 네트워크 $G(\mathbf{x})$ 는 멀티모달 입력을 받아 어떤 연산을 실행할지 결정하는 $B$ 차원 벡터 $\mathbf{g}$ 를 생성한다. 셀 $h$ 의 출력은 $h=\sum_{i=1}^{B} g_{i} O_{i}(\mathbf{x})$ 로 표현될 수 있다. 이전 논의에 따라, 우리는 계산 효율성을 위해 hard gate (즉, $\mathbf{g}$ 는 one-hot)를 채택한다.

융합 수준 DynMM은 융합 셀을 쌓아 동적 네트워크를 구축함으로써 더 세밀하고 유연한 방식으로 결정을 내릴 수 있게 한다. Figure 3 (b)는 의미론적 분할(semantic segmentation) 실험에서 사용한 예시 아키텍처를 보여준다 ( $x_{1}$ 과 $x_{2}$ 는 각각 RGB 및 깊이 이미지를 나타낸다). 이 네트워크는 네 개의 융합 블록과 전역 게이팅 네트워크로 구성되어 있으며, 이를 통해 샘플별로 융합의 정도를 유연하게 제어할 수 있다. 예를 들어, Figure 3 (c)에서는 게이팅 네트워크가 융합 셀 1 & 2에 대해 $O_{2}$ 를 선택하고 융합 셀 3 & 4에 대해 $O_{1}$ 을 선택할 때의 결과 아키텍처를 보여준다. 이는 융합 셀 내에서 선택되지 않은 복잡한 융합 연산을 건너뛸 뿐만 아니라, feature 추출 레이어에서 불필요한 계산을 절약한다. 융합 셀 2 이후에는 모달리티 1의 feature만 채택하므로, 모달리티 2의 feature를 추가로 처리할 필요가 없다. 따라서 $x_{2}$ 에 대한 feature 추출 레이어의 계산(회색으로 표시된 블록 3-4)을 건너뛸 수 있다. 이 전략은 단일 모달리티 동적 네트워크의 early exiting과 유사하지만, 동기는 다르다. 본질적으로, 융합 수준 DynMM은 각 모달리티의 저수준 feature를 결합하는 것(즉, 초기 단계에서 융합하는 것)만으로도 좋은 예측이 충분할 때, 일부 멀티모달 입력에 대해 미래의 융합 및 모달리티별 연산을 절약한다. 반면에 "어려운" 인스턴스의 경우, DynMM은 최대 표현력을 위해 각 셀에서 복잡한 융합 연산을 통해 멀티모달 feature를 결합하는 옵션을 제공한다. 우리는 더 나은 통합을 위해 각 융합 셀의 네 가지 개별 게이팅 네트워크 $G(\mathbf{x})$ 를 전역 게이팅 네트워크 $\hat{G}(\mathbf{x})$ 로 대체한다. $\hat{G}(\mathbf{x})$ 는 멀티모달 feature ( $x_{1}, x_{2}$ )를 입력으로 받아 네 개의 융합 셀에 어떤 융합 연산을 채택할지 결정한다.

이러한 패러다임은 최종 예측이 주로 지배적인 모달리티에 기반하고, 다른 보조 모달리티가 예측을 개선하는 데 유용한 단서를 제공하는 task에서 특히 유용하다. 융합 수준 DynMM은 보조 모달리티가 주 예측 프로세스를 지원하기 위해 언제, 어떻게 개입할지 제어하는 유연한 방법을 제공한다. **점진적 융합(Progressive fusion)**은 신중하게 설계된 융합 셀과 동적 아키텍처를 통해 달성되며, 이는 뛰어난 계산 절약, 강력한 표현력 및 향상된 견고성으로 이어진다.

모달리티 수준 DynMM과 융합 수준 DynMM은 서로 다른 세분화 수준을 목표로 하는 두 가지 접근 방식이다. 우리 실험에서는 모달리티 수준 DynMM을 사용하여 두 가지 분류 task를 해결하는 반면, 융합 수준 DynMM은 더 어려운 **의미론적 분할(semantic segmentation) task (즉, dense prediction 문제)**에 사용된다.

3.3. Training Objective

우리는 modality-level 및 fusion-level DynMM 설계 모두에서 각 expert network $E_i$ (operation $O_i$ )의 연산량이 다르다는 점을 확인했다. 일반적으로 연산량이 많은 expert network (operation)는 강력한 표현력을 가진다. 만약 task-specific loss를 최소화하는 방식으로 네트워크를 직접 학습시키면, gating network는 연산량이 많은 branch를 항상 선택하는 trivial solution을 학습할 가능성이 높다. 효율적인 추론을 달성하기 위해, 우리는 resource-aware loss function을 학습 목표에 도입한다.
$C(E_i)$ 는 expert network $E_i$ 를 실행하는 데 드는 **연산 비용(예: MAdds)**을 나타낸다. 유사하게, $C(O_{i,j})$ 는 $j$ -번째 cell의 $i$ -번째 fusion operation의 연산 비용을 나타낸다. 연산 비용은 학습 전에 미리 결정될 수 있으며, 상수 항이다. 학습 목표는 다음과 같다:

\begin{gathered} \mathcal{L}=\mathcal{L}_{\text {task }}+\lambda \sum_{i=1}^{B} g_{i} C\left(E_{i}\right) \quad \text { (modality-level) } \\ \mathcal{L}=\mathcal{L}_{\text {task }}+\lambda \sum_{j=1}^{F} \sum_{i=1}^{B} g_{i}^{(j)} C\left(O_{i, j}\right) \quad \text { (fusion-level) } \end{gathered}

여기서 $\mathcal{L}_{\text{task}}$ 는 task loss를 나타내며, 예를 들어 분류를 위한 네트워크 예측과 실제 레이블 간의 cross entropy이다. $\mathbf{g}^{(j)}$ 는 $j$ -번째 fusion cell에 의해 주어진 decision vector를 나타낸다. $B$ 는 expert (operation)의 총 개수이고, $F$ 는 fusion cell의 개수이다. $\lambda$ 는 두 loss 항의 상대적 중요도를 제어하는 하이퍼파라미터이다.

새로운 목표 함수 (1)과 (2)는 각 경로를 실행하는 연산 비용을 고려하며, DynMM이 정확도와 효율성 사이에서 원하는 trade-off를 달성할 수 있도록 한다. 우리는 배포 제약 조건에 따라 $\lambda$ 값을 조정할 수 있다. $\lambda$ 값이 크면 DynMM은 높은 연산 효율성을 위해 경량 연산을 우선할 것이다. $\lambda$ 값이 작으면 DynMM은 연산량이 많은 경로를 더 자주 탐색하여 더 높은 정확도를 얻을 것이다.

3.4. Optimization

우리는 DynMM을 end-to-end 방식으로 학습시키는 것을 목표로 한다. 현재 gating network는 이산적인(discrete) 결정을 제공하므로, branch 선택은 gating network에 대해 직접적으로 미분 가능하지 않다. 이를 해결하기 위해 Gumbel-softmax 및 reparameterization 기법 [18]을 학습 과정에 도입한다. $\mathbf{g}$ 가 gating network $G(\mathbf{x})$ 에 의해 생성되는 원하는 one-hot $B$ -차원 결정 벡터라고 할 때, 즉 $\mathbf{g}=$ one-hot $\left(\arg \max _{i} G(\mathbf{x})_{i}\right)$ 이다. 우리는 다음과 같은 형태의 **실수 값 soft 벡터 $\tilde{\mathbf{g}}$ **를 사용한다:

\tilde{g}_{i}=\frac{\exp \left(\left(\log G(\mathbf{x})_{i}+b_{i}\right) / \tau\right)}{\sum_{j=1}^{B} \exp \left(\left(\log G(\mathbf{x})_{j}+b_{j}\right) / \tau\right)} \quad i=1,2, \ldots, B

여기서 $b_{1}, b_{2}, \ldots, b_{B}$ 는 Gumbel(0,1) 분포에서 독립적으로 샘플링된 값이며 [18], $\tau$ 는 softmax temperature를 나타낸다. $\tilde{\mathbf{g}}$ 의 분포는 $\tau$ 가 클수록 더 균일해지고, $\tau$ 가 작을수록 categorical distribution과 유사해진다. $\tilde{\mathbf{g}}$ 는 $\mathbf{g}$ 의 연속적이고 미분 가능한 근사치 역할을 한다. 우리는 두 가지 학습 기법을 고려한다: (a) back-propagation을 가능하게 하기 위해 Equation (1)-(2)에서 Hard $\mathbf{g}$ 를 soft $\tilde{\mathbf{g}}$ 로 대체한다. 학습 중에는 $\tau$ 를 점진적으로 감소시켜 $\tilde{\mathbf{g}}$ 가 원하는 one-hot 벡터로 수렴하도록 한다. (b) straight-through 기법 [18]을 따라, forward pass에서는 hard $\mathbf{g}$ 를 사용하고, backward propagation에서는 gradient 근사 $\nabla \mathbf{g} \approx \nabla \tilde{\mathbf{g}}$ 를 사용하여 soft $\tilde{\mathbf{g}}$ 를 채택한다. 이 방식을 통해 gating network는 학습 중에도 이산적인 결정을 출력한다. 추론 시에는 계산 효율성을 위해 항상 hard $\mathbf{g}$ 를 사용한다. 다음으로, 우리는 multimodal network와 gating module을 함께 최적화하는 DynMM의 2단계 학습 방식을 제안한다.

Stage I: Pre-training
학습 초기 단계에서 gating network의 sparse한 결정을 따를 경우 편향된 최적화가 발생할 수 있음을 발견했다. 드물게 선택되는 branch는 가중치 업데이트가 적고 작으며, 낮은 성능으로 인해 선택 빈도가 더욱 낮아져 개선되지 않을 수 있다. pre-training 단계의 목표는 gating module이 개입하기 전에 DynMM의 모든 branch가 완전히 최적화되도록 보장하는 것이다. modality-level DynMM의 경우, 이 단계에서 각 expert network를 충분히 학습시킨다. fusion-level DynMM의 경우, 각 fusion cell에 대해 **무작위 결정(즉, 후보 연산 집합에서 무작위로 연산을 선택)**을 채택하여 동적 네트워크의 각 경로가 균일하게 최적화되도록 한다.

Stage II: Fine-tuning
이 단계에서는 gating network를 최적화 과정에 통합한다. 위에서 소개된 reparameterization 기법을 사용하여, 동적 네트워크와 gating network를 end-to-end 방식으로 함께 최적화한다.

4. Experiments

4.1. Experimental Setup

우리는 세 가지 멀티모달 task에 대해 실험을 수행한다: (a) MM-IMDB [1]에서의 영화 장르 분류 (movie genre classification) (b) CMU-MOSEI [51]에서의 감성 분석 (sentiment analysis) (c) NYU Depth V2 [30]에서의 의미론적 분할 (semantic segmentation)

제안하는 DynMM의 광범위한 적용 가능성을 보여주기 위해, 우리는 **다양한 modality(task (a)에서는 이미지와 텍스트, task (b)에서는 비디오, 오디오, 텍스트, task (c)에서는 RGB 및 깊이 이미지)**를 포함하는 위 세 가지 task를 선정하였다. 첫 두 task에는 modality-level DynMM을, 더 도전적인 의미론적 분할 task에는 fusion-level DynMM을 적용한다. 지면 제약으로 인해 다음 내용들은 Appendix에 제시한다: (1) 구현 세부 사항 (implementation details) (2) gating network 결정의 시각화 (visualization of the gating network decision) (3) 다양한 regularization 강도 $\lambda$ 에 대한 분석 (analysis of varying regularization strength $\lambda$ ) (4) DynMM 학습 전략에 대한 ablation study

4.2. Movie Genre Classification

MM-IMDB는 영화 장르 예측을 위한 가장 큰 공개 멀티모달 데이터셋이다. 이 데이터셋은 25,959개의 영화 제목, 메타데이터, 영화 포스터로 구성되어 있다. 우리는 포스터(image modality)와 텍스트 설명(text modality)을 사용하여 멀티라벨 분류를 위해 두 가지 영화 장르(드라마, 코미디)를 선택한다.

Method	Modality	Micro F1 (%)	Macro F1 (%)	MAdds (M)
Image Network	I	39.99	25.26	5.0
Text Network ( $E_{1}$ )	T	59.16	47.21	0.7
Late Fusion [24] ( $\bar{E}_{2}$ )		$59 . \overline{5} 5$	50.94	$\overline{10} . \overline{3}$
LRTF [26]		59.18	49.26	10.3
MI-Matrix [19]		58.45	48.36	10.3
DynMM-a		59.57	48.84	1.6
DynMM-b	I+T	59.59	50.42	7.8
DynMM-c		59.72	51.20	9.8
DynMM-d		60.35	51.60	12.1

Table 1. MM-IMDB 영화 장르 분류 결과. Modality I와 T는 각각 이미지와 텍스트를 나타낸다. 계산 비용은 하나의 이미지-텍스트 쌍을 입력으로 했을 때의 multiply-add operations (MAdds)로 측정된다. M은 million을 의미한다. 각 DynMM 변형은 학습 중 regularization hyperparameter $\lambda$ 의 다른 값을 사용하여 얻어진다.

우리는 [1]의 원본 데이터 분할을 따르며, 15,552개의 데이터를 학습에, 2,608개를 검증에, 7,799개를 테스트에 사용한다. 전처리를 위해, 우리는 [1, 24]와 동일한 방법을 사용하여 텍스트 및 이미지 feature를 추출한다.

우리는 이 task를 위해 두 가지 expert network를 채택한다. 하나는 텍스트 feature를 입력으로 받는 **unimodal network $E_{1}$ **이고, 다른 하나는 **late fusion [24]을 채택하여 이미지와 텍스트 feature를 결합하는 multimodal network $E_{2}$ **이다. 우리는 이 task에서 이미지 전용 네트워크의 성능이 좋지 않아 사용을 고려하지 않았다. gating network는 128의 hidden dimension을 가진 2-layer MLP이며, 연결된 이미지 및 텍스트 feature를 입력으로 받아 expert network 선택을 위한 2차원 벡터를 출력한다. 우리는 Gumbel-softmax의 temperature를 1로 설정하고 straight-through training을 채택한다 (즉, gating network는 forward propagation에서 one-hot decision vector를 출력한다).

Table 1은 우리가 제안하는 modality-level DynMM과 정적 unimodal network 및 multimodal network의 비교를 보여준다. 우리는 **다양한 자원 요구 사항(즉, loss에서 다른 $\lambda$ 사용)**에 따른 DynMM의 결과를 제공한다. Table 1에서 DynMM이 계산 효율성과 성능 사이에서 좋은 균형을 이룬다는 것을 알 수 있다. 정적 $E_{2}$ 네트워크와 비교하여, DynMM-c는 MAdds와 macro F1 score를 모두 향상시킨다. DynMM-d는 soft gate를 사용하여 최대 표현력(이는 더 많은 계산으로 이어진다)을 제공하며, 최고의 micro 및 macro F1 score를 달성한다. 반면에 DynMM-a는 훨씬 적은 계산을 포함하면서도 여전히 좋은 성능을 유지한다 (macro F1에서 $E_{1}$ 보다 1.6% 우수). 이는 DynMM의 뛰어난 유연성과 효율성을 보여준다.

또한, 우리는 학습 중 자원 손실의 중요성을 제어하기 위해 Equation (1)에서 $\lambda$ 를 변경한다. 그 결과로 얻어지는 DynMM 모델들은 Figure 4 (a)에서 보여지듯이 다양한 계산 비용과 성능을 가진다. 한편, 계산적으로 무거운 multimodal baseline과 비교했을 때, DynMM은 훨씬 적은 MAdds로도 좋은 성능을 유지한다. 다른 한편으로, DynMM은 unimodal network보다 더 나은 표현력을 가지므로 F1 score를 향상시킨다.

Figure 4. MM-IMDB에서 다양한 자원 정규화 강도( $\lambda$ )에 따른 DynMM 분석. (a): DynMM과 정적 unimodal (UM) 및 multimodal (MM) baseline의 비교. (b): $\lambda$ 에 대한 DynMM의 branch selection ratio. DynMM은 계산과 학습 동작의 균형을 잘 맞추는 다양한 선택지를 제공한다.

Figure 4 (b)는 $\lambda$ 에 대한 DynMM에서 각 expert network의 선택 비율을 보여준다. 우리는 $\lambda$ 가 증가함에 따라 DynMM이 계산 비용을 줄이는 데 더 집중하며, 따라서 계산 비용이 작은 expert network 1 ( $E_{1}$ )을 선택할 가능성이 더 높다는 것을 관찰한다. $\lambda=0$ 인 경우, 우리는 soft gate를 채택한다. 즉, 모든 expert network가 활성화되고 출력은 두 expert network가 제공하는 예측의 가중 조합이다. 따라서 DynMM은 증가된 계산 비용을 감수하고 최고의 성능을 달성한다. 이는 또한 DynMM의 유연성을 보여주는데, 고성능 또는 높은 추론 효율성을 목표로 $\lambda$ 를 쉽게 조정할 수 있기 때문이다.

4.3. Sentiment Analysis

CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)는 감성 분석(sentiment analysis) 및 감정 인식(emotion recognition)을 위한 가장 큰 데이터셋이다. 이 데이터셋은 1,000명 이상의 화자와 250개 주제에서 가져온 3,228개의 실제 온라인 비디오를 포함한다. 각 비디오는 10~20초 길이의 짧은 세그먼트로 분할된다. 각 세그먼트는 -3(강한 부정)부터 3(강한 긍정)까지의 감성 점수로 주석이 달린다. 이 task는 비디오, 오디오, 텍스트로부터 감성 점수를 예측하는 것이다. [24]에 따라, 우리는 16,265개의 데이터를 학습에, 1,869개의 데이터를 검증에, 4,643개의 데이터를 테스트에 사용한다. feature 추출 단계는 [24]와 동일하다.

이 task에서 텍스트가 가장 좋은 성능을 보이는 modality이므로, 우리는 텍스트 feature를 입력으로 받는 unimodal network를 expert network $E_1$ 으로 채택한다. 우리 DynMM의 두 번째 expert network ( $E_2$ )는 세 가지 modality로부터 입력을 받는 late fusion network [24]로 선택된다. gating network는 hidden dimension이 512이고 attention head가 2개인 경량 Transformer network로 설계되었으며, 그 뒤에 linear layer가 이어진다. gating network는 세 가지 modality의 연결된 feature를 입력으로 받아 추론 시 어떤 expert network를 활성화할지에 대한 sample-wise 결정을 생성한다. 우리는 Gumbel-softmax의 temperature를 1로 설정하고 straight-through training을 채택한다.

결과는 Table 2에 요약되어 있다. 우리는 서로 다른 $\lambda$ 값으로 학습된 세 가지 DynMM network를 제공한다. 가장 성능이 좋은 static network (즉, Late Fusion)와 비교했을 때, DynMM-a는 정확도가 약간 감소(-0.47%)하면서도 계산량을 46.5% 줄일 수 있다. 더 많은 계산을 허용함으로써, DynMM-b는 추론 효율성(MAdds를 17.8% 감소)과 예측 정확도를 모두 향상시킨다. 마지막으로, DynMM-c는 일부 계산을 희생하면서 정확도를 더욱 향상시킨다. 이는 계산 비용을 줄이면서도 최고의 정확도와 가장 작은 mean absolute error를 달성한다. 이러한 결과는 dynamic multimodal fusion의 큰 장점을 보여준다. 멀티모달 데이터는 본질적으로 중복성을 가지므로, 우리는 정확도 손실 없이 많은 계산을 줄일 수 있음을 관찰한다.

Method	Modality	$\mathrm{Acc}^{2}$ (%)	MAE	MAdds (M)
Video Network	V	69.02	0.80	123.1
Audio Network	A	67.68	0.82	123.3
Text Network ( $E_{1}$ )	T	78.35	0.62	124.7
$\overline{\text { Early Fusion [24] }}$	$\mathrm{V}+\mathrm{A}+\mathrm{T}$	$\overline{7} \overline{8} . \overline{45}$	0.65	$\overline{3} \overline{1} \overline{3} . \overline{5}$
Late Fusion [24] ( $E_{2}$ )		79.54	0.60	309.6
DynMM-a	$\mathrm{V}+\mathrm{A}+\mathrm{T}$	79.07	0.62	165.5
DynMM-b		79.73	0.61	254.5
DynMM-c		79.75	0.60	295.8

Table 2. CMU-MOSEI 감성 분석 결과. Modality V, A, T는 각각 비디오, 오디오, 텍스트를 나타낸다. Acc $^2$ 는 이진 정확도(즉, 긍정/부정 감성)를 나타내고, MAE는 평균 절대 오차(mean absolute error)를 나타낸다. MAdds는 비디오-오디오-텍스트 튜플로 측정된다. 각 DynMM 변형은 학습 중 정규화 하이퍼파라미터 $\lambda$ 의 다른 값을 사용하여 얻어진다.

- Hi, I'm here to review In the Name of the King
- It's a film currently in theaters
- (uhh) It's based on the xxx series of video games
- This one was horrible
- (uhh) It tries to be Lord of the Rings
- It has a many of orge like creatures, a wizard, a medieval time setting
- Basically stole everything out of Lord of the Rings but made a million
times worse
- (umhh) It's just everyone stay away from this film
- It was a horrible movie
- (umm) So yea that's In the Name of the King in a nutshell

Figure 5. CMU-MOSEI의 몇 가지 테스트 인스턴스에 대한 부정적인 감성 시각화. DynMM은 빨간색으로 표시된 문장을 "쉬운" 인스턴스로 식별하고 예측에 텍스트 정보만 사용한다. 파란색으로 표시된 문장의 경우, DynMM은 더 정확한 예측을 위해 멀티모달 입력(즉, 비디오+오디오+텍스트)을 사용한다.

어떤 modality를 선택할지에 대한 우리 gating network의 결정을 직관적으로 이해하기 위해, Figure 5에 몇 가지 테스트 인스턴스의 시각화 결과를 제공한다. 단순화를 위해 여기서는 텍스트 modality만 표시되었으며, 다른 두 modality(즉, 비디오 및 오디오)는 생략되었다. gating network는 빨간색으로 표시된 문장에 대해 $E_1$ 을, 진한 파란색으로 표시된 문장에 대해 $E_2$ 를 선택한다. 우리는 빨간색으로 표시된 문장이 종종 'horrible', 'amazingly good'과 같이 이 샘플의 감성을 나타내는 강력한 증거를 가지고 있음을 발견했다. 따라서 이들은 텍스트 modality만으로도 올바르게 예측될 수 있는 "쉬운" 샘플 범주에 속한다. 반대로, 진한 파란색으로 표시된 문장은 모호하며 예측을 돕기 위해 추가적인 modality를 필요로 한다. 이러한 결과는 gating function이 잘 학습되었으며 입력 특성을 기반으로 합리적인 결정을 제공할 수 있음을 나타낸다.

4.4. Semantic Segmentation

NYU Depth V2는 실내 semantic segmentation 데이터셋이다. 이 데이터셋은 40개 클래스 레이블을 가진 1,449개의 RGB-D 이미지로 구성되며, 이 중 795개 이미지는 학습에, 654개 이미지는 테스트에 사용된다. 두 가지 modality는 RGB 이미지와 depth 이미지이다.

Method	mIoU <br> $(\%)$	Depth Enc <br> MAdds (G)	MAdds <br> Reduction (%)
ESANet [35] (baseline)	50.5	24.7	-
DynMM (Stage I)	48.5	11.7	$52.6 \%$
DynMM-a (Stage II)	49.9	11.1	$55.1 \%$
DynMM-b (Stage II)	51.0	19.5	$21.1 \%$

Table 3. RGB-D semantic segmentation 결과. mIoU는 mean Intersection-over-Union을 나타낸다. MAdds는 $3 \times 480 \times 640$ 입력 크기에 대해 계산되었다. G는 Giga를 의미한다.

우리는 이 task에 fusion-level DynMM을 적용하고, (정적) 효율적인 아키텍처인 ESANet [35]을 기반으로 동적 아키텍처를 설계한다. Figure 3에서 보듯이, 우리는 encoder 설계에 4개의 fusion cell을 통합했으며, 각 fusion cell은 두 가지 연산을 포함한다. 연산 1은 RGB feature의 identity mapping으로, 즉 $O_1 = x_1$ 이다. 두 번째 연산으로는 channel attention fusion을 사용하는데, 이때 두 modality의 feature는 먼저 Squeeze and Excitation 모듈 [15]로 재가중치(reweight)된 후 element-wise로 더해진다.
RGB 및 depth modality의 feature 추출 모델로는 두 개의 ResNet-50 [13]이 사용된다. decoder 설계는 [35]와 동일하다. gating network는 kernel size $5 \times 5$ , stride size 2의 2개 convolution block, global average pooling, 그리고 linear layer로 구성된 파이프라인이다. 첫 번째 convolutional layer 이후의 RGB 및 depth feature는 함께 concatenate되어 convolutional gate로 전달된다. gating network는 샘플당 4차원 벡터를 출력하며, 이 벡터는 각 fusion cell에 대해 어떤 연산을 선택할지 결정한다.
우리는 두 가지 학습 전략을 실험했다: (1) Table 3의 DynMM-a는 Gumbel-softmax temperature $\tau=1$ 을 사용한 straight-through technique으로 학습되었다. (2) Table 3의 DynMM-b는 500 epoch 동안 $\tau$ 를 1에서 0.0001로 지수적으로 감소시키면서 학습되었다.

Method	Modality	Backbone	mIoU (%)	MAdds (G)
LW-RefineNet [31]	RGB	ResNet-50	41.7	38.5
LW-RefineNet [31]		ResNet-101	43.6	61.2
$\overline{\mathrm{A}} \overline{\mathrm{C}} \overline{\mathrm{N}} \overline{\mathrm{et}}$ [16]	RGB+D	$\overline{\mathrm{Re}} \overline{\mathrm{Re}} \overline{\mathrm{Ne}} \overline{\mathrm{et}}-\overline{5} \overline{0}$	48.3	126.2
SA-Gate [8]		ResNet-50	50.4	147.6
CEN [45]		ResNet-101	51.1	618.3
ESANet [35]		ResNet-50	50.5	56.9
DynMM-a	RGB+D	ResNet-50	49.9	43.4
DynMM-b		ResNet-50	51.0	52.2

Table 4. NYU Depth V2 테스트 데이터에서 RGB-D semantic segmentation에 대한 우리 접근 방식과 SOTA 방법들의 비교.

Table 3은 fusion-level DynMM의 상세 결과를 제공한다. 두 번째 행에는 1단계 학습 후 DynMM의 성능을 보고하는데, 이는 사전학습 단계에서 우리의 무작위 gating function 설계의 유효성을 입증한다. 또한 이는 멀티모달 네트워크에 많은 중복성(redundancy)이 존재한다는 우리의 주장을 뒷받침한다. depth modality가 이 task에서 보조적인 역할을 한다는 점을 활용하여, fusion-level DynMM은 depth encoder의 연산을 효과적으로 줄인다. DynMM-a는 mIoU가 단 0.4% 감소하면서 MAdds를 55.1% 감소시킨다. 나아가, DynMM-b는 mIoU를 0.7% 향상시키면서 동시에 MAdds를 21.1% 감소시켜, 정적 fusion 방식보다 DynMM의 우수성을 입증한다.

Table 4는 최종 DynMM-a 및 DynMM-b와 SOTA semantic segmentation 방법들을 비교한 결과이다. baseline 방법들의 경우, 원 논문에 보고된 mIoU와 MAdds를 기재하였다. 이 결과들은 우리가 제안한 방법이 성능과 효율성 사이에서 최상의 균형을 달성함을 명확히 보여준다. DynMM의 연산 비용은 unimodal 경량 RefineNet과 유사하지만, ResNet-101을 backbone으로 사용하고 훨씬 더 많은 MAdds를 포함하는 방법들과 성능이 대등하다.

마지막으로, 우리는 ESANet과 비교하여 DynMM의 향상된 강건성(robustness)을 입증하기 위한 실험을 수행했다. 우리는 1/3의 확률로 무작위 Gaussian noise를 주입하는 세 가지 설정을 고려했다: (1) RGB modality; (2) depth modality; (3) 두 modality 모두. 우리는 다양한 수준의 무작위 Gaussian noise를 사용하여 실험하고, Figure 6에 두 접근 방식의 성능 저하를 그래프로 나타냈다. 그림에서, depth 이미지의 noise 수준이 증가할수록 DynMM과 ESANet 간의 성능 격차가 커지는 것을 관찰할 수 있다. 이는 데이터 noise를 줄이고 강건성을 향상시키는 DynMM의 또 다른 장점을 보여준다. Figure 7은 몇 가지 정성적인 segmentation 결과를 보여준다. ESANet은 일반적인 설정(즉, 첫 번째 및 세 번째 행)에서는 합리적인 예측을 생성하지만, 멀티모달 데이터가 noise에 의해 교란될 때(즉, 두 번째 및 네 번째 행) 성능이 현저히 나빠진다. 반대로, 우리의 DynMM은 noise에 강건하며 두 시나리오 모두에서 좋은 예측을 제공한다. 이러한 결과는 동적 신경망 아키텍처가 멀티모달 fusion의 강건성을 향상시킬 잠재력이 있음을 시사한다.

Figure 6. RGB/depth 이미지에 다양한 수준의 Gaussian noise를 주입했을 때 NYU Depth V2에서 DynMM과 ESANet의 비교.

Figure 7. NYU Depth V2의 정성적인 segmentation 결과. DynMM은 정적 ESANet에 비해 noisy한 멀티모달 데이터에 더 강건하다.

5. Conclusion

멀티모달 데이터는 모델이 풍부한 표현 공간(representation space)으로부터 학습할 수 있도록 하지만, 동시에 **상당한 중복성(redundancy)**을 야기하기도 한다. 이러한 관찰에 동기를 받아, 우리는 **추론 시 입력값을 적응적으로 융합하는 새로운 접근 방식인 dynamic multimodal fusion (DynMM)**을 제안하였다. 세 가지 매우 다른 멀티모달 task에 대한 실험 결과는 DynMM의 효능을 입증한다. 더 중요한 것은, 우리의 연구가 dynamic multimodal fusion의 잠재력을 보여주며 새로운 연구 방향을 제시한다는 점이다. **dynamic architecture의 이점(즉, 연산량 감소, 성능 및 견고성 향상)**을 고려할 때, 우리는 멀티모달 융합에 특화된 dynamic network를 개발하는 것이 추가적인 연구 가치가 있는 주제라고 믿는다.

DynMM은 한계점을 가지고 있으며, 우리는 향후 연구에서 다음 세 가지 개선 영역을 통해 이를 해결할 계획이다. 여기에는 멀티모달 중복성을 고려할 수 있는 더 나은 dynamic architecture 설계, 긴 비디오 예측과 같은 순차적 의사결정(sequential decision-making) task로 DynMM 확장, 그리고 다양한 멀티모달 task 및 modality에서 DynMM의 성능 탐색이 포함된다.

A. Implementation Details

MM-IMDB. $E_1$ 은 **2-layer MLP(hidden dimension=512)**를 텍스트 인코더 및 디코더로 사용하는 unimodal 텍스트 네트워크이다. $E_2$ 는 multimodal late fusion 네트워크로, 텍스트 및 이미지 인코더를 사용하여 feature를 추출하고, unimodal feature들을 concatenate한 다음, concatenate된 feature들을 **MLP 디코더(hidden dimension=1024)**에 전달한다. 텍스트 인코더는 $E_1$ 과 동일하며, 이미지 인코더는 **2-layer MLP(hidden dimension=1024)**이다. 우리는 AdamW optimizer를 사용하며, lr=1e-4, weight decay=1e-2로 설정하였다.

CMU-MOSEI. $E_1$ 은 **5-layer Transformer encoder(hidden dimension=120; 5 attention heads)**와 **2-layer MLP decoder(hidden dimension=64)**로 구성된 텍스트 네트워크이다. $E_2$ 는 비디오, 오디오, 텍스트 인코더가 5-layer Transformer로 구성되고 **2-layer MLP decoder(hidden dimension=128)**를 사용하는 multimodal late fusion 네트워크이다. 우리는 AdamW optimizer를 사용하며, lr=1e-4, weight decay=1e-4로 설정하였다.

NYU Depth V2. 이미지 및 깊이 인코더는 ResNet-50이며, 디코더는 ESANet [35]과 동일하다. 우리는 SGD optimizer를 사용하며, weight decay=1e-4, momentum=0.9로 설정하였고, OneCycleLR을 max_lr=1e-2로 사용하였다.

gating network는 $E_1$ 및 $E_2$ 모델 아키텍처와 일치하도록 설계되었다. 따라서 MM-IMDB에는 MLP gate를, CMU-MOSEI에는 Transformer gate를, NYU Depth V2에는 convolution gate를 사용한다.

Equations (1)-(2)에서 $C(E_i)$ 는 $E_i$ 로 한 번의 forward pass를 수행하는 데 필요한 **MACs(Multiply-Accumulate Operations)**로 설정된다. 예를 들어 MM-IMDB의 경우: $E_1$ 과 $E_2$ 를 실행하는 데 필요한 MACs는 각각 1.25M과 10.87M이다. gating network가 $E_1$ 을 선택하면 하나의 데이터 샘플에 대한 **resource loss는 $\lambda$ **이고, $E_2$ 를 선택하면 ** $\lambda \times \frac{10.87}{1.25}$ **이다. Table 1-2에 보고된 DynMM 변형 모델들은 정규화 파라미터 $\lambda$ 의 다른 값을 사용하여 얻어졌다.

B. Visualization Results

우리가 제안하는 DynMM에서 gating network는 어떤 expert network를 채택할지에 대한 데이터 의존적인 결정을 제공하므로 매우 중요하다. Modality-level DynMM의 경우, 본 논문의 Figure 5에서 CMU-MOSEI 데이터셋의 일부 테스트 인스턴스에 대한 gating network의 결정을 시각화하여 제시하였다. 마찬가지로, fusion-level DynMM의 경우, Appendix의 Figure 8에서 NYU Depth V2 데이터셋의 여러 테스트 인스턴스와 그에 따른 아키텍처를 시각화하여 보여준다.

Figure 8에서 우리는 DynMM이 멀티모달 입력에 대해 forward path를 적응적으로 실행함을 확인할 수 있다. Depth feature는 RGB feature와 gating network에 의해 결정된 다양한 정도로 결합된다. 이는 샘플 단위로 멀티모달 융합을 제어하는 유연한 방법을 제공한다. 상단 그림의 RGB-D 이미지의 경우, DynMM은 첫 번째 블록 이후 멀티모달 feature에 대해 한 번의 융합을 수행하고, depth 블록 2-4의 연산을 절약한다. 하단 그림의 더 어려운 테스트 샘플의 경우, DynMM은 멀티모달 정보를 더 잘 통합하기 위해 모든 레이어에서 feature를 융합하기로 결정한다. 이러한 동적 아키텍처 덕분에 DynMM은 효율성과 성능 사이에서 좋은 균형을 이룬다.

C. Analysis of Regularization Strength

메인 논문의 Equation (1)과 (2)에서 resource-aware loss function을 제안했으며, 여기서 $\lambda$ 는 task loss와 computation cost loss의 상대적 중요도를 제어하는 하이퍼파라미터이다. 메인 논문의 Figure 4(즉, MM-IMDB에 대한 $\lambda$ 분석)와 유사하게, 우리는 CMU-MOSEI 감성 분석 데이터셋으로 DynMM을 학습시킬 때 $\lambda$ 값을 변경하고, 각 $\lambda$ 값에 해당하는 computation cost와 성능을 보고한다. 그 결과는 이 Appendix의 Figure 9에 제시되어 있다. Figure 9 (a)에서 DynMM이 추론 효율성과 정확도 사이에서 좋은 균형을 이룬다는 것을 알 수 있다. 또한, DynMM은 $\lambda$ 를 통해 제어할 수 있는 다양한 선택지를 제공하여 뛰어난 유연성을 보여준다. Figure 9 (b)는 다른 $\lambda$ 값에 대한 DynMM의 branch selection ratio를 보여준다. $\lambda$ 가 작을 때, DynMM은 성능에 더 집중하여 대부분 expert network 2를 선택한다. $\lambda$ 가 증가함에 따라, 더 적은 연산을 요구하는 expert network 1으로 더 많은 테스트 샘플이 라우팅된다.

D. Ablation Study

제안된 학습 전략의 효과를 검증하기 위해, 우리는 NYU Depth V2 데이터셋에서 RGB-D semantic segmentation에 대한 ablation study를 수행한다. 우리는 DynMM을 세 가지 설정으로 학습시켰다: (1) 사전학습 단계를 생략하고 DynMM을 단일 단계로 학습시킨다. (2) 학습의 두 번째 단계에서 멀티모달 아키텍처의 가중치를 고정하고 gating network만 fine-tuning한다. (3) 멀티모달 네트워크와 gating network의 공동 최적화를 포함하는 제안된 2단계 학습 방식을 채택한다. 다른 학습 파라미터(예: learning rate, resource regularization strength $\lambda$ )는 동일하게 설정한다. 결과는 아래 Table 5에 제시되어 있다.

Method	Two-stage <br> Training	Joint <br> Optimization	$\operatorname{mIoU}(\%)$
Baseline			50.3
DynMM	$\checkmark$		-49.2
	$\checkmark$	$\checkmark$	50.2

Table 5. RGB-D semantic segmentation에 대한 ablation study. Baseline은 static 모델(ESANet)을 의미한다.

Figure 8. NYU Depth V2 데이터셋의 몇 가지 테스트 인스턴스를 시각화한 결과. $x_{1}$ 과 $x_{2}$ 는 각각 RGB 이미지와 depth 이미지를 나타낸다. gating network 결정에 기반한 해당 네트워크 아키텍처가 표시되어 있다. 상단 그림은 gating network가 early fusion 아키텍처를 선택한 예시를 보여준다. DynMM은 depth extraction layer의 연산을 건너뛰어 추론 비용을 절감한다. 하단 그림은 gating network가 모든 중간 layer에서 representation을 융합하기로 결정한 예시를 보여준다.

Figure 9. CMU-MOSEI에서 다양한 resource regularization 강도( $\lambda$ )에 따른 DynMM 분석. (a): DynMM과 static unimodal (UM) 및 multimodal (MM) baseline의 비교. (b): $\lambda$ 에 따른 DynMM의 branch 선택 비율.

Table 5는 우리가 제안한 학습 전략의 장점을 보여준다. 우리는 단일 단계 학습을 사용한 DynMM이 동적인 아키텍처를 가지지 않음을 관찰했다. 즉, 모든 테스트 샘플이 특정 하나의 forward path로 라우팅된다. 사전학습 단계가 없으면, 모든 forward path가 동등하게 최적화되지 않는다. 편향된 최적화는 49.2%의 mIoU와 같은 suboptimal 성능으로 이어진다. 2단계 학습 외에도 공동 최적화(joint optimization) 또한 중요한 역할을 한다. 우리는 end-to-end 학습을 통해 mIoU가 0.8% 향상됨을 관찰했다. 가능한 이유는 (static) feature extraction layer 또한 공동 최적화 과정에서 개선되어, gating network에 더 유익한 feature를 입력으로 제공하여 더 나은 gating network 결정을 유도하기 때문이다. 따라서 공동 최적화가 전반적으로 가장 우수한 성능을 달성한다.

Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion

논문 요약: Dynamic Multimodal Fusion

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

Dynamic Multimodal Fusion

Abstract