GENIUS: 쿼리 하나로 모든 종류의 데이터를 검색하는 범용 멀티모달 검색 프레임워크
GENIUS는 다양한 모달리티와 도메인에 걸쳐 여러 검색 작업을 지원하는 범용 생성형 검색 프레임워크입니다. 기존의 embedding 기반 검색 방식과 달리, GENIUS는 쿼리를 기반으로 타겟 데이터의 식별자(ID)를 직접 생성합니다. 이 프레임워크의 핵심은 modality-decoupled semantic quantization 기술로, 멀티모달 데이터를 모달리티와 시맨틱 정보를 모두 담은 이산 ID로 변환합니다. 또한, 쿼리와 타겟을 보간하는 query augmentation을 통해 모델의 일반화 성능을 향상시킵니다. GENIUS는 기존 생성형 검색 모델보다 월등한 성능을 보이며, 데이터베이스 크기에 관계없이 빠른 검색 속도를 유지합니다. 임베딩 기반 re-ranking을 추가하면 효율성을 유지하면서도 embedding 기반 모델에 근접한 성능을 달성합니다. 논문 제목: GENIUS: A Generative Framework for Universal Multimodal Search
Kim, Sungyeon, et al. "GENIUS: A generative framework for universal multimodal search." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
GENIUS: A Generative Framework for Universal Multimodal Search
Abstract
Generative retrieval은 정보 검색 분야에서 새롭게 부상하는 접근 방식으로, 쿼리를 기반으로 대상 데이터의 ID(식별자)를 생성하여 기존의 embedding 기반 검색 방법에 대한 효율적인 대안을 제공한다. 그러나 기존 모델들은 task-specific하며 성능 면에서 embedding 기반 검색에 미치지 못한다.
본 논문은 다양한 task와 여러 modality 및 domain을 지원하는 범용 generative retrieval 프레임워크인 GENIUS를 제안한다. GENIUS의 핵심은 modality-decoupled semantic quantization을 도입하여, 멀티모달 데이터를 modality와 semantics를 모두 인코딩하는 이산적인 ID로 변환하는 것이다.
또한, 일반화 성능을 향상시키기 위해 쿼리와 그 대상 사이를 보간(interpolate)하는 쿼리 증강(query augmentation) 기법을 제안하여, GENIUS가 다양한 쿼리 형태에 적응할 수 있도록 한다.
M-BEIR 벤치마크에서 평가한 결과, GENIUS는 이전 generative 방법들을 큰 차이로 능가한다. Embedding 기반 검색과 달리, GENIUS는 데이터베이스 크기에 관계없이 일관되게 높은 검색 속도를 유지하며, 여러 벤치마크에서 경쟁력 있는 성능을 보여준다. 추가적인 reranking을 통해 GENIUS는 효율성을 유지하면서도 embedding 기반 방법들과 유사한 결과를 자주 달성한다.
1. Introduction
**Information Retrieval (IR)**은 대규모 데이터베이스에서 관련 정보를 찾는 기본적인 task이다 [35, 47]. 데이터의 급증과 함께 효율적이고 정확한 IR은 그 어느 때보다 필수적이다. 기존의 IR 접근 방식은 일반적으로 embed-and-retrieve 패러다임을 따르며, 이는 embedding-based retrieval로 알려져 있다 (Fig. 1(a)). 이들은 쿼리와 데이터베이스를 metric learning [21, 38, 48, 49, 53, 60]을 통해 학습된 고차원 embedding 공간에 임베딩한 다음, 쿼리의 가장 가까운 이웃(nearest neighbors)을 찾는다. 그러나 데이터베이스가 확장됨에 따라, HNSW [34] 및 Faiss [9]와 같은 approximate nearest neighbor search를 사용하더라도 인덱스 구축, 유지 관리 및 nearest neighbor search 비용이 급격히 증가하여 확장성 문제가 발생한다.
최근에는 generative retrieval이 유망한 대안으로 부상했다. Differentiable Search Index [52] 및 SPLADE [11]에서 영감을 받은 이 접근 방식은 쿼리로부터 직접 대상 데이터의 식별자(ID)를 생성하여 nearest neighbor search를 우회한다. 그러나 이 연구 분야의 기존 방법들은 task-specific 설계로 인해 기능이 제한적이다. 대부분은 텍스트 검색 [52, 54]에 전념하며, 최근 몇몇 연구만이 이미지 [63] 및 cross-modal retrieval [27]을 다룬다 (Fig. 1(b)). 따라서 이러한 방법들은 실제 애플리케이션에서 사용자의 다양하고 멀티모달적인 요구를 충족시키지 못한다. 더욱이, 기존 generative 방법들은 cross-modal retrieval에서 embedding-based retrieval 방법보다 성능이 떨어진다 [27, 63].
Figure 1. 세 가지 Information Retrieval 패러다임의 그림. (a) Embedding-based retrieval: 쿼리와 후보가 임베딩되고 유사성이 측정된다. (b) 기존 generative retrieval: task-specific 식별자를 생성한다. (c) GENIUS 프레임워크: 쿼리 및 지침을 기반으로 모달리티 전반에 걸쳐 식별자를 생성하며, 첫 번째 레벨 코드는 모달리티를 나타낸다.
본 논문에서는 **다양한 모달리티에 걸쳐 다양한 검색 task를 처리하는 최초의 generative retrieval 프레임워크인 GENerative Universal multimodal Search (GENIUS)**를 제안한다. GENIUS에서 각 task는 사용자의 의도를 명확히 하는 지침이 포함된 멀티모달 쿼리를 기반으로 지정된 유형의 데이터를 찾는 것으로 정의된다. 우리 프레임워크는 지침을 사용하여 데이터베이스 내의 다양한 데이터 중에서 적절한 형식과 도메인의 데이터를 검색한다. 특정 모달리티나 task에 국한된 이전 generative 방법과 달리, GENIUS는 이질적인 모달리티에 걸쳐 관련 데이터의 ID를 생성하여 광범위한 검색 시나리오를 효과적으로 처리한다. GENIUS는 쿼리와 지침을 처리하는 멀티모달 encoder와 이 입력을 기반으로 대상 ID를 생성하는 decoder로 구성되며, 이는 Fig. 2에 설명되어 있다.
GENIUS의 핵심 기여는 멀티모달 데이터에 대상 ID를 할당하기 위한 모달리티-분리(modality-decoupled) semantic quantization이다. 이는 멀티모달 데이터를 의미론적 내용과 모달리티를 모두 포착하는 압축된 계층적 표현으로 변환한다. Fig. 1(c)는 이 개념을 보여주며, 각 대상 ID는 두 가지 구성 요소로 이루어진 이산 코드 시퀀스로 표현된다. 대상 ID의 첫 번째 코드는 데이터 모달리티를 나타낸다 (예: 이미지의 경우 0, 텍스트의 경우 1, 이미지-텍스트 쌍의 경우 2). 이는 대상의 모달리티를 지정하는 지침으로 quantization 모델을 학습함으로써 달성되며, GENIUS가 대상의 다른 모달리티를 분리할 수 있도록 한다. 이후의 코드들은 모달리티 간의 호환성을 보장하면서 데이터의 의미론적 내용을 포착한다. 예를 들어, 이미지와 텍스트가 유사한 내용을 가질 때, 그들의 ID는 특히 선행 코드(모달리티 인코딩을 위해 유지되는 첫 번째 코드를 제외하고)에서 모달리티에 관계없이 유사해야 한다. 이는 residual quantization과 결합된 contrastive learning을 통해 달성되며, 이는 의미론적으로 관련된 항목들을 클러스터링하여 거친(coarse) granularity에서 미세한(fine) granularity까지 미묘한 표현을 가능하게 한다.
다음으로, 우리는 주어진 쿼리로부터 대상 ID를 생성하도록 decoder를 학습시킨다. 이러한 압축된 ID는 효과적이지만, 본질적으로 dense embedding보다 정보가 적게 포함되어 있다. 결과적으로, 모델은 특히 제한된 쿼리-대상 쌍으로 인해 새롭거나 다양한 쿼리에 일반화하는 데 어려움을 겪을 수 있다. 이를 해결하기 위해 Query Augmentation 전략을 도입한다. 이 전략은 쿼리와 해당 대상의 embedding 간의 선형 보간(linear interpolation)을 통해 증강된 쿼리를 생성한다. 학습에 이러한 증강된 쿼리를 포함하면 동일한 의미를 유지하는 다양한 쿼리 예시로 데이터를 풍부하게 한다. 이 증강은 decoder가 쿼리에서 대상 ID로의 보다 일반화된 매핑을 학습하게 하여, 테스트 시 쿼리 구성의 변화에 강건하게 만든다.
우리는 멀티모달 검색 task에 대한 지침을 포함하는 대규모 멀티모달 벤치마크인 M-BEIR [56]에서 GENIUS를 학습하고 평가한다. GENIUS는 텍스트-이미지 검색을 위한 COCO 데이터셋 [28]에서 Recall@5에서 최고의 generative retrieval 방법보다 28.6점 높은 성능을 보인다. 이전 generative 모델과 달리, GENIUS는 더 넓은 범위의 task를 지원하며 여러 task에서 embedding-based retrieval 방법과의 성능 격차를 크게 좁힌다. 데이터베이스 크기에 관계없이 거의 일정한 검색 속도를 유지하며, 이전 generative 방법보다 빠르게 작동한다. 더욱이, 예측된 후보를 오직 embedding만을 기반으로 재순위화(re-ranking)함으로써, GENIUS는 높은 효율성을 유지하면서 여러 task에서 embedding-based baseline과 유사한 결과를 자주 달성한다. 이러한 다재다능함, 성능 및 효율성의 조합은 generative multimodal retrieval의 큰 진전을 의미한다.
2. Related Work
2.1. Multimodal Information Retrieval
**멀티모달 정보 검색(Multimodal Information Retrieval, IR)**은 특히 **텍스트-이미지 검색(text-to-image retrieval)**과 같은 cross-modal task에서 크게 발전해왔다. 전통적인 방법들은 크게 두 가지 주요 접근 방식으로 나뉜다: multi-encoder 방식과 cross-attention을 사용하는 single-encoder 방식이다.
- Multi-encoder 모델 [14, 17, 20, 42, 62, 64]은 시각 및 텍스트 feature와 기타 형식의 feature들을 **공유 임베딩 공간(shared embedding space)**으로 효율적으로 매핑한다.
- Single-encoder 모델 [23-25, 57]은 더 상세한 **모달리티 상호작용(modality interaction)**을 제공하지만, 더 높은 계산 비용을 수반한다.
최근 IR의 발전은 사용자 피드백을 기반으로 이미지와 텍스트 입력을 통합하는 composed image retrieval (CIR) task를 도입했다 [2,3,46]. Fine-grained retrieval 또한 모델이 복잡한 멀티모달 쿼리를 처리하도록 요구하며, 추가적인 도전 과제를 제시한다 [6,33].
더 나아가, WebQA [5]와 같은 벤치마크와 UniIR [56]과 같은 프레임워크는 IR 기능을 확장하여 다양한 데이터 유형을 검색하고, 여러 데이터셋에 걸쳐 통합 검색(unified retrieval)을 지원하여 더 넓은 일반화를 가능하게 한다. 대부분의 검색 방법은 embed-to-retrieve 패러다임을 따르지만, 최근 연구 [27,63]에서는 **멀티모달 task를 처리하기 위한 생성적 접근 방식(generative approaches)**을 탐색하기 시작했으며, 이는 아직 크게 연구되지 않은 분야로 남아있다.
2.2. Generative Retrieval
Generative retrieval은 최근 주로 텍스트 기반 문서 검색을 목표로 하는 혁신적인 패러다임으로 부상했다. 초기 연구들은 문서들을 효과적으로 표현하기 위해 엔티티 이름이나 구절 제목과 같은 간결한 식별자(ID)를 생성하는 것을 탐구했다 [4, 8]. 이러한 접근 방식은 NCI [55] 및 DSI [52]와 같은 보다 일반화된 방법으로 발전했으며, 이들은 문서 임베딩의 계층적 클러스터링과 사전학습된 language model을 사용하여 문서 식별자를 효과적으로 할당한다. 최근 연구들은 이러한 개념들을 더욱 정교하게 다듬었으며 [10, 37, 39, 44, 51], 일부는 ID를 직접 학습하는 end-to-end 방법을 제안하기도 했다 [18, 50].
텍스트 검색은 언어의 본질적인 이산성(discreteness)으로부터 이점을 얻지만, generative retrieval을 다중 모달리티로 확장하는 것은 모달리티 간의 간극(modality gaps)을 해결하는 데 어려움을 야기한다. **GRACE [27]**는 이미지에 대한 semantic ID를 도입하여 cross-modal generative retrieval을 탐구한 몇 안 되는 연구 중 하나이며, **IRGen [63]**은 이미지 기반 검색에만 초점을 맞추고 단일 모달리티 시나리오를 넘어서는 task에서는 어려움을 겪는다. 이러한 모델들은 특정 시나리오를 위해 설계되었으며, 임베딩 기반 검색 방법보다 현저히 낮은 성능을 보여 실제 애플리케이션에서의 한계를 드러낸다. 우리의 연구는 텍스트와 이미지 전반에 걸쳐 ID를 동적으로 생성하여 더 넓은 범위의 검색 task를 지원하는 범용 프레임워크를 도입함으로써 이러한 한계들을 해결한다.
Figure 2. GENIUS 프레임워크 개요. GENIUS는 이미지 및 텍스트 인코더, 모달리티 분리 양자화(modality-decoupled quantization) 모듈, 그리고 autoregressive decoder의 세 가지 구성 요소로 이루어져 있다. 이 프레임워크는 세 단계의 학습 과정을 따른다. 첫째, 이미지-텍스트 인코더는 instruction 이해 및 표현 능력을 향상시키기 위해 사전학습된다. 다음으로, residual quantization이 학습되어 후보 임베딩에 이산 ID를 할당하는데, 이때 첫 번째 양자화 레벨은 모달리티 정보를 포착하고, 후속 레벨은 semantic 세부 정보를 인코딩한다. 마지막으로, decoder는 모달리티가 분리된 semantic ID를 생성하도록 학습된다. 추론 시, GENIUS는 Trie-constrained beam search를 사용하여 쿼리로부터 후보 ID를 생성하며, 검색 정확도를 더욱 향상시키기 위해 임베딩 기반 재순위화(re-ranking)가 추가로 수행된다.
3. Problem Formulation
Universal multimodal search [56]는 사용자 지시 에 기반하여 다양한 task에 걸쳐 대상을 쿼리하고 검색하는 것을 목표로 한다. 이 설정에서 우리는 쿼리 를 쿼리 내용과 지시의 조합으로 정의하며, 이는 로 표현된다. 여기서 은 이미지 , 텍스트 , 또는 이미지-텍스트가 섞인 쌍 등 다양한 형태를 취할 수 있다. 대상 후보 는 **이미지 , 텍스트 , 또는 이미지-텍스트가 섞인 쌍 **으로 표현될 수 있다.
우리는 universal generative multimodal search를 쿼리 에 조건화되어 관련 대상 의 ID 를 생성하는 과정으로 공식화한다:
여기서 는 encoder와 decoder의 파라미터를 나타내고, 는 이전에 생성된 토큰들이며, 는 주어진 context에 대한 다음 토큰의 확률 분포이다. 즉, 모델은 조건부 확률을 최대화하는 토큰 를 순차적으로 예측함으로써 ID 를 생성한다. 이 생성적 접근 방식은 전체 대상 데이터셋에 걸친 유사도 계산, 인덱싱 및 랭킹의 필요성을 제거하여 검색을 효율적이고 확장 가능하게 만든다.
4. Proposed Method
범용 생성 검색(universal generative retrieval) 문제를 해결하기 위해, 우리는 **GENeratIve Universal multimodal Search (GENIUS)**를 제안한다. GENIUS는 멀티모달 쿼리 및 지시(instruction)에 따라 다양한 모달리티에 걸쳐 타겟 ID를 생성하는 것을 목표로 한다.
Fig. 2에 나타난 바와 같이, GENIUS는 세 가지 뚜렷한 학습 단계를 포함한다. 첫째, Sec. 4.1에서는 멀티모달 encoder pretraining에 대해 설명한다. 이는 encoder가 지시를 효과적으로 이해하고 의미 있는 이미지-텍스트 feature를 추출하여, 쿼리 의도와 타겟 의미를 정렬할 수 있도록 한다. 다음으로, Sec. 4.2에서는 modality-decoupled quantization module을 소개한다. 이 모듈은 멀티모달 embedding을 이산적인 ID로 양자화하여, 모달리티 및 의미 정보를 명시적으로 인코딩한다. 이 이산적인 ID들은 이후 decoder 학습을 위한 타겟 출력으로 사용된다. 마지막으로, Sec. 4.3에서는 autoregressive decoder 학습 과정을 제시한다. 이는 decoder가 쿼리로부터 modality-decoupled semantic ID를 직접 생성할 수 있도록 한다. Sec. 4.4에서는 GENIUS의 추론(inference) 파이프라인을 자세히 설명한다.
4.1. Encoder Pretraining
다양한 검색 task를 처리하기 위해, 모델은 쿼리 내용과 지시(instruction)를 모두 이해하여 쿼리와 타겟 간의 관계를 파악해야 한다. 우리는 이를 encoder pretraining을 통해 달성하며, 이는 멀티모달 encoder가 쿼리 의미론(semantics)과 지시 정보(instructive information)를 이해하도록 돕는다. 이미지 및 텍스트 encoder로는 **CLIP [42]**을 활용한다. 구체적으로, 텍스트 기반 쿼리 내용 와 지시 를 처리하기 위해 텍스트 encoder 를 사용하고, 이미지 입력 에는 이미지 encoder 를 사용한다.
쿼리와 해당 긍정 타겟(positive targets) 간의 강력한 정렬(alignment)을 보장하기 위해 contrastive learning을 사용한다. 쿼리 또는 타겟에 두 가지 양식(modality)이 모두 존재할 경우, 간단한 element-wise addition [32, 56]을 사용하여 feature들을 결합하여 통합된 embedding을 생성한다: 쿼리의 경우 , 타겟의 경우 이며, 여기서 는 embedding 차원이다. 쿼리와 타겟 embedding 간의 contrastive loss는 다음과 같이 정의된다:
여기서 는 쿼리 에 해당하는 타겟의 embedding이고, 는 모든 후보(candidate)들의 집합이며, 는 cosine similarity를 나타내고, 는 temperature 파라미터이다. 이 학습은 UniIR [56]의 CLIP 기반 학습 프레임워크를 따른다. 구현의 단순화를 위해, 우리는 UniIR의 사전학습된 가중치를 직접 활용한다. 이 단계 이후, 이미지 및 텍스트 encoder는 모두 고정(frozen)된다.
4.2. Modality-Decoupled Semantic Quantization
Generative retrieval에서 target은 decoder 모델의 출력 구조를 형성하는 discrete ID로 표현된다. target을 이러한 ID로 양자화하는 것은 검색 성능에 직접적인 영향을 미치므로 매우 중요하다. 기존 방법들과 달리 GENIUS는 여러 modality에 걸쳐 target 데이터를 검색하므로, 의미론적 내용을 정확하게 포착하면서도 다른 modality를 구별하는 것이 필수적이다.
이를 위해 우리는 modality 정보와 semantic 정보를 분리하여 표현하는 양자화 방법을 제안한다. 우리의 핵심 아이디어는 instruction을 포함하는 query를 사용하여 contrastive learning을 통해 modality와 semantic 정보를 모두 포착하는 embedding space를 제공하고, residual quantization (RQ) [22, 44, 61]을 통해 이러한 feature들을 체계적으로 분리하는 것이다. residual quantization의 고유한 특성을 활용하여 구조화된 코드 시퀀스를 생성할 수 있으며, 여기서 modality는 첫 번째 레벨에서 명시적으로 인코딩되고 semantic 세부 정보는 후속 레벨에서 점진적으로 정제된다.
4.2.1. Fusion Module for Quantization Input
모달리티와 의미론을 모두 포착하는 효과적인 **양자화(quantization)**를 위해, 우리는 통합된 멀티모달 임베딩을 양자화의 입력으로 구성한다. 이를 위해 우리는 이미지 및 텍스트 feature를 통합된 표현으로 결합하는 경량의 학습 가능한 모듈을 도입한다. 이전 연구 [3]에서 영감을 받아, 이 **융합 모듈(fusion module)**은 다음과 같이 정의된다:
여기서 는 와 의 연결(concatenation)에 적용되는 **다층 퍼셉트론(MLP)**을 통해 **추가적인 이중 모달 정보(bimodal information)**를 도입한다. **균형 파라미터 **는 연결된 이미지-텍스트 feature에 대한 sigmoid 활성화 함수를 가진 또 다른 MLP를 통해 동적으로 결정된다.
융합된 쿼리 임베딩은 로 계산되며, 융합된 타겟 임베딩은 로 계산된다. 이 융합 모듈은 양자화 프로세스의 목적 함수에 의해 양자화 모듈과 함께 최적화된다.
4.2.2. Contrastive Learning with Instruction
우리는 modality-decoupled quantization을 위한 입력 임베딩을 준비하기 위해 모달리티(modality)와 의미(semantic) 정보를 모두 통합하는 임베딩 공간을 구축한다. 타겟의 원하는 모달리티를 지정하는 지시(instruction)를 포함하는 쿼리를 사용하여, 이 쿼리와 해당 타겟 간의 정렬을 위해 contrastive loss를 적용한다. 이 loss는 동일한 의미와 모달리티를 가진 데이터는 임베딩 공간에서 서로 가깝게 만들고, 어느 한 측면이라도 다른 데이터는 서로 멀어지도록 유도한다. contrastive loss는 다음과 같이 정의된다:
여기서 는 쿼리 임베딩이고, 는 해당 타겟 임베딩이며, 는 모든 후보 타겟의 집합이다. 이 loss를 통해 임베딩 공간에 클러스터가 형성되는데, 각 모달리티 내의 더 큰 샘플 크기로 인해 모달리티 기반 그룹이 자연스럽게 형성되며, 이 클러스터 내에서는 의미적으로 유사한 데이터가 밀접하게 정렬된다.
4.2.3. Residual Quantization
Residual Quantization (RQ) [22, 44, 61]은 각 레벨에서 잔차(residual)를 양자화하여 임베딩을 근사하는 재귀적인 프로세스이다. 이 프로세스는 **점진적인 정보 분해(progressive information decomposition)**를 가능하게 하여, 서로 다른 레벨이 모달리티별(modality-specific) 및 의미론적(semantic) 요소를 분리하여 포착하도록 한다. RQ 프로세스는 임베딩 를 다음과 같이 이산 코드 시퀀스 로 변환한다:
여기서 은 양자화 레벨의 수이다. 초기 잔차 벡터 에서 시작하여, 우리는 재귀적으로 양자화를 수행한다. 각 단계 에서, 우리는 -번째 코드북 내에서 가장 가까운 이웃을 찾는다. 여기서 는 -번째 코드북의 크기이며, 현재 잔차 벡터에 가장 가까운 코드 임베딩 를 선택한다:
Figure 3. 모달리티 분리 의미론적 양자화(modality-decoupled semantic quantization)의 예시.
간단하게 설명하기 위해, 우리는 5단계의 코드를 사용하는 양자화 방식을 사용하며, 각 코드(첫 번째 코드 제외)는 최대 256의 값을 가진다.
**첫 번째 코드(상단)**는 모달리티를 나타낸다: 0은 이미지, 1은 텍스트, 2는 이미지-텍스트 쌍을 의미한다. 만약 지시(instruction)가 제공되면, 이 코드는 지시에서 지정된 모달리티에 맞춰 조정된다.
**두 번째 코드(중간)**는 모달리티 전반에 걸쳐 공유되는 주요 객체 또는 지배적인 의미를 나타내며,
**세 번째 코드(하단)**는 "두 개" 또는 "빨간색"과 같이 주요 객체의 핵심 속성을 포착하는데, 이는 객체나 데이터 유형에 걸쳐 일관적이다.
이러한 레벨을 넘어서는 더 미세하고 추가적인 정보가 표현을 풍부하게 하기 위해 통합된다. 이 시각화는 COCO 데이터셋 [28]의 예시를 기반으로 한다.
그리고 다음 레벨을 위한 잔차를 업데이트한다:
원래 임베딩은 레벨 까지의 코드 임베딩을 합산하여 근사되며, 우리는 이 근사를 양자화된 벡터 로 정의한다. 우리의 핵심 아이디어는 잔차 양자화의 고유한 속성을 활용하는 것이다. 이 속성은 각 레벨의 코드 임베딩이 해당 레벨에 특정한 잔차 정보를 나타낸다는 것이다. 이 속성은 레벨 간 정보의 점진적인 분리를 가능하게 한다. 우리는 이 속성을 활용하여 각 레벨에서 모달리티 및 의미론적 정보를 구별한다. 각 ID의 첫 번째 코드는 모달리티를 명시적으로 나타내며, 이미지, 텍스트 및 이미지-텍스트 쌍을 나타내기 위해 크기 의 코드북을 사용한다. 이후의 잔차는 모달리티 정보를 제외하여, 나머지 레벨이 의미론적 정보만을 coarse-to-fine 방식으로 인코딩하도록 한다.
4.2.4. Training Objectives
코드북과 fusion module 를 학습시키기 위해 우리는 다음과 같은 세 가지 loss를 사용한다. 할당된 코드와 원본 residual 간의 정렬을 보장하기 위해, 우리는 residual quantization loss를 적용한다:
여기서 는 stop-gradient operator를 나타내며, gradient가 코드북 엔트리를 직접 업데이트하는 것을 방지한다. 대신, 코드북 엔트리는 안정적인 업데이트를 위해 학습 단계 동안 지수 이동 평균(EMA) [45]을 통해 업데이트된다.
또한, 양자화된 공간에서 **의미적 유사성(semantic similarity)**을 더욱 강화하기 위해, 우리는 쿼리와 타겟의 양자화된 벡터 간의 평균 제곱 오차(MSE) loss를 로 도입한다. 여기서 와 는 각각 양자화된 쿼리 및 타겟 벡터이다. 학습 loss는 앞서 언급된 세 가지 loss의 선형 결합이다:
여기서 와 는 가중치 파라미터이다. 원본 임베딩 재구성에 초점을 맞춘 이전 방법들 [27]과 달리, 우리의 최적화는 contrastive 관계를 코드북에 인코딩하는 것을 목표로 한다. 그 결과, quantizer는 Fig. 3에서 보여지듯이 모달리티를 나타내는 초기 코드를 생성한다. 두 번째 코드는 **지배적인 의미(dominant semantics)**를 포착하며, 이후의 코드들은 **더 미세한 속성(finer attributes)**을 추가하여, 풍부하고 해석 가능한 의미를 보존하고 모달리티 간 검색 성능을 향상시키는 구조화된 표현을 생성한다.
4.3. Autoregressive Decoder for Retrieval
4.3.1. Decoder Training
마지막 단계는 주어진 쿼리에 대해 타겟의 ID를 생성하는 autoregressive decoder 모델을 학습하는 것이다. 우리는 T5 decoder 아키텍처 [43]를 채택하여 타겟 ID를 autoregressive하게 생성한다. decoder에 쿼리 임베딩을 조건으로 주기 위해, 우리는 MLP를 포함하는 경량 네트워크를 사용한다. 이 MLP는 쿼리 임베딩 를 개의 prefix 임베딩으로 매핑하며, 다음과 같이 재구성한다:
여기서 는 decoder의 hidden dimension을 나타낸다. 이 prefix 임베딩 는 cross-attention을 통해 decoder에 입력되어, 쿼리에 임베딩된 의미론적 정보(semantic information)를 기반으로 타겟 ID를 생성할 수 있게 한다.
이 생성 모델의 학습 손실(training loss)은 생성된 ID에 적용되는 cross-entropy loss이며, 다음과 같다:
이는 모델이 쿼리 임베딩을 타겟 ID로 매핑하는 것으로 간주될 수 있는, 쿼리에 조건화된 타겟 코드 시퀀스를 생성하도록 유도한다.
그러나, 이러한 이산적인 ID는 임베딩에 비해 본질적으로 제한된 표현 능력을 가지기 때문에, 특히 학습을 위한 쿼리-타겟 쌍이 적은 시나리오에서는 모델이 효과적으로 일반화하는 데 어려움을 겪을 수 있다. 텍스트 문서 생성 검색(text document generative retrieval)에서는 이러한 문제가 발생하지만, Doc2Query [40, 41]와 같은 방법을 사용하여 문서에서 다양한 쿼리를 생성함으로써 종종 해결된다. 하지만 이러한 방법은 멀티모달 검색에서는 실현 가능하지 않다.
4.3.2. Query Augmentation via Interpolation
위에서 언급된 문제를 해결하기 위해, 우리는 query-target interpolation 기반의 Query Augmentation을 제안한다. 이 기법은 타겟과 의미적으로 정렬된(semantically aligned) 다양한 augmented query를 생성하여 학습 데이터를 풍부하게 만든다.
보간된(interpolated) query embedding 는 다음과 같이 계산된다:
여기서 는 Beta 분포 에서 무작위로 샘플링된다. Decoder는 augmented query 와 함께 동일한 cross-entropy loss 로 학습된다. 이 전략은 타겟과의 관련성을 유지하는 다양한 augmented query를 생성하여, decoder가 query embedding으로부터 target ID로의 일반화된 매핑을 학습하는 데 도움을 준다. 이는 모델을 query의 변화에 더욱 강건하게(robust) 만들고, 일반화 성능을 향상시킨다.
4.4. Inference
Constrained beam search
GENIUS는 주어진 쿼리를 기반으로 ID를 생성하여 추론을 위한 관련 타겟을 검색한다. 우리는 beam search를 사용하여 후보들의 순위 목록을 생성하는데, 이는 여러 ID 시퀀스를 탐색하고 각 시퀀스 내 레벨의 로그 확률 합계로 순위를 매긴다. 그러나 유효하지 않은 ID가 생성될 위험을 방지하기 위해, 우리는 **Trie 구조 [12]를 가진 constrained beam search [8]**를 사용하여 모델이 실제 테스트 세트 ID와 일치하는 유효한 prefix만 생성하도록 제한한다. Trie는 모든 후보 ID로부터 미리 구성되어, decoder가 생성된 ID가 유효한지 확인할 수 있도록 한다. Trie를 사용한 검색의 시간 복잡도는 ID의 길이 에만 의존하는 이며, 이는 확장성을 크게 향상시킬 수 있다.
Embedding-based re-ranking
이러한 효율성에도 불구하고, discrete ID를 사용하는 generative retrieval은 discrete representation의 한계로 인해 embedding 기반 retrieval보다 성능이 떨어지는 경향이 있다. 이는 이전 연구 [27]에서도 관찰된 바 있다. 이를 해결하기 위해 우리는 re-ranking 방법을 제안한다: beam search를 통해 개의 후보 ID를 예측한 후, 이 후보들의 embedding과 쿼리 embedding 간의 유사도를 측정한다. 비교 횟수가 적기 때문에 이 방법은 무시할 만한 계산 비용으로 retrieval 정확도를 크게 향상시킨다.
5. Experiments
우리의 생성형 범용 검색(generative universal retrieval) 프레임워크의 효과를 평가하기 위해, 우리는 다양한 검색 task 및 도메인에 걸쳐 포괄적인 실험을 수행하였다. 이 실험에서 우리는 embedding 기반 검색 및 생성형 검색(generative retrieval) 패러다임 모두에서 state-of-the-art baseline 모델들과 우리 모델을 비교하였다.
5.1. Dataset and metrics
데이터셋 (Dataset)
우리는 여러 데이터셋을 결합한 **M-BEIR 데이터셋 [56]**을 사용한다. 이 데이터셋에는 다음과 같은 다양한 task를 위한 데이터셋이 포함된다:
- MS-COCO [28]: image-caption retrieval
- Fashion200K [15] 및 FashionIQ [58]: 패션 관련 task
- VisualNews [29]: 뉴스 이미지
- NIGHTS [13]: 이미지 유사도
또한, 복잡한 retrieval task는 OVEN [16], EDIS [30], CIRR [31] 데이터셋으로 다루며, **InfoSeek [7] 및 WebQA [5]**는 VQA 기반 retrieval을 위해 사용된다. 이러한 데이터셋들은 총 8개의 멀티모달 task를 포함하며, 560만 개의 후보(candidate)를 보유하고 있다.
평가 지표 (Evaluation metrics)
이전 연구 [56]에 따라, 우리는 **Recall@5 (R@5)**를 주요 지표로 보고하며, Fashion200K 및 FashionIQ의 경우 **Recall@10 (R@10)**을 사용한다.
5.2. Implementation Details
네트워크 아키텍처. UniIR [56]을 따라, 우리는 사전학습된 CLIP ViT-L/14 모델 [42]을 vision 및 text encoder로 사용한다. decoder로는 T5-small [43]을 사용하며, hidden dimension 로 설정하고 무작위로 초기화한다.
네트워크 최적화. 우리 모델은 AdamW optimizer로 최적화되며, RQ(Residual Quantization) 및 decoder 학습 모두에 의 learning rate를 사용한다. Residual quantization은 20 epoch 동안 학습되고, decoder는 cosine scheduling을 사용하여 30 epoch 동안 학습된다. 학습 시 batch size는 256을 사용한다.
하이퍼파라미터. Eq. 2의 contrastive learning temperature 는 0.01로 설정된다. Eq. 8의 파라미터 와 는 모두 100으로 고정되며, Eq. 11의 파라미터는 2로 설정된다. Eq. 9의 prefix embedding은 고정된 길이 30을 사용한다.
RQ의 코드북 구성. 우리의 기본 설정은 4096개의 코드북 크기와 9개의 레벨을 사용하며, 첫 번째 코드북만 3개의 고정된 크기를 가진다. 코드북은 첫 번째 학습 배치에 대해 -means clustering을 사용하여 초기화된다.
추론. Section 4.4에서 설명했듯이, 우리는 GENIUS를 두 가지 방식으로 평가한다: (i) constrained beam search (ii) embedding 기반의 beam search 후보 재순위화(reranking). 별도로 명시되지 않는 한, 두 방식 모두 기본 beam size 50을 사용한다. Embedding 기반 방법은 Faiss [9]를 이용한 nearest neighbor search로 평가된다.
| Method | | | | | | | | | | | | | | | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | | COCO | VN | F200K | WebQA | EDIS | WebQA | COCO | VN | F200K | NIGHTS | OVEN | InfoS | FIQ | CIR | OVEN | InfoS | | | R@5 | R@5 | R@10 | R@5 | R@5 | R@5 | R@5 | R@5 | R@10 | R@5 | R@5 | R@5 | R@10 | R@5 | R@5 | R@5 | | Embedding-based Retrieval | | | | | | | | | | | | | | | | | | CLIP-SF [56] | 81.1 | 42.6 | 18.0 | 84.7 | 59.4 | 78.7 | 92.3 | 43.1 | 18.3 | 32.0 | 45.5 | 27.9 | 24.4 | 44.6 | 67.6 | 48.9 | | BLIP-FF [56] | 79.7 | 23.4 | 26.1 | 80.0 | 50.9 | 79.8 | 89.9 | 22.8 | 28.9 | 33.0 | 41.0 | 22.4 | 29.2 | 52.2 | 55.8 | 33.0 | | Generative Retrieval | | | | | | | | | | | | | | | | | | IRGen [63] | 50.7 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | GRACE [27] | 39.5 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | GENIUS | 68.1 | 18.5 | 13.7 | 32.5 | 37.0 | 49.7 | 83.2 | 18.7 | 12.8 | 8.2 | 36.6 | 11.2 | 13.2 | 20.7 | 36.4 | 14.6 | | GENIUS | 78.0 | 27.4 | 16.2 | 44.6 | 44.3 | 60.6 | 91.1 | 28.4 | 16.3 | 30.2 | 41.9 | 20.7 | 19.3 | 39.5 | 52.5 | 30.1 |
Table 1. Task-specific Information Retrieval.
M-BEIR 데이터셋에서 task-specific pool로부터 검색된 방법들의 성능을 보여준다.
은 **예측된 후보 집합 내에서 embedding 벡터를 사용한 재순위화(re-ranking)**를 의미한다.
일부 데이터셋은 약어로 표기되었다:
VN-VisualNews, F200K-Fashion200K, InfoS-InfoSeek, FIQ-FashionIQ.
5.3. Baselines
학습 전략 (Training strategies)
우리는 두 가지 다른 학습 전략 하에서 모델을 평가한다:
(i) 단일 task fine-tuning: 각 특정 task에 대해 모델이 독립적으로 학습되고 평가되는 방식.
(ii) 통합 instruction fine-tuning: M-BEIR [56]에서 instruction guidance를 활용한 multi-task learning을 통해, 단일 모델이 여러 도메인과 모달리티에 걸쳐 retrieval task를 처리할 수 있도록 하는 방식.
Embedding 기반 retrieval baseline (Embedding-based retrieval baselines)
우리는 GENIUS를 UniIR [56]에서 제안된 CLIP [42] 및 BLIP [24]의 fine-tuned 변형 모델들과 비교한다. 이 baseline들은 두 가지 융합 전략을 사용한다:
- score-level fusion (SF): 출력 embedding 수준에서 정보를 융합하는 방식.
- feature-level fusion (FF): Transformer를 사용하여 feature 융합을 달성하는 방식.
Generative retrieval baseline (Generative retrieval baselines)
우리는 **GRACE [27]**와 **IRGen [63]**을 벤치마크로 사용한다. IRGen은 원래 image-to-image retrieval을 위한 모델이었으나, [26]에서 보고된 바와 같이 이미지 입력을 텍스트로 대체하여 text-to-image retrieval에 맞게 개조되었다. 이전의 generative 방법들은 단일 task를 위해 설계되었다는 점에 유의해야 한다.
5.4. Experimental Results
우리는 멀티모달 검색 모델을 세 가지 시나리오에서 평가한다: (i) task-specific 정보 검색: 단일 task 방법들과 공정한 비교를 위해 원본 데이터셋을 사용한다. (ii) 범용 정보 검색: 기존 생성적 접근 방식으로는 지원되지 않는 설정으로, 모델의 instruction-following 및 crossmodal 검색 능력을 평가하기 위해 560만 개의 항목으로 구성된 전체 M-BEIR 후보 풀을 활용한다. (iii) 텍스트-이미지 생성적 검색: 표준 생성적 검색 벤치마크(Flickr30K 및 MS-COCO)에서 평가하며, 각 데이터셋에 대해 모델을 개별적으로 학습하고 평가한다.
Task-specific 정보 검색
Table 1에서 GENIUS는 embedding 기반 검색 방법(CLIP-SF 및 BLIP-FF) 및 **기존 생성적 검색 baseline(GRACE 및 IRGen)**과 M-BEIR의 다양한 데이터셋에서 비교된다. 생성적 검색 방법은 단일 task 검색에서도 embedding 기반 방법에 비해 상당히 낮은 성능을 보인다. 특히, GENIUS는 COCO text-to-image 검색에서 이전 생성적 방법들보다 R@5에서 28.6점 더 높은 성능을 보여, embedding 기반 방법들과의 격차를 크게 좁혔다. GENIUS는 여러 데이터셋에서 경쟁력 있는 성능을 보여주며, embedding 기반 re-ranking을 통해 그 효과가 더욱 향상되어 여러 task에서 BLIP-FF를 능가한다. 그러나 GENIUS는 지식 집약적 검색 task(예: WebQA, InfoSeek)에서는 embedding 기반 검색에 비해 성능이 떨어진다. 이러한 한계는 이산 ID의 내재적 용량 때문일 가능성이 높으며, 향후 연구에서 다루어져야 할 부분이다.
| Task | Dataset | Embedding-based | Generative | ||
|---|---|---|---|---|---|
| BLIP | GENIUS | GENIUS | |||
| VisualNews | 42.6 | 23.0 | 18.5 | 27.3 | |
| MSCOCO | 77.9 | 75.6 | 55.1 | 68.0 | |
| Fashion200K | 17.8 | 25.4 | 13.7 | 16.2 | |
| WebQA | 84.7 | 79.5 | 31.1 | 42.9 | |
| EDIS | 59.4 | 50.3 | 36.6 | 44.1 | |
| WebQA | 78.8 | 79.7 | 49.0 | 59.7 | |
| VisualNews | 42.8 | 21.1 | 18.4 | 26.8 | |
| MSCOCO | 92.3 | 88.8 | 82.7 | 90.6 | |
| Fashion200K | 17.9 | 27.6 | 12.8 | 16.2 | |
| NIGHTS | 33.4 | 33.0 | 8.1 | 30.2 | |
| OVEN | 39.2 | 34.7 | 34.6 | 38.0 | |
| InfoSeek | 24.0 | 19.7 | 10.4 | 18.0 | |
| FashionIQ | 26.2 | 28.5 | 13.1 | 19.2 | |
| CIRR | 43.0 | 51.4 | 20.1 | 38.3 | |
| OVEN | 60.2 | 57.8 | 36.5 | 48.6 | |
| InfoSeek | 44.6 | 27.7 | 14.2 | 28.6 | |
| Average | 48.9 | 45.5 | 27.6 | 38.3 |
Table 2. 범용 정보 검색. Fashion200K 및 FashionIQ를 제외한 Recall@5 결과이며, 해당 데이터셋에서는 Recall@10이 보고되었다. 검색은 다양한 모달리티에 걸쳐 있는 전역 풀에서 수행된다. 은 예측된 후보 집합 내에서 embedding 벡터를 사용한 re-ranking을 나타낸다.
범용 정보 검색
Table 2는 M-BEIR 데이터셋의 전체 후보에 대한 다양한 검색 task 결과를 제시한다. 이전 설정과 달리, 이 범용 시나리오에서는 모델이 주어진 instruction에만 기반하여 대상 모달리티를 정확하게 식별해야 한다. GENIUS는 멀티모달 task 전반에 걸쳐 경쟁력 있는 성능과 다재다능함을 보여주지만, 일반적으로 embedding 기반 검색 baseline보다 낮은 결과를 달성한다.
텍스트-이미지 생성적 검색
Table 12는 Flickr30K [59] 및 MS-COCO [28] 데이터셋에서 GENIUS를 최신 생성적 검색 모델과 비교한다. GENIUS는 GRACE 및 IRGen과 같은 기존 생성적 baseline을 크게 능가하며, 두 데이터셋의 모든 지표에서 상당한 개선을 보여준다. embedding 기반 re-ranking을 통해 추가적인 성능 향상이 달성되어, 생성적 검색에서 state-of-the-art 결과를 얻는다.
| Method | Flickr30K | COCO | |||||
|---|---|---|---|---|---|---|---|
| R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | ||
| GRACE [27] | 37.4 | 59.5 | 66.2 | 16.7 | 39.2 | 50.3 | |
| IRGen [63] | 49.0 | 68.9 | 72.5 | 29.6 | 50.7 | 56.3 | |
| GENIUS | 60.6 | 84.0 | 90.5 | 40.1 | 66.2 | 75.8 | |
| GENIUS |
Table 3. 표준 생성적 검색 벤치마크(Flickr30K 및 MS-COCO)에서의 텍스트-이미지 검색 성능 비교. 은 re-ranking을 나타낸다. GENIUS를 포함한 모든 모델은 각 데이터셋에 대해 개별적으로 학습되고 평가된다.
| COCO | WebQA | ||||
|---|---|---|---|---|---|
| Method | CIRR | ||||
| GENIUS | 82.7 | 20.5 | |||
| w/o Modality-decoupled | 20.2 | 73.2 | 25.9 | 34.3 | 18.3 |
| w/o Query augmentation | 47.8 | 67.7 | 19.6 | 38.8 | 11.7 |
| w/o in Eq. 8 | 0.0 | 0.1 | 0.0 | 0.0 | 0.0 |
| w/o in Eq. 8 | 45.5 | 27.1 | 35.2 |
Table 4. GENIUS의 주요 구성 요소에 대한 ablation study (범용 정보 검색, R@5), 30개의 beam을 사용. I와 T는 각각 이미지 및 텍스트 모달리티를 나타내며, (I, T)는 이미지-텍스트 쌍이다.
5.5. Analysis
핵심 구성 요소에 대한 Ablation study.
Table 4는 전역 풀(global pool)로부터의 검색(retrieval) 시 핵심 구성 요소에 대한 ablation study 결과를 보여준다.
modality-decoupling을 제거하면 modality 판별 능력(modality discrimination)이 심각하게 저해되며, 특히 COCO text-to-image retrieval에서 두드러진다.
query augmentation을 제외하면 정확도가 감소하는데, 이는 강건성(robustness)에 대한 query augmentation의 기여를 강조한다.
contrastive loss ()는 modality-decoupled representation을 정렬하는 데 결정적인 역할을 한다. 이 loss가 없으면 query와 target feature가 정렬되지 않아 성능이 거의 0에 가까워진다.
MSE loss ()를 제외하면 codespace에서의 정렬이 약화되어 특정 데이터셋에서 성능이 저하된다.
효율성 분석.
우리는 embedding 기반 방법(CLIP)과 생성 기반 방법(GRACE, GENIUS) 간의 검색 효율성을 초당 쿼리 수(queries per second) 로 측정하여 Fig. 4에 제시하였다. GRACE와의 공정한 비교를 위해 이미지 후보군을 가진 텍스트 쿼리를 사용하였다.
후보 데이터셋 크기가 증가함에 따라, CLIP의 효율성은 최근접 이웃 검색(nearest neighbor search) 비용 증가로 인해 감소하는 반면, 생성 기반 방법들은 거의 일정한 효율성을 유지한다.
GENIUS는 T5-small decoder와 CLIP encoder를 탑재한 경량 모델이므로, Flamingo-3B 모델 [1]을 사용하는 GRACE보다 약 4배 높은 효율성을 달성한다.
데이터셋이 커질수록 효율성 이점은 더욱 커지며, embedding 기반 방법에서 흔히 발생하는 고비용의 인덱스 구축 없이도 대규모에서 높은 검색 속도를 유지한다.
Figure 4. 단일 RTX3090 GPU로 측정된, 다양한 데이터셋 크기에 따른 초당 처리 쿼리 수의 효율성.
| COCO | WebQA | CIRR | |||
|---|---|---|---|---|---|
| (Default) | 65.3 | 83.4 | 28.8 | 47.4 | 21.0 |
| 65.2 | 82.9 | 25.3 | 40.8 | 23.1 | |
| 62.4 | 81.5 | 17.3 | 33.1 | 20.4 | |
| 66.4 | 82.0 | 24.7 | 39.4 | 24.5 | |
| 61.2 | 76.6 | 18.3 | 33.5 | 18.3 | |
| 64.3 | 82.2 | 24.6 | 42.7 | 16.4 | |
| 53.4 | 72.4 | 9.7 | 22.8 | 13.0 |
Table 5. 코드북 크기 (첫 번째 레벨 제외) 및 코드 레벨 (task-specific 정보 검색, R@5)에 대한 ablation 결과 (30 beams 사용). 기본 코드북 크기와 레벨은 밑줄로 표시되어 있다.
코드북 구성.
Table 5는 더 큰 코드북 크기와 더 높은 레벨이 일반적으로 표현력을 증가시키고, 따라서 WebQA와 같은 지식 집약적 task에서 성능을 향상시킨다는 것을 보여준다. 그러나 지나치게 큰 코드북은 클러스터를 분산시켜 일부 데이터셋에서 representation을 약화시킬 수 있다. 이는 데이터셋 특성에 따라 코드북 크기의 균형을 맞출 필요성을 강조한다.
6. Conclusion
우리는 GENIUS를 소개했다. GENIUS는 모달리티(modality) 전반의 다양한 task를 처리함으로써 기존 생성 모델의 한계를 해결하는 범용 생성 검색(generative retrieval) 프레임워크이다. ID 생성을 위한 새로운 모달리티 분리 양자화(modality-decoupled quantization) 기술을 활용하여, GENIUS는 모달리티 간 일관된 의미 정보를 보장한다. 우리의 **쿼리 증강(query augmentation)**은 다양한 쿼리-타겟 매핑을 통해 일반화 성능을 향상시킨다. 실험 결과, GENIUS는 이전 생성 방식보다 뛰어난 성능을 보였으며, 벤치마크 전반에서 임베딩 기반 방식과의 성능 격차를 좁혔다. 또한, GENIUS는 높은 검색 속도를 유지하여 확장 가능한 멀티모달 검색의 기반을 마련한다.
Acknowledgements
본 연구의 일부는 김성연이 Amazon에서 인턴으로 근무할 때 수행되었다. 김성연과 곽수하는 한국 과학기술정보통신부의 NRF 연구비(RS-2021-NR059830-30%, RS-2022-II220290-30%, RS-2022-II220926-30%)와 IITP 연구비(RS-2019-II191906-10%, AI Graduate School POSTECH) 지원을 받았다.
Appendix
이 Appendix에서는 본 논문의 공간 제약으로 인해 본문에 포함하지 못한 추가적인 실험 결과 및 상세 분석을 제시한다. Section A에서는 M-BEIR 데이터셋에 대한 개요를 제공한다. Section B에서는 저장 및 학습 효율성에 대해 자세히 다룬다. Section C에서는 contrastive loss, modality encoding, beam search, decoder size에 대한 ablation study를 제공한다. Section D에서는 codebook 구성에 대한 추가 실험과 여러 벤치마크에 걸친 정량적 평가를 제시한다. 마지막으로 Section E에서는 modality-decoupled semantic quantization 프로세스에 대한 추가 시각화를 통해, 거친(coarse) 수준에서 미세한(fine) 수준까지 의미론적 세부 정보를 포착하는 능력을 보여준다.
A. Details of M-BEIR Dataset
M-BEIR 데이터셋 [56]은 멀티모달 검색 task를 지원하기 위해 10개의 데이터셋을 결합한 것으로, 이미지-캡션 검색, 제품 검색, 뉴스, 복합 멀티모달 쿼리와 같은 다양한 도메인을 포함한다. Table 6에 요약된 바와 같이, 이 데이터셋은 총 560만 개의 candidate를 포함한다. M-BEIR은 텍스트로부터 이미지 검색, 이미지로부터 텍스트 검색, 멀티모달 쿼리와 해당 멀티모달 응답 매칭을 포함한 8가지의 개별 검색 task를 지원한다. 이 데이터셋은 패션, 뉴스, 범용 데이터와 같은 여러 도메인을 아우르며, 다양한 복잡성 수준의 쿼리를 포함한다.
각 쿼리 인스턴스는 **쿼리 , 관련 긍정 후보(positive candidates) , 관련 없는 부정 후보(negative candidates) **로 구성된다. 사용자의 의도를 명확히 하기 위해 각 쿼리에는 **추가적인 의도 설명(intent description)**이 함께 제공된다. 모든 쿼리는 최소 하나의 긍정 후보를 포함하며, 부정 후보 포함은 선택 사항이다.
VisualNews. VisualNews 데이터셋 [29]은 학습, 검증, 테스트를 위해 각각 20만, 4만, 4만 개의 이미지-캡션 쌍을 무작위로 샘플링하여 구축되었다. Task에는 **주어진 이미지에 대한 캡션 검색 ()**과 **주어진 캡션에 대한 이미지 검색 ()**이 포함된다. 초기 250만 개의 candidate 수는 M-BEIR 데이터셋에서 50만 개의 텍스트 candidate와 50만 개의 이미지 candidate로 구성된 100만 개로 축소되었다.
Fashion200K. Fashion200K 데이터셋 [15]은 20만 개의 이미지와 6만 개의 설명으로 구성되며, 3만 개의 이미지-설명 쌍을 선택하여 학습용으로 구축되었다. Task에는 **주어진 이미지에 대한 제품 설명 검색 ()**과 **주어진 제품 설명에 대한 이미지 검색 ()**이 포함된다. candidate 수는 26만 개이다.
COCO. Karpathy split [19]을 사용하여 MS-COCO [28] 데이터는 이미지로부터 캡션 검색 () 및 **캡션으로부터 이미지 검색 ()**과 같은 task를 지원하도록 변환되었다. 이 데이터셋은 이미지-캡션 검색을 위한 11만 3천 개의 학습 인스턴스를 포함하며, M-BEIR 데이터셋에서는 효율성을 위해 10만 개로 축소되었다. 테스트를 위한 candidate 수는 2만 5천 개의 텍스트 항목과 5천 개의 이미지로, 이는 COCO의 원래 테스트 세트와 동일하다.
WebQA. WebQA 데이터셋 [5]은 텍스트 질문을 이미지 및 해당 텍스트 답변과 연결한다. Task에는 **질문에 기반한 답변 검색 ()**과 **이미지 및 텍스트 설명 모두를 포함하는 쿼리 매칭 ()**이 포함된다. candidate 수는 40만 개의 이미지-텍스트 쌍과 54만 개의 텍스트 전용 candidate로 구성된다.
EDIS. EDIS 데이터셋 [30]은 캡션을 이미지-헤드라인 쌍과 연결한다. Task에는 **텍스트 쿼리를 이미지와 관련 텍스트로 구성된 멀티모달 쌍과 매칭 ()**하는 것이 포함된다. candidate 수는 100만 개의 이미지-헤드라인 쌍을 포함하며, 학습 세트는 2만 6천 개의 인스턴스로 구성된다.
NIGHTS. NIGHTS 데이터셋 [13]은 참조 이미지와 대상 이미지를 쌍으로 연결한다. Task는 **참조 이미지에 기반한 이미지 검색 ()**에 중점을 둔다. 이 데이터셋은 학습, 검증, 테스트를 위해 각각 1만 6천, 2천, 2천 개의 인스턴스를 포함하며, candidate 수는 4만 개의 이미지이다.
FashionIQ. FashionIQ [58]는 참조 이미지와 해당 텍스트 설명을 대상 이미지와 연결한다. Task에는 **참조 이미지 및 관련 설명에 기반한 대상 이미지 검색 ()**이 포함된다. 이 데이터셋은 모든 이미지를 candidate 수로 포함하며, 1천 7백 개의 인스턴스가 검증용으로 예약되어 있다.
CIRR. CIRR [31]은 참조 이미지와 텍스트 수정 사항을 대상 이미지와 매칭한다. Task는 **참조 이미지와 지정된 텍스트 수정 사항 모두에 부합하는 대상 이미지 검색 (() )**을 포함한다. candidate 수는 모든 이미지로 구성되며, 검증 및 테스트 세트는 데이터셋 분할에서 파생된다.
OVEN. OVEN 데이터셋 [16]은 이미지를 텍스트 질문 및 해당 멀티모달 답변과 쌍으로 연결한다. Task에는 **주어진 쿼리에 대한 텍스트 설명 검색 (() )**과 **멀티모달 응답 매칭 (() )**이 포함된다. 이 데이터셋은 원래 600만 개의 candidate를 포함했지만, M-BEIR 데이터셋에서는 100만 개로 축소되었고, 학습 데이터는 12만 개의 인스턴스로 축소되었다.
InfoSeek. InfoSeek [7]은 이미지와 관련 질문으로 구성된 쿼리를 스니펫으로 분할된 텍스트 답변과 쌍으로 연결한다. Task에는 **텍스트 스니펫 검색 (() )**과 **관련 쿼리와 멀티모달 쌍 매칭 (() )**이 포함된다. 처리된 데이터셋은 텍스트 및 멀티모달 검색 task 각각에 대해 14만 개의 인스턴스를 포함하며, candidate 수는 M-BEIR 데이터셋에서 100만 개로 축소되었다.
B. Further Analysis
B.1. Storage Efficiency Comparison
대규모 검색 시스템에서는 효율적인 저장 공간 활용이 매우 중요하다. Table 7은 CLIP과 GENIUS의 데이터당 저장 공간 요구 사항을 비교하며, 양자화된 표현(quantized representations)의 상당한 이점을 강조한다.
| Task (query candidate) | Dataset | Domain | # Query | # Rel./Query | # Candid. | ||||
|---|---|---|---|---|---|---|---|---|---|
| Train | Val | Test | Train | Val | Test | ||||
| 1. | VisualNews [29] | News | 99 K | 20 K | 20 K | 1.0 | 1.0 | 1.0 | 542 K |
| MSCOCO [28] | Misc. | 100 K | 24.8 K | 24.8 K | 1.0 | 1.0 | 1.0 | 5 K | |
| Fashion200K [15] | Fashion | 15 K | 1.7 K | 1.7 K | 3.3 | 3.1 | 2.8 | 201 K | |
| 2. | WebQA [5] | Wiki | 16 K | 1.7 K | 2.4 K | 2.0 | 2.0 | 2.0 | 544 K |
| 3. | EDIS [30] | News | 26 K | 3.2 K | 3.2 K | 2.6 | 2.6 | 2.6 | 1M |
| WebQA [5] | Wiki | 17 K | 1.7 K | 2.5 K | 1.4 | 1.4 | 1.4 | 403 K | |
| 4. | VisualNews [29] | News | 100 K | 20 K | 20 K | 1.0 | 1.0 | 1.0 | 537 K |
| MSCOCO [28] | Misc. | 113 K | 5 K | 5 K | 5.0 | 5.0 | 5.0 | 25 K | |
| Fashion200K [15] | Fashion | 15 K | 4.8 K | 4.8 K | 1.0 | 1.0 | 1.0 | 61 K | |
| 5. | NIGHTS [13] | Misc. | 16 K | 2 K | 2 K | 1.0 | 1.0 | 1.0 | 40 K |
| 6. | OVEN [16] | Wiki | 150 K | 50 K | 50 K | 8.5 | 10.0 | 9.9 | 676 K |
| InfoSeek [7] | Wiki | 141 K | 11 K | 11 K | 6.8 | 6.7 | 6.5 | 611 K | |
| 7. | FashionIQ [58] | Fashion | 16 K | 2 K | 6 K | 1.0 | 1.0 | 1.0 | 74 K |
| CIRR [31] | Misc. | 26 K | 2 K | 4 K | 1.0 | 1.0 | 1.0 | 21 K | |
| 8. | OVEN [16] | Wiki | 157 K | 14.7 K | 14.7 K | 17.8 | 17.5 | 17.7 | 335 K |
| InfoSeek [7] | Wiki | 143 K | 17.6 K | 17.6 K | 9.1 | 7.5 | 7.5 | 481 K | |
| M-BEIR [56] | 4 domains | 1.1 M | 182 K | 190 K | 6.5 | 5.9 | 5.7 | 5.6 M |
Table 6. M-BEIR 통계 요약. 각 행은 task-specific 검색 설정에 대한 정보를 포함하며, 데이터셋, 도메인, Train/Validation/Test 분할에 따른 쿼리 수(# Query), 쿼리당 평균 관련 레이블 수(# Rel./Query), 그리고 총 후보 수(# Candid.)를 나타낸다.
768차원 floating-point embedding으로 동작하는 CLIP은 32비트 정밀도로 저장될 때 데이터 포인트당 약 3KB를 필요로 한다. 이는 특히 대규모 검색 시나리오에서 상당한 저장 비용으로 이어질 수 있다.
이와 대조적으로, GENIUS는 컴팩트한 양자화(quantization) 방식을 활용하여, 각 데이터 포인트를 2비트 코드(모달리티 분리용)와 크기의 코드북에서 선택된 8개의 12비트 코드를 사용하여 인코딩한다.
그 결과, 총 저장 공간 요구 사항은 비트, 즉 데이터 포인트당 12.25바이트에 불과하며, 이는 CLIP 대비 99% 이상의 저장 공간 절감 효과를 가져온다.
예를 들어, 100만 개의 데이터 포인트를 인덱싱하는 데 CLIP은 약 3GB가 필요하지만, GENIUS는 단 12MB만 필요하다. 이러한 저장 오버헤드의 급격한 감소는 GENIUS를 실제 검색 애플리케이션, 특히 수십억 개의 데이터 포인트를 처리하는 시스템에 배포하는 데 있어 매우 확장 가능하고 비용 효율적으로 만든다.
B.2. Training Efficiency
GENIUS는 높은 학습 효율성을 제공한다. RTX 3090 GPU를 사용하여 110만 개의 샘플로 학습할 때, CLIP encoder는 91시간이 소요된다. 이에 비해 GENIUS는 양자화(quantization)에 0.4시간, decoder 학습에 2시간이 추가로 필요하다. 결과적으로, 샘플당 기준으로 GENIUS는 GRACE보다 약 2.8배 더 효율적이다. GRACE는 보고에 따르면 MS-COCO 데이터셋에 대해 0.1백만 개의 샘플을 24시간 내에 학습한다.
C. Additional Experiments
C.1. Impact of Contrastive Loss in Qunatization
본 논문의 Table 4에서 보여주듯이, 은 매우 중요한 역할을 하며, 양자화(quantization) 학습(Eq. 8)에서 이를 제거하면 성능이 거의 0에 가까워진다. contrastive learning이 임베딩 공간에 미치는 영향을 분석하기 위해, 우리는 **contrastive learning (Eq. 3)을 적용하기 전과 후의 양자화된 feature 에 대한 UMAP 시각화 [36]**를 수행하였다. 여기서 양자화된 feature 는 이산 ID(discrete IDs)에서 파생된 코드 임베딩(code embeddings)을 사용하여 재구성된 feature이다.
Figure 5는 residual quantization loss (Eq. 7)가 적용되었음에도 불구하고, contrastive learning을 제거하면 쿼리(query)와 타겟(target) feature 간의 불일치(misalignment)가 발생하고 타겟 feature가 붕괴(collapse)되는 현상을 보여준다. 이러한 표현(representation)의 저하는 이산 ID가 쿼리와 타겟 간의 관계를 효과적으로 포착하지 못하게 만들며, 디코더가 이를 학습하기 어렵게 만든다. 더욱이, 과도하게 많은 타겟이 단일 ID에 매핑되어 검색 프로세스가 비효율적이 되고 의미적으로 일관되지 않은 ID를 생성하게 된다.
반면, Eq. 8에서 contrastive loss가 적용될 때는 양자화에도 불구하고 쿼리-타겟 정렬(alignment)이 유지된다. 이는 의미 정보가 이산 ID 내에서 잘 표현되도록 보장한다. 결과적으로, 쿼리를 타겟에 매핑하도록 디코더를 학습시킬 때, 기저 관계(underlying relations)를 효과적으로 포착하여 쿼리로부터 의미 있는 이산 타겟 ID를 생성할 수 있게 된다.
| Model | Representation Format | Storage Cost per Data |
|---|---|---|
| CLIP [42] | 768-dim floating-point vector (32-bit) | bits bytes |
| GENIUS | Quantized codes: 1 modality code (2-bit) +8 semantic codes (12-bit each) | bits bytes ( ) |
Table 7. CLIP과 GENIUS의 저장 효율성 비교. GENIUS는 저장 요구 사항을 99% 이상 절감하여 대규모 검색 task의 확장성을 크게 향상시킨다.
Figure 5. contrastive learning (Eq. 3) 적용 전후의 양자화된 feature 에 대한 UMAP 시각화.
C.2. Impact of Modality Encoding
우리는 Table 8에서 다양한 양자화 전략을 비교하여 모달리티 인코딩의 영향을 분석한다: modality-decoupled quantization, classifier-based modality encoding, 그리고 모달리티 코드가 없는 residual quantization이다.
Modality-decoupled quantization은 세 가지 접근 방식 중 가장 우수한 성능을 달성한다. Classifier-based encoding은 모달리티를 성공적으로 구별하지만, 양자화 과정 내에서 모달리티 정보를 통합하지 못한다. 그 결과, 모달리티 정보와 semantic 정보가 이산 코드 내에서 혼합되어 표현 능력이 제한된다. 이와 대조적으로, modality-decoupled quantization은 첫 번째 코드를 모달리티에 할당하고 나머지 코드를 semantics에 사용함으로써 모달리티 정보를 명시적으로 분리하여, 더 구조적이고 표현력이 풍부한 representation을 제공한다.
모달리티를 명시적으로 분리하지 않는 모달리티 인코딩이 없는 baseline은 모달리티 인코딩에 실패하면 검색 성능이 약화됨을 추가적으로 보여준다. 이러한 결과는 modality-decoupled quantization이 생성적 검색(generative retrieval)에서 여러 모달리티를 처리하기 위한 통합된 접근 방식을 제공하며, 더 효과적인 이산 ID representation을 제공한다는 점을 강조한다.
C.3. Impact of Beam Search
우리는 다양한 task에서 beam size가 검색 성능 및 효율성에 미치는 영향을 조사하기 위해 ablation study를 수행한다. Table 9에서 볼 수 있듯이, beam size를 늘리면 Recall@5가 크게 향상된다. 예를 들어, COCO 데이터셋의 text-to-image retrieval에서 Recall@5는 beam size 1일 때 24.2%에서 beam size 50일 때 68.2%로 증가한다. COCO의 image-to-text retrieval 및 CIRR의 image-to-image retrieval에서도 유사한 경향이 관찰된다. 이러한 개선은 긴 문장 쿼리 기반의 Wikipedia 지식 집중 데이터를 포함하는 WebQA 데이터셋에서 더욱 두드러진다. text-to-text retrieval의 Recall@5는 beam size 1일 때 5.1%에서 beam size 50일 때 32.8%로 증가한다. 이러한 상당한 이득은 더 큰 beam size가 제공하는 확장된 검색 공간 덕분이며, 이를 통해 모델은 WebQA 쿼리의 복잡성과 풍부함을 더 잘 처리할 수 있다.
| Method | COCO | WebQA | |||
|---|---|---|---|---|---|
| T2I | I2T | T2T | T2(IRR | ||
| Modality-decoupled quantization | |||||
| Classifier-based modality encoding | 48.9 | 79.2 | |||
| RQ w/o modality-code | 20.2 | 73.2 | 25.9 | 37.5 |
Table 8. Modality encoding 접근 방식에 대한 Ablation study (universal retrieval, R@5).
그러나 더 큰 beam size는 계산 부하를 증가시켜 더 높은 지연 시간(latency)을 초래한다. text-to-image retrieval task 측정 결과에 따르면, 검색 속도는 beam size 30일 때 초당 19.6 쿼리에서 beam size 50일 때 초당 11.9 쿼리로 감소한다. 이러한 성능과 효율성 간의 trade-off는 beam search를 사용하는 generative model을 배포할 때 근본적인 고려 사항이다. 적절한 beam size를 선택하려면 더 높은 recall에 대한 필요성과 계산 리소스 및 애플리케이션별 지연 시간 요구 사항 간의 균형을 맞춰야 한다.
C.4. Impact of Decoder Size
우리는 디코더(decoder) 크기가 검색 성능에 미치는 영향을 분석한다. Table 10은 **다양한 크기의 T5 디코더 [43]**를 사용한 결과를 보여준다:
- T5-small (30M 파라미터)
- T5-base (110M 파라미터)
- T5-large (400M 파라미터)
일반적으로 디코더 크기가 커질수록 COCO 및 WebQA와 같은 task의 성능이 향상된다. COCO text-to-image 검색에서 Recall@5는 T5-small의 65.3%에서 T5-base의 67.9%로 향상된다. WebQA에서는 디코더 크기에 따라 성능이 꾸준히 증가하여 T5-large에서 32.4% Recall@5에 도달하는데, 이는 WebQA의 복잡한 문장을 처리하는 데 유리하다. 그러나 이미지-투-이미지 검색에서 복잡한 관계형 추론을 포함하는 CIRR 데이터셋에서는 T5-base에서 성능이 약간 감소하고, T5-large에서는 7.1%로 급격히 하락한다. 이는 더 큰 모델이 특정 task, 특히 모델 용량 증가로 이점을 얻지 못하는 task에서 과적합되거나 최적화에 어려움을 겪을 수 있음을 시사한다. 따라서 우리는 검색 성능과 연산 효율성 사이의 효과적인 trade-off를 고려하여 T5-small을 기본 디코더로 채택한다.
| Beam Size | COCO | WebQA | CIRR | ||
|---|---|---|---|---|---|
| T2I | I2T | T2T | T2(I,T) | (I,T)2I | |
| 1 | 24.2 | 41.6 | 5.1 | 10.4 | 4.9 |
| 5 | 55.6 | 79.1 | 15.9 | 32.3 | 18.0 |
| 10 | 62.8 | 82.8 | 22.4 | 40.0 | 20.4 |
| 20 | 66.5 | 83.7 | 28.3 | 45.1 | 21.1 |
| 30 | 65.3 | 83.4 | 28.8 | 47.4 | 21.0 |
| 50 | 68.2 | 83.3 | 32.8 | 50.0 | 21.0 |
Table 9. Beam size에 대한 Ablation (task-specific 정보 검색, R@5). 우리 방법의 기본 설정은 회색 상자로 강조되어 있다.
| COCO | WebQA | |||||
|---|---|---|---|---|---|---|
| Decoder | # Params | T2I | I2T | T2T | T2(I,T) | |
| T5-small | 30 M | 65.3 | 83.4 | 28.8 | 47.4 | |
| T5-base | 110 M | 31.6 | 48.0 | |||
| T5-large | 400 M | 67.2 | 83.2 |
Table 10. 디코더 크기에 대한 Ablation (task-specific 정보 검색, R@5). 우리 방법의 기본 설정은 회색 상자로 강조되어 있다.
| COCO | WebQA | CIRR | ||||
|---|---|---|---|---|---|---|
| T2I | I2T | T2T | T2(I,T) | |||
| 28.8 | 21.0 | |||||
| 59.5 | 81.8 | 44.8 | ||||
| 18.6 | 19.3 | 0.2 | 1.7 | 3.3 |
Table 11. 코드북 크기 (첫 번째 레벨 제외) 및 코드 레벨 에 대한 Ablation (task-specific 정보 검색, R@5). 기본 코드북 크기 및 레벨은 밑줄로 표시되어 있다. 공유 구성에서는 첫 번째 레벨을 제외한 모든 레벨에서 코드북이 공유된다. 우리 방법의 기본 설정은 회색 상자로 강조되어 있다.
C.5. Further Analysis of Codebook Configuration
우리는 codebook 크기(), code level(), 그리고 modality-decoupled semantic quantization에서 level 간의 shared codebook 사용 여부를 포함한 codebook 구성의 영향을 추가적으로 조사한다. Table 11은 다양한 구성에 대한 결과를 보여준다.
codebook 크기와 code level 수를 로 늘린다고 해서 반드시 성능이 향상되는 것은 아니다. 예를 들어, COCO text-to-image retrieval에서 Recall@5는 65.3%에서 59.5%로 감소한다. 그러나 CIRR에서는 이 구성이 상당한 성능 향상을 가져오는데, 이는 task 복잡성과 modality에 따라 codebook 크기의 영향이 달라짐을 보여준다. 지나치게 크고 세분화된 codebook 구성은 때때로 유익할 수 있지만, decoder 모델 학습의 복잡성을 증가시킨다.
shared codebook을 사용할 경우, COCO에서 Recall@5는 18.6%로 급격히 하락한다. 유사한 감소는 다른 task에서도 관찰되는데, 이는 level-specific codebook이 서로 다른 semantic의 고유한 특성을 포착하는 데 중요함을 나타낸다. 이러한 결과는 효과적인 양자화 및 검색 성능을 보장하기 위해 codebook을 신중하게 구성하는 것의 중요성을 강조한다.
| Method | Training Data | R@1 | R@5 | R@10 |
|---|---|---|---|---|
| Flickr30K | ||||
| GRACE [27] (Numeric ID) | Flickr30K | 22.5 | 28.9 | 29.4 |
| GRACE [27] (String ID) | Flickr30K | 30.5 | 39.0 | 40.4 |
| GRACE [27] (Semantic ID) | Flickr30K | 22.9 | 34.9 | 37.4 |
| GRACE [27] (Structured ID) | Flickr30K | 37.4 | 59.5 | 66.2 |
| IRGen [63] | Flickr30K | 49.0 | 68.9 | 72.5 |
| GENIUS | M-BEIR | |||
| GENIUS | M-BEIR | |||
| GENIUS | Flickr30K | 60.6 | 84.0 | 90.5 |
| GENIUS | Flickr30K | 74.1 | 92.0 | 94.8 |
| COCO | ||||
| GRACE [27] (Numeric ID) | COCO | 0.03 | 0.14 | 0.28 |
| GRACE [27] (String ID) | COCO | 0.12 | 0.37 | 0.88 |
| GRACE [27] (Semantic ID) | COCO | 13.3 | 30.4 | 35.9 |
| GRACE [27] (Structured ID) | COCO | 16.7 | 39.2 | 50.3 |
| IRGen [63] | COCO | 29.6 | 50.7 | 56.3 |
| GENIUS | M-BEIR | 40.0 | 65.5 | 76.8 |
| GENIUS | M-BEIR | 42.6 | 67.3 | 78.9 |
| GENIUS | COCO | 41.2 | 67.8 | 77.8 |
| GENIUS | COCO | 46.1 | 74.0 | 82.7 |
Table 12. text-to-image retrieval 벤치마크에서 generative retrieval 방법들의 비교.
결과는 Recall@k (%)로 보고된다. 는 zero-shot 성능을 나타내며, task-specific fine-tuning 없이 모델이 일반화하는 능력을 강조한다.
D. Additional Quantitative Results
우리는 본 논문에서 다루지 않은 추가적인 설정에 대한 성능 평가를 제시한다. 여기에는 beam size 변화에 따른 결과와 더 넓은 범위의 baseline 모델들과의 비교가 포함된다.
D.1. Standard Generative Retrieval Benchmark
우리는 GENIUS를 GRACE 및 IRGen을 포함한 기존의 generative retrieval 방법들과 비교 평가했으며, 그 결과는 Table 12에 요약된 바와 같이 Flickr30K 및 COCO와 같은 표준 text-to-image 벤치마크에서 이루어졌다. GRACE와 IRGen이 text-to-image task에 특화되어 설계된 것과 달리, GENIUS는 원래 M-BEIR 벤치마크에서 multi-task 설정으로 학습되어 다양한 검색 시나리오를 지원하며 task-specific 학습도 가능하다. Flickr30K는 M-BEIR 데이터셋에 포함되지 않는다는 점에 유의해야 한다.
Flickr30K에서 M-BEIR로 학습된 GENIUS는 zero-shot Recall@5에서 74.1%라는 인상적인 성능을 달성했으며, 이는 GRACE를 15%p 이상 능가하는 수치이다. 이는 학습 중에 해당 데이터셋을 전혀 보지 않았음에도 불구하고 달성된 결과이다. Flickr30K에만 fine-tuning하고 re-ranking과 결합했을 때, GENIUS는 Recall@5 92.0%로 성능을 더욱 향상시켜, 이 벤치마크에서 generative retrieval의 새로운 state-of-the-art를 수립했다.
| Fine-tuning | COCO | VisualNews | Fashion200K | Nights | EDIS | ||||
|---|---|---|---|---|---|---|---|---|---|
| T to I | I to T | T to I | I to T | T to I | I to T | I to I | T to (I,T) | ||
| Embedding-based Retrieval | |||||||||
| CLIP-SF [56] | Single Task | 81.7 | 89.8 | 43.5 | 42.7 | 10.7 | 12.0 | 33.5 | 58.8 |
| BLIP-FF [56] | 77.3 | 86.0 | 20.0 | 22.4 | 17.1 | 15.6 | 30.4 | 38.2 | |
| CLIP-SF [56] | 81.1 | 92.3 | 42.6 | 43.1 | 18.0 | 18.3 | 32.0 | 59.4 | |
| BLIP-FF [56] | Unified Instruction | 67.5 | 89.9 | 23.4 | 22.8 | 26.1 | 28.9 | 33.0 | 50.9 |
| Generative Retrieval | |||||||||
| GRACE [27] | 39.5 | - | - | - | - | - | - | - | |
| IRGen [63] | Single Task | 50.7 | - | - | - | - | - | - | - |
| GENIUS ( ) | Unified Instruction | 65.5 | 83.4 | 17.5 | 17.5 | 13.6 | 17.0 | 8.4 | 35.6 |
| GENIUS | 67.3 | 89.7 | 23.3 | 24.0 | 15.2 | 18.9 | 29.0 | 41.4 | |
| GENIUS ( ) | 68.1 | 83.2 | 18.5 | 18.7 | 13.7 | 12.8 | 8.2 | 37.0 | |
| GENIUS | 78.0 | 91.1 | 27.4 | 28.4 | 16.2 | 16.3 | 30.2 | 44.3 | |
| Fine-tuning | WebQA | OVEN | InfoSeek | FashionIQ | CIRR | ||||
| T to T | T to (I,T) | to T | ( ) to ( ) | ( ) to T | (I,T) to (I,T) | (I,T) to I | (I,T) to I | ||
| Embedding-based Retrieval | |||||||||
| CLIP-SF [56] | 81.7 | 76.3 | 45.4 | 66.2 | 23.5 | 47.4 | 25.9 | 52.0 | |
| BLIP-FF [56] | Single Task | 67.5 | 67.8 | 33.8 | 49.9 | 18.5 | 32.3 | 3.0 | 13.9 |
| CLIP-SF [56] | Unified Instruction | 84.7 | 78.7 | 45.5 | 67.6 | 23.9 | 48.9 | 24.4 | 44.6 |
| BLIP-FF [56] | 80.0 | 79.8 | 41.0 | 55.8 | 22.4 | 33.0 | 29.2 | 52.2 | |
| Generative Retrieval | |||||||||
| GENIUS ( ) | Unified Instruction | 28.8 | 47.4 | 34.9 | 34.6 | 12.4 | 15.1 | 12.8 | 21.0 |
| GENIUS | 36.3 | 54.9 | 36.6 | 35.0 | 18.0 | 26.7 | 17.5 | 35.5 | |
| GENIUS ( ) | 32.5 | 49.7 | 36.6 | 36.4 | 11.2 | 14.6 | 13.2 | 20.7 | |
| GENIUS | 44.6 | 60.6 | 41.9 | 52.5 | 20.7 | 30.1 | 19.3 | 39.5 |
Table 13. Task-specific Information Retrieval. MBEIR 데이터셋에 대한 single-task 및 unified instruction fine-tuning 방법들의 Recall@5 결과이며, Fashion200K와 FashionIQ는 Recall@10이 보고되었다. 는 beam size를 나타내고, 은 예측된 후보군 내에서 embedding vector 기반의 re-ranking을 의미한다. I와 T는 각각 image와 text modality를 나타내며, (I,T)는 image-to-text 또는 text-to-image task에 대한 검색 방향을 나타낸다.
COCO에서 MBEIR로 학습된 GENIUS는 **Recall@5 65.5%**를 달성하여 GRACE (39.2%) 및 **IRGen (50.7%)**을 크게 능가한다. COCO에만 학습했을 때, GENIUS는 Recall@5 74.0%로 더욱 향상된다. 이러한 결과는 multi-task learning 프레임워크 내에서 GENIUS의 미학습 데이터셋에 대한 일반화 능력을 강조한다. M-BEIR에는 Flickr30K와 유사한 도메인(예: COCO)이 포함되어 있지만, GENIUS는 동일 도메인에 특화되어 학습된 모델들을 능가하는 zero-shot 성능을 달성한다. 또한, GENIUS는 task-specific 시나리오에서도 탁월한 성능을 보여, 개별 데이터셋으로 학습했을 때 우수한 성능을 달성하고 state-of-the-art 결과를 기록한다.
D.2. Dataset-Specific Retrieval
Table 13은 다양한 retrieval task에서 GENIUS의 성능을 요약하여 보여준다. 이는 기존의 generative 방법들을 능가하고, 특정 task에서는 state-of-the-art embedding 기반 baseline에 근접한 결과를 달성하는 GENIUS의 능력을 입증한다.
COCO 데이터셋의 text-to-image retrieval에서 GENIUS는 **beam size 30으로 Recall@5 65.5%**를 달성하여, IRGen의 50.7%를 크게 앞선다. embedding 기반 re-ranking을 적용하면 성능은 78.0%로 향상되며, CLIP-SF의 81.7%와의 격차를 좁힌다. COCO 데이터셋의 image-to-text retrieval에서는 GENIUS가 **re-ranking과 beam size 50으로 Recall@5 91.1%**를 달성하여, CLIP-SF의 92.3%에 거의 근접한다.
CIRR의 relational reasoning task에서 GENIUS는 **beam size 30으로 Recall@5 35.5%**를 달성한다. beam size를 50으로 늘리고 re-ranking을 통합하면 성능은 39.5%로 상승하며, 이는 relational query 처리 능력에서의 강점을 보여준다. 지식 집약적이고 긴 형태의 query를 특징으로 하는 WebQA에서는 embedding 기반 re-ranking이 text-to-text retrieval의 Recall@5를 36.3%에서 44.6%로 향상시켜, 추가적인 검색 공간을 효과적으로 활용하여 의미적으로 복잡한 데이터를 처리한다.
GENIUS는 beam search만으로도 기존의 generative 방법들보다 우수한 성능을 이미 보여준다. 더 나아가, 더 큰 beam size와 embedding 기반 re-ranking을 결합함으로써, GENIUS는 embedding 기반 state-of-the-art 방법들과 경쟁할 수 있는 수준의 성능을 종종 달성한다.
D.3. Universal Retrieval
GENIUS의 범용 검색(universal retrieval) 성능은 Table 14에서 보여주듯이 다양한 task를 효과적으로 처리하는 능력을 입증한다.
| Task | Dataset | Embedding-based Retrieval | Generative Retrieval | ||||||
|---|---|---|---|---|---|---|---|---|---|
| CLIP | CLIP | BLIP | BLIP | GENIUS ( ) | GENIUS ( ) | GENIUS ( ) | GENIUS ( ) | ||
| 1. | VisualNews | 42.6 | 28.8 | 20.9 | 23.0 | 18.5 | 23.9 | 18.5 | 27.3 |
| MSCOCO | 77.9 | 74.7 | 71.6 | 75.6 | 55.4 | 64.8 | 55.1 | 68.0 | |
| Fashion200K | 17.8 | 15.5 | 24.3 | 25.4 | 13.6 | 14.7 | 13.7 | 16.2 | |
| 2. | WebQA | 84.7 | 78.4 | 78.9 | 79.5 | 28.3 | 36.5 | 31.1 | 42.9 |
| 3. | EDIS | 59.4 | 50.0 | 47.2 | 50.3 | 35.4 | 41.4 | 36.6 | 44.1 |
| WebQA | 78.8 | 75.3 | 76.8 | 79.7 | 47.1 | 55.8 | 49.0 | 59.7 | |
| 4. | VisualNews | 42.8 | 28.6 | 19.4 | 21.1 | 17.3 | 23.2 | 18.4 | 26.8 |
| MSCOCO | 92.3 | 89.0 | 88.2 | 88.8 | 82.7 | 89.4 | 82.7 | 90.6 | |
| Fashion200K | 17.9 | 13.7 | 24.3 | 27.6 | 12.2 | 14.8 | 12.8 | 16.2 | |
| 5. | NIGHTS | 32.0 | 31.9 | 33.4 | 33.0 | 8.4 | 28.8 | 8.1 | 30.2 |
| 6. | OVEN | 39.2 | 34.7 | 35.2 | 38.7 | 34.4 | 37.1 | 34.6 | 38.0 |
| InfoSeek | 24.0 | 17.5 | 16.7 | 19.7 | 11.1 | 16.6 | 10.4 | 18.0 | |
| 7. | FashionIQ | 24.3 | 20.5 | 26.2 | 28.5 | 12.8 | 17.4 | 18.9 | 19.2 |
| CIRR | 43.9 | 40.9 | 43.0 | 51.4 | 20.5 | 34.9 | 20.1 | 38.3 | |
| 8. | OVEN | 60.2 | 55.8 | 51.8 | 57.8 | 36.9 | 40.9 | 36.5 | 48.6 |
| InfoSeek | 44.6 | 36.8 | 25.4 | 27.7 | 14.3 | 25.7 | 14.2 | 28.6 | |
| Average | 48.9 | 43.3 | 42.7 | 45.5 | 28.1 | 35.4 | 28.8 | 38.3 |
Table 14. 범용 정보 검색 (Universal Information Retrieval). M-BEIR 데이터셋의 다양한 task에 대한 Recall@5 성능으로, 다양한 modality에 걸친 전역 풀(global pool)에서 검색되었다. 는 beam size를 나타내며, 은 예측된 후보군 내에서 embedding vector 기반의 re-ranking을 의미한다.
beam size를 늘리는 것만으로는 항상 유의미한 성능 향상을 가져오지는 않는다. 그러나 embedding 기반 re-ranking은 후보군을 정제하고 검색 성능을 향상시키는 데 중요한 역할을 하며, 이를 통해 GENIUS는 state-of-the-art 성능에 근접할 수 있다.
MSCOCO 데이터셋의 image-to-text retrieval에서, Recall@5는 beam search만 사용했을 때 82.7%에서 beam size 50으로 re-ranking을 적용했을 때 90.6%로 향상되어, CLIP-SF (92.3%)와의 격차를 좁혔다. 이는 초기 beam 출력에서 높은 순위를 차지하지 못했을 수 있는 관련성 높은 후보들을 우선순위화하는 re-ranking의 강점을 보여준다. 유사하게, OVEN 데이터셋의 image and text pair-to-text retrieval에서 Recall@5는 더 큰 beam size에서 re-ranking을 통해 34.4%에서 38.0%로 증가하여, CLIP-SF (39.2%)와의 격차를 효과적으로 줄였다. image-to-image retrieval을 포함하는 NIGHTS 데이터셋에서는 re-ranking이 상당한 개선을 가져와, 가장 큰 beam size에서 Recall@5가 8.4%에서 30.2%로 크게 상승했다. 이러한 결과들은 GENIUS가 beam search를 통해 강력한 후보들을 생성하지만, 경쟁력 있는 성능을 달성하기 위해서는 embedding 기반 re-ranking이 필수적임을 시사한다. 특히 확장된 검색 공간이 추가적인 정제를 통해 관련성을 우선순위화해야 하는 더 큰 beam size에서 더욱 그러하다.
E. More Visualizations of Quantization
우리의 modality-decoupled semantic quantization이 어떻게 작동하는지 설명하기 위해, 우리는 modality 분리와 후속 레벨에 걸친 coarse-to-fine semantic refinement라는 이중 속성을 보여주는 추가적인 시각화를 제공한다. 이 예시들은 GENIUS가 구조화된 코드를 통해 멀티모달 데이터를 처리하고, 점진적으로 구별되는 semantic 세부 정보를 포착하는 능력을 강조한다.
첫 번째 레벨에서 코드는 modality 구분을 나타낸다: 이미지는 0, 텍스트는 1, 이미지-텍스트 쌍은 2이다. 이러한 명확한 분리는 검색 시스템이 각 modality를 적절하게 처리하도록 보장하며, 이는 멀티모달 데이터 처리의 기반을 형성한다.
두 번째 레벨은 광범위한 semantic 개념을 인코딩하여, 멀티모달 데이터 전반에 걸쳐 공유되는 주요 객체 또는 핵심 장면을 포착한다. Fig. 6에서 보듯이, 예시에는 **1782 (즉, 고양이)**가 포함되며, 이는 테이블에 누워 있거나, 바나나를 먹거나, 스케이트보드 위에서 웅크리고 있는 등 다양한 맥락에서 고양이가 등장하는 예시들을 그룹화한다. 다른 예시로는 **1534 (즉, 테디베어)**가 있으며, 이는 피크닉이나 장난기 넘치는 활동과 같은 장면을 강조하고, **3260 (즉, 연 날리기)**은 다른 환경에서 공유되는 행동을 포착한다. 유사하게, **1640 (즉, 호텔 방)**은 침대와 램프와 같은 공유 요소를 가진 장면들을 클러스터링한다. 이러한 그룹화는 드레스, 바지, 재킷과 같은 의류 품목을 공유되는 객체 유형에 따라 분류하는 등 다른 도메인으로 자연스럽게 확장된다.
세 번째 레벨 코드는 재료, 색상, 패턴과 같은 속성에 초점을 맞춰 semantics를 정제한다. Fig. 7은 이러한 세부 정보를 보여준다. COCO에서 **3771 (즉, 한 묶음의)**은 쌓여 있는 오렌지, 채소, 바나나와 같은 항목들의 모음을 그룹화하여 그룹화 semantics를 강조한다. 유사하게, **1443 (즉, 녹색)**은 기차, 소화전, 바나나와 같이 녹색이 두드러지는 객체를 식별한다. Fashion200K에서 **1443 (즉, 녹색)**은 녹색을 공유하는 의류를 강조하는 반면, **1275 (즉, 줄무늬 옷)**는 블레이저와 바지와 같이 줄무늬 패턴이 있는 항목에 초점을 맞춘다. 마지막으로, **3559 (즉, 벨벳)**는 의류 유형에 관계없이 벨벳 소재로 만들어진 항목을 포착하여 소재별 세부 정보를 보여준다.
네 번째 레벨 코드는 특정 행동, 위치, 복잡한 디자인 특징과 같은 매우 세분화된 semantics를 포착한다. Fig. 8은 COCO의 예시를 제공하며, 여기에는 **675 (즉, 몸을 숙이는)**가 포함되는데, 이는 기린이 풀을 먹거나 사람들이 몸을 숙이는 장면과 같이 몸을 숙이는 피사체가 등장하는 장면들을 그룹화한다. 유사하게, **1412 (즉, 침실 안)**는 실내 침실 환경을 강조하여 일반적인 방 장면을 넘어선 미묘한 요소를 포착한다. 또한, **643 (즉, 운반하는)**은 개인이 여행 가방을 들고 있거나 동물이 물건을 운반하는 것과 같이 물건을 운반하는 행동을 포착한다. Fashion200K에서 **190 (즉, 민소매 스타일), 817 (즉, 바이커 스타일), 826 (즉, 봄버 스타일)**과 같은 코드는 민소매 컷, 바이커 스타일 또는 특정 재킷 디자인과 같은 의류의 세분화된 특징을 반영한다.
이 예시들은 처음 네 가지 레벨을 보여주지만, 양자화(quantization) 프로세스는 점점 더 미세한 세부 정보를 인코딩하기 위해 더 확장되어 semantic 표현을 풍부하게 한다. 이러한 예시들은 주로 COCO 및 Fashion200K 데이터를 보여주지만, 양자화 프레임워크는 데이터셋 전반에 걸쳐 일반화되도록 설계되었다. 두 번째 레벨의 1443 (즉, 녹색)과 같은 공유 semantics는 다른 도메인에서도 일관되게 유지되어 코드 구조의 보편적인 특성을 강조한다. 이 기능은 데이터셋에 관계없이 유사한 semantics를 일관되게 포착하고 정렬하도록 보장한다. 이러한 속성 덕분에 우리 GENIUS 프레임워크의 decoder는 멀티모달 데이터를 해당 코드로 원활하게 매핑할 수 있다. 결과적으로, 이러한 구조화되고 해석 가능한 양자화를 활용함으로써, GENIUS는 높은 검색 성능을 달성할 뿐만 아니라 다양한 modality와 도메인에 걸친 광범위한 task에 대한 일반화를 보장한다.
Figure 6. modality-decoupled semantic quantization의 두 번째 레벨 코드 예시. 이 레벨은 주요 객체 또는 핵심 장면과 같은 coarse semantics를 포착하며, 각 행은 COCO 및 Fashion200K 데이터셋의 장면을 나타낸다.
Figure 7. modality-decoupled semantic quantization의 세 번째 레벨 코드 예시. 이 레벨은 COCO 및 Fashion200K 데이터셋 전반에 걸쳐 객체 속성, 재료 특성 또는 상세 패턴과 같은 더 미세한 semantic 속성을 포착한다.
Figure 8. modality-decoupled semantic quantization의 네 번째 레벨 코드 예시. 이 레벨은 특정 행동, 위치, 미묘한 객체 세부 정보 또는 복잡한 의류 특징과 같은 매우 세분화된 semantics를 포착한다.