전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 96개 / 1 페이지)

Mirasol3B: 시간 동기화 및 컨텍스트 모달리티를 위한 멀티모달 Autoregressive 모델
·
#Multimodal Model#Autoregressive Model

Mirasol3B: 시간 동기화 및 컨텍스트 모달리티를 위한 멀티모달 Autoregressive 모델

Mirasol3B는 비디오, 오디오, 텍스트와 같은 이종 모달리티를 효과적으로 결합하는 멀티모달 autoregressive 모델입니다. 이 모델의 핵심은 autoregressive 모델링을 시간적으로 동기화된 비디오/오디오와, 시간적으로 비동기화된 컨텍스트(텍스트) 모달리티로 분리한 것입니다. 긴 시퀀스를 효율적으로 처리하기 위해 미디어 입력을 연속적인 스니펫으로 분할하고, Combiner 메커니즘을 통해 오디오-비디오 정보를 공동으로 모델링하여 압축적이면서도 표현력 있는 representation을 생성합니다. 이 접근법을 통해 모델 파라미터 증가 없이 512 프레임의 긴 비디오까지 확장할 수 있으며, 여러 멀티모달 벤치마크에서 SOTA 성능을 달성합니다. 논문 제목: Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신
·
#Audio-Visual Action Recognition#Time Interval Query

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신

이 논문은 긴 비디오에서 오디오와 시각적 신호를 모두 활용하여 행동을 인식하는 새로운 모델, Time Interval Machine (TIM)을 제안합니다. TIM은 특정 모달리티(오디오 또는 비디오)의 시간 간격(time interval)을 쿼리로 사용하여 transformer encoder가 긴 비디오 입력을 처리하도록 합니다. 이 방식은 지정된 시간 간격뿐만 아니라 주변의 문맥 정보까지 양쪽 모달리티에서 모두 고려하여 진행 중인 행동을 정확하게 인식할 수 있게 합니다. TIM은 EPIC-KITCHENS, Perception Test, AVE와 같은 여러 데이터셋에서 최첨단(SOTA) 성능을 달성했으며, 행동 탐지(action detection) 작업에도 적용될 수 있음을 보여줍니다. 논문 제목: TIM: A Time Interval Machine for Audio-Visual Action Recognition

EPIC-SOUNDS: 소리로 행동을 인식하는 대규모 데이터셋
·
#Audio Recognition#Audio Dataset

EPIC-SOUNDS: 소리로 행동을 인식하는 대규모 데이터셋

본 논문은 egocentric 비디오의 오디오 스트림 내에서 시간적 범위와 클래스 레이블을 포착하는 대규모 오디오 주석 데이터셋인 EPIC-SOUNDS를 소개합니다. 이 데이터셋은 시각적 이벤트와 청각적 이벤트가 시간적으로나 의미적으로 항상 일치하지 않는다는 문제의식에서 출발하여, 오디오에만 집중한 새로운 주석을 제공합니다. EPIC-SOUNDS는 44개의 클래스에 걸쳐 78.4k개의 분류된 오디오 이벤트 세그먼트를 포함하며, 특히 물체가 충돌할 때 발생하는 소리를 기반으로 해당 물체의 재질(예: 유리, 나무)까지 주석으로 달아 세밀함을 더했습니다. 이 데이터셋을 활용하여 최신 오디오 인식(audio recognition) 및 탐지(detection) 모델의 성능을 평가하고, 소리가 나는 행동을 이해하는 현재 모델의 한계와 가능성을 분석합니다. 논문 제목: EPIC-SOUNDS: A Large-Scale Dataset of Actions that Sound

Selective Contrastive Learning for Weakly Supervised Affordance Grounding
·
#Affordance Grounding#Contrastive Learning

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Weakly Supervised Affordance Grounding (WSAG)은 픽셀 단위의 레이블 없이 3인칭 시점의 예시로부터 객체의 특정 행동이 가능한 부분을 찾는 것을 목표로 합니다. 기존 모델들은 affordance와 무관한, 클래스별 공통 패턴에 집중하는 경향이 있었습니다. 이 한계를 극복하기 위해 본 논문은 Selective Contrastive Learning을 제안합니다. 이 방법은 선택적인 prototypical 및 pixel contrastive learning 목표를 도입하여, 파트(part)와 객체(object) 수준 모두에서 affordance와 관련된 단서를 적응적으로 학습합니다. CLIP을 활용하여 행동과 연관된 객체를 찾고, 두 시점의 정보를 상호 참조하여 정확한 파트 수준의 affordance 단서를 발굴합니다. 이를 통해 모델이 affordance와 관련된 영역과 관련 없는 배경을 구별하도록 학습시켜, 활성화를 의미 있는 단서로 효과적으로 이동시킵니다. 논문 제목: Selective Contrastive Learning for Weakly Supervised Affordance Grounding

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법
·
#Video Retrieval#Prototypical Learning

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법

영상 검색 시스템에서 정확성과 효율성을 동시에 달성하는 것은 어려운 과제입니다. 특히, 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)에서는 다양한 시간적 스케일의 컨텍스트를 표현할수록 정확도는 높아지지만 계산 및 메모리 비용이 증가합니다. 이 논문은 영상 내의 다양한 컨텍스트를 고정된 수의 프로토타입(prototypes)으로 인코딩하는 새로운 프레임워크를 제안하여 이 문제를 해결합니다. 텍스트 연관성과 영상 이해도를 높이기 위해 cross-modal 및 uni-modal 재구성 작업을 도입하고, 프로토타입의 다양성을 확보하기 위한 직교 목적 함수를 사용합니다. 이 접근법을 통해 효율성을 희생하지 않으면서도 TVR, ActivityNet-Captions 등 주요 벤치마크에서 최고의 성능을 달성합니다. 논문 제목: Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

실세계 의사결정을 위한 새로운 언어, 비디오
·
#Video Generation#Embodied AI

실세계 의사결정을 위한 새로운 언어, 비디오

이 논문은 비디오 생성이 디지털 세계의 언어 모델처럼 물리적 세계에서 중요한 역할을 할 수 있다고 주장합니다. 비디오는 인터넷 규모의 지식을 흡수하고 다양한 실제 과업을 표현하는 통일된 인터페이스(unified interface)로 기능할 수 있습니다. 논문은 비디오 생성 모델이 in-context learning, planning, reinforcement learning과 같은 기술을 통해 로보틱스, 자율 주행, 과학과 같은 분야에서 planner, agent, 그리고 환경 simulator로 활용될 수 있는 가능성을 제시합니다. 이를 통해 비디오는 물리 세계에서의 복잡한 의사결정을 위한 새로운 언어가 될 수 있습니다. 논문 제목: Video as the New Language for Real-World Decision Making

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크
·
#Video Understanding#Benchmark

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크

Tuna는 동적이고 밀도 높은 비디오의 시간적 요소를 종합적으로 평가하기 위해 제안된 벤치마크입니다. 기존 벤치마크가 비디오의 일부 속성만 다루는 한계를 극복하고자, Tuna는 카메라, 장면, 행동, 속성 등 다양한 시간적 요소를 전체적으로 평가합니다. 이를 위해 정교하게 주석 처리된 Tuna-1K 데이터셋을 구축했으며, 이를 기반으로 비디오 캡셔닝(Tuna-CAP)과 질의응답(Tuna-MCQ) 두 가지 태스크를 통해 모델의 성능을 측정합니다. 여러 Large Multimodal Models (LMMs)를 평가한 결과, 모델들이 복잡한 다중 객체 및 다중 장면 시나리오, 카메라 움직임, 그리고 행동 순서 이해에 여전히 어려움을 겪고 있음을 확인했으며, 이는 향후 비디오 이해 모델 연구에 중요한 방향을 제시합니다. 논문 제목: Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가
·
#Visual Temporal Reasoning#Benchmark

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가

기존 벤치마크들이 Multimodal Foundation Models (MFMs)의 시각적 시간 추론 능력을 과대평가하고 있다는 문제의식에서 출발한 논문입니다. 이 논문은 시각적 시간 추론 벤치마크를 체계적으로 평가하기 위해 Multi-Frame Gain, Frame Order Sensitivity, Frame Information Disparity라는 세 가지 원칙을 제안합니다. 이를 바탕으로, MFMs의 시간 추론 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크 TOMATO를 소개합니다. TOMATO는 자체 제작한 비디오를 포함한 1,417개의 비디오와 1,484개의 질문으로 구성되어 있으며, 평가 결과 최고 성능의 모델도 인간과 57.3%의 큰 성능 차이를 보였습니다. 또한, 현재 MFMs가 프레임을 연속적인 시퀀스로 해석하지 못하고 개별 프레임 단위로만 이해하는 근본적인 한계를 가지고 있음을 밝혀냈습니다. 논문 제목: tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습
·
#Vision-Language Pre-training#Momentum Distillation

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습

ALBEF는 이미지와 텍스트 표현을 융합(Fuse)하기 전에, 먼저 contrastive loss를 사용하여 두 표현을 정렬(Align)하는 새로운 Vision-Language Pre-training 프레임워크입니다. 이 ‘Align before Fuse’ 접근법은 cross-modal attention을 통한 이미지-텍스트 상호작용 학습을 더 효과적으로 만듭니다. 또한 ALBEF는 별도의 object detector를 요구하지 않으며, 노이즈가 많은 웹 데이터로부터의 학습 성능을 향상시키기 위해 모멘텀 모델의 pseudo-target을 활용하는 Momentum Distillation (MoD) 기법을 제안합니다. 이를 통해 이미지-텍스트 검색, VQA, NLVR² 등 다양한 downstream task에서 SOTA 성능을 달성했습니다. 논문 제목: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델
·
#Image Tokenization#Multi-modal

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델

Tokenize Anything via Prompting (TAP)은 유연한 시각적 프롬프트(점, 상자, 스케치)를 통해 임의의 영역을 동시에 분할, 인식, 캡셔닝할 수 있는 통합된 프롬프트 기반 모델입니다. SAM의 아키텍처를 기반으로 각 예측된 마스크에 semantic token을 추가하여 이미지 디코더를 업그레이드했으며, SA-1B의 방대한 분할 마스크와 사전 훈련된 EVA-CLIP의 semantic prior를 결합하여 훈련되었습니다. 이 모델은 분할과 개념 예측을 공동으로 최적화하여 강력한 지역별 인식 및 위치 파악 능력을 보여주며, 다양한 시각적 인식 작업을 위한 다목적 지역 수준 이미지 토크나이저로 기능할 수 있습니다. 논문 제목: Tokenize Anything via Prompting