Liu, Zhuang, and Kaiming He. "A decade's battle on dataset bias: Are we there yet?." arXiv preprint arXiv:2403.08632 (2024).

A Decade's Battle on Dataset Bias: Are We There Yet?

Abstract

우리는 10년 전 Torralba & Efros (2011)가 제안했던 "데이터셋 분류(dataset classification)" 실험을, 대규모의 다양하며 편향이 적기를 기대하는 데이터셋과 더욱 강력해진 신경망 아키텍처가 등장한 새로운 시대에 다시 수행한다. 놀랍게도, 우리는 최신 신경망이 이미지가 어떤 데이터셋에서 왔는지 분류하는 데 탁월한 정확도를 달성할 수 있음을 관찰했다. 예를 들어, YFCC, CC, DataComp 데이터셋으로 구성된 세 가지 분류 문제(three-way classification problem)에서 held-out validation 데이터에 대해 84.7%의 정확도를 보고한다. 우리의 추가 실험은 이러한 데이터셋 분류기가 일반화 및 전이 가능한 의미론적 feature를 학습할 수 있음을 보여주며, 이는 단순히 암기(memorization)만으로는 설명될 수 없다. 우리는 우리의 발견이 데이터셋 편향(dataset bias)과 관련된 문제들을 커뮤니티가 다시 생각하는 계기가 되기를 바란다.

1 Introduction

2011년, Torralba & Efros (2011)는 딥러닝 혁명(Krizhevsky et al., 2012)이 시작되기 직전, 커뮤니티에 데이터셋 편향(dataset bias)에 대한 경각심을 촉구했다. 그들은 "Name That Dataset" 실험을 도입했는데, 이 실험에서는 데이터셋에서 이미지를 샘플링하고, 이 이미지들의 합집합으로 모델을 학습시켜 어떤 데이터셋에서 이미지가 추출되었는지 분류하도록 했다. 놀랍게도 당시의 데이터셋들은 높은 정확도로 분류될 수 있었다. 또한 그들은 하나의 데이터셋으로 학습된 모델은 해당 데이터셋에서는 잘 작동하지만, 다른 데이터셋으로는 일반화되지 못한다는 것을 발견했다.

이에 대한 응답으로, 그 후 10년 동안 다양하고, 대규모이며, 포괄적이고, 편향이 적은 데이터셋을 구축하려는 노력이 딥러닝 혁명, 특히 사전학습(pre-training) 시대의 원동력이 되었다 (Lin et al., 2014; Russakovsky et al., 2015; Thomee et al., 2016; Kuznetsova et al., 2020; Schuhmann et al., 2022). 이와 병행하여, 알고리즘, 특히 신경망 아키텍처의 발전은 데이터로부터 개념, 추상화, 패턴(편향 포함)을 발견하는 능력에서 전례 없는 수준을 달성했다.

본 연구에서는 10년간의 노력 끝에 "데이터셋 편향에 대한 새로운 편향 없는 시각(unbiased look at dataset bias)" (Torralba & Efros, 2011)을 제시한다. 우리의 연구는 편향이 적은 데이터셋을 구축하는 노력과 더 유능한 모델을 개발하는 노력 사이의 긴장에서 비롯되었다. 후자는 Torralba & Efros (2011) 당시에는 덜 중요하게 여겨졌다. 데이터의 편향을 줄이려는 노력이 진전을 가져올 수 있지만, 고급 모델의 개발은 데이터셋 편향을 더 잘 활용하여 이러한 노력을 상쇄할 수도 있다.

우리의 연구는 **데이터셋 분류(dataset classification)**라고 부르는 가상의 task에 기반한다. 이는 Torralba & Efros (2011)에서 설계된 "Name That Dataset" 실험과 동일하다 (Figure 1). 우리가 실험하는 데이터셋들은 인터넷에서 수집된, 현존하는 가장 다양하고, 크며, 큐레이션되지 않은 데이터셋으로 추정된다. 예를 들어, 우리가 연구하는 일반적인 조합인 **"YCD"**는 YFCC (Thomee et al., 2016), CC (Changpinyo et al., 2021), DataComp (Gadre et al., 2023)의 이미지로 구성되며, 3가지 데이터셋 분류 문제를 제시한다.

우리(그리고 많은 초기 독자들)의 놀랍게도, 현대 신경망은 이러한 데이터셋 분류 task에서 뛰어난 정확도를 달성할 수 있다. 인간에게는 어려운 앞서 언급된 YCD 세트(Figure 1)에서 학습된 모델은 held-out validation 데이터에서 84% 이상의 분류 정확도를 달성하며, 이는 **무작위 추측 수준인 33.3%**와 비교된다. 이러한 관찰은 다양한 데이터셋 조합과 여러 세대의 아키텍처(Krizhevsky et al., 2012; Simonyan & Zisserman, 2015; He et al., 2016; Dosovitskiy et al., 2021; Liu et al., 2022)에 걸쳐 매우 견고하며, 대부분의 경우 매우 높은 정확도(예: 80% 이상)가 달성되었다.

Figure 1: 2024년의 "Name That Dataset" 게임 (Torralba & Efros, 2011): 이 이미지들은 세 가지 최신 데이터셋인 YFCC (Thomee et al., 2016), CC (Changpinyo et al., 2021), DataComp (Gadre et al., 2023)에서 샘플링되었다. 각 이미지가 어떤 데이터셋에서 왔는지 특정할 수 있는가? 이 데이터셋들은 편향이 적어 보이지만, 우리는 신경망이 held-out validation 세트에서 놀랍도록 높은 정확도로 이 "데이터셋 분류" task를 쉽게 수행할 수 있음을 발견했다. 정답: YFCC: 1, 4, 7, 10, 13, 16, 19; CC: 2, 5, 8, 11, 14, 17, 20; DataComp: 3, 6, 9, 12, 15, 18, 21

이러한 데이터셋 분류 task에 대해 우리는 의미론적 분류 task(예: 객체 분류)에서 관찰된 것과 유사한 일련의 관찰 결과를 얻었다. 예를 들어, 더 많은 샘플로 데이터셋 분류기를 학습시키거나, 더 강력한 데이터 증강(data augmentation)을 사용하면, 학습 task가 더 어려워지더라도 held-out validation 데이터의 정확도가 향상될 수 있음을 관찰했다. 이는 의미론적 분류 task의 일반화 행동과 유사하다. 이러한 행동은 신경망이 데이터셋 분류 task를 해결하기 위해 데이터셋별 패턴(일종의 편향)을 발견하려고 시도한다는 것을 시사한다. 추가 실험에서는 데이터셋을 분류하여 학습된 표현이 이미지 분류 task로 전이 가능한 일부 의미론적 정보를 포함하고 있음을 보여준다.

비교를 위해, 만약 다른 데이터셋의 샘플들이 동일한 분포에서 편향 없이 추출되었다면, 모델은 어떤 데이터셋별 편향도 발견하지 못해야 한다. 이를 확인하기 위해 우리는 가상 데이터셋 분류 task를 연구했는데, 여기서 다른 "데이터셋"들은 단일 데이터셋에서 균일하게 샘플링된다. 우리는 이 분류 task가 빠르게 해결 불가능해진다는 것을 관찰했다. 분류기가 이 task에 접근하는 유일한 방법은 모든 개별 인스턴스와 그 하위 집합 ID를 암기하는 것이기 때문이다. 결과적으로, 샘플 수를 늘리거나 더 강력한 데이터 증강을 사용하면 실험에서 암기가 더 어렵거나 불가능해진다. 전이 가능성(transferability)은 관찰되지 않았다. 이러한 행동은 실제 데이터셋 분류 task의 행동과 현저하게 대조된다.

더욱 놀랍게도, 우리는 자기지도 학습(self-supervised learning) 모델 또한 다른 데이터셋 간의 특정 편향을 포착하는 데 매우 유능하다는 것을 관찰했다. 구체적으로, 우리는 데이터셋 ID를 레이블로 사용하지 않고 다른 데이터셋의 합집합으로 자기지도 모델을 사전학습시켰다. 그런 다음 사전학습된 표현을 고정(frozen)한 상태에서 데이터셋 분류 task를 위한 선형 분류기(linear classifier)를 학습시켰다. 이 선형 레이어만이 데이터셋 ID 레이블에 의해 튜닝될 수 있는 유일한 레이어임에도 불구하고, 모델은 데이터셋 분류에서 여전히 높은 정확도(예: 78%)를 달성할 수 있었다. 이러한 전이 학습(transfer learning) 행동은 일반적인 자기지도 학습 방법(예: 이미지 분류)의 행동과 유사하다.

요약하자면, 우리는 현대 신경망이 다른 데이터셋에서 숨겨진 편향을 놀랍도록 잘 발견한다는 것을 보고한다. 이러한 관찰은 매우 크고, 다양하며, 큐레이션되지 않고, 편향이 적을 것으로 추정되는 최신 데이터셋에서도 사실이다. 신경망은 일반화 가능한 패턴(즉, 학습 데이터에서 validation 데이터 또는 다운스트림 task로 일반화 가능한 패턴)을 발견함으로써 이 task를 해결할 수 있으며, 의미론적 분류 task에서 관찰된 것과 유사한 행동을 보인다. 10년 전 Torralba & Efros (2011)의 "Name That Dataset" 게임과 비교할 때, 오늘날의 유능한 신경망 덕분에 이 게임은 훨씬 더 쉬워졌다. 이러한 의미에서 데이터셋 편향과 관련된 문제는 완화되지 않았다. 현재 우리의 사전학습 데이터셋이 실제 세계를 얼마나 잘 대표하는지, 그리고 더 다양하고 편향이 적은 학습 데이터셋을 구축함으로써 모델이 얼마나 더 일반화될 수 있는지에 대한 질문은 여전히 남아 있다. 우리는 우리의 발견이 이 새로운 시대에 데이터셋 편향에 대한 커뮤니티의 논의를 촉진하기를 희망한다.

2 A Brief History of Datasets

데이터셋 이전 시대 (Pre-dataset Eras)
"데이터셋"이라는 개념은 컴퓨터 비전 연구 역사에서 처음부터 명확하게 존재했던 것은 아니다. 컴퓨터가 등장하기 전(예: 1860년대 헬름홀츠의 저서 (Von Helmholtz, 1867) 참조), 과학자들은 인간 시각 시스템에 대한 계산 모델을 검증하기 위해 "자극(stimuli)"이라고 불리던 "테스트 샘플"의 필요성을 이미 인식하고 있었다. 이러한 자극은 종종 선, 줄무늬, 얼룩과 같은 합성 패턴으로 구성되었다. 합성 패턴을 사용하는 관행은 컴퓨터 비전 초기 연구에서도 이어졌다.

사진을 디지털화하는 장치가 도입된 직후, 연구자들은 하나 또는 극히 적은 수의 실제 이미지로 자신들의 알고리즘을 검증하고 정당화할 수 있었다 (Roberts, 1963). 예를 들어, Cameraman 이미지 (Schreiber, 1978)는 1978년부터 이미지 처리 연구의 표준 테스트 이미지로 사용되어 왔다. 컴퓨터 비전 알고리즘을 평가하기 위해 데이터(당시에는 "데이터셋"으로 널리 불리지 않음)를 사용하는 개념은 커뮤니티에 의해 점진적으로 형성되었다.

Task 정의를 위한 데이터셋 (Datasets for Task Definition)
머신러닝 방법이 컴퓨터 비전 커뮤니티에 도입되면서 "데이터셋"의 개념은 더욱 명확해졌다. 검증 목적의 데이터 외에도, 머신러닝의 적용은 알고리즘이 모델 파라미터를 최적화할 수 있는 **학습 데이터(training data)**의 개념을 도입했다.

이처럼 학습 데이터와 검증 데이터가 함께 모여 본질적으로 관심 있는 task를 정의하게 되었다. 예를 들어,

MNIST 데이터셋 (LeCun et al., 1998)은 10자리 숫자 분류 task를 정의하고,
Caltech-101 데이터셋 (Fei-Fei et al., 2004)은 101개 객체 범주의 이미지 분류 task를 정의하며,
PASCAL VOC 데이터셋 (Everingham et al., 2010)은 20개 객체 범주의 분류, 탐지, 분할 task를 정의한다.

더욱 뛰어난 알고리즘을 장려하기 위해, 더 도전적인 task들이 정의되었다. 오늘날의 맥락에서 이러한 종류의 가장 주목할 만한 예시는 ImageNet 데이터셋 (Deng et al., 2009)이다. ImageNet은 1000개의 클래스(그중 상당수는 미세한 동물 종)로 정의된 100만 개 이상의 이미지를 포함하며, 이는 일반적인 사람에게도 인식하기 쉽지 않은 수준이다 (Karpathy, 2014). ImageNet이 제안될 당시, 이 task를 해결하기 위한 알고리즘은 번거로워 보였다. 예를 들어, 주최 측은 이 문제 연구를 용이하게 하기 위해 사전 계산된 SIFT feature (Lowe, 2004)를 제공했으며, 당시의 일반적인 방법은 1000개의 SVM 분류기를 학습시키는 것이었는데, 이는 그 자체로 쉽지 않은 문제였다 (Vedaldi & Zisserman, 2012). 가설적으로, ImageNet이 이전의 많은 인기 데이터셋처럼 그 자체로 하나의 task로만 남아 있었다면, 우리는 딥러닝 혁명을 목격할 수 없었을 것이다. 그러나 패러다임의 전환이 기다리고 있었다.

Representation Learning을 위한 데이터셋 (Datasets for Representation Learning)
2012년 딥러닝 혁명 (Krizhevsky et al., 2012) 직후, 커뮤니티는 ImageNet과 같은 대규모 데이터셋에서 학습된 신경망 표현(neural network representation)이 전이 가능(transferrable)하다는 사실을 곧 발견했다 (Donahue et al., 2014; Girshick et al., 2014; Yosinski et al., 2014). 이 발견은 컴퓨터 비전 분야에 패러다임의 전환을 가져왔다: ImageNet에서 표현을 사전학습(pre-train)하고 이를 다운스트림 task로 전이(transfer)하는 것이 일반적인 관행이 되었다.

이로써 ImageNet 데이터셋은 더 이상 그 자체로 하나의 task가 아니었다. 그것은 우리가 표현하고자 하는 **보편적인 시각 세계의 핀홀(pinhole)**이 되었다. 따라서, 한때 번거로웠던 측면들이 이 데이터셋의 장점으로 바뀌었다: 당시 대부분의 다른 데이터셋보다 더 많은 수의 이미지와 더 다양화된 범주를 가졌으며, 경험적으로 이러한 속성들이 좋은 표현을 학습하는 데 중요하다는 것이 밝혀졌다.
ImageNet의 엄청난 성공에 힘입어, 커뮤니티는 **더욱 일반적이고 이상적으로는 보편적인 시각 표현(visual representation)**을 추구하기 시작했다. 더 크고, 더 다양하며, 편향이 적은 데이터셋을 구축하는 데 막대한 노력이 기울여졌다. 그 예로는 YFCC100M (Thomee et al., 2016), CC12M (Changpinyo et al., 2021), 그리고 본 논문에서 주로 연구하는 DataComp-1B (Gadre et al., 2023) 등이 있다 (Sun et al., 2017; Desai et al., 2021; Srinivasan et al., 2021; Schuhmann et al., 2022). 흥미로운 점은 이러한 데이터셋 구축이 항상 해결해야 할 특정 task를 정의하는 것은 아니라는 것이다. 실제로, 이들 대규모 데이터셋 중 상당수는 학습/검증 세트 분할을 제공하지 않는다. 이러한 데이터셋들은 사전학습(pre-training)이라는 목표를 염두에 두고 구축되었다.

3 On Dataset Bias

데이터셋의 중요성이 커지면서, **데이터셋에 의해 발생하는 편향(bias)**이 커뮤니티의 주목을 받았다. Torralba & Efros (2011)는 **데이터셋 분류 문제(dataset classification problem)**를 제시하고, SVM 분류기와 수작업으로 만든 feature를 사용하여 데이터셋 편향을 조사했다. Tommasi et al. (2015)는 신경망을 사용하여 데이터셋 분류 문제를 연구했으며, 특히 사전학습된 ConvNet feature (Donahue et al., 2014)를 사용한 선형 분류기에 초점을 맞췄다. 이들이 연구한 데이터셋은 오늘날의 웹 규모 데이터에 비해 규모가 작고 단순하다.

서로 다른 데이터셋을 분류하는 개념은 domain adaptation 방법 (Tzeng et al., 2014; Ganin et al., 2016)에서 더욱 발전되었다. 이 방법들은 서로 다른 domain(각 domain은 데이터셋으로 간주될 수 있음)의 feature를 적대적으로 구별하는 분류기를 학습한다. 이 방법들이 연구한 문제들은 상당한 domain gap을 가지고 있는 것으로 알려져 있다. 반대로, 우리가 연구하는 데이터셋은 적어도 인간에게는 덜 구별될 것으로 추정된다.

데이터셋 편향을 연구하는 또 다른 방향은 데이터셋의 수집 과정을 재현하고 재현된 데이터를 조사하는 것이다. ImageNetV2 (Recht et al., 2019)는 ImageNet validation set의 프로토콜을 재현했다. 그 결과, 재현된 데이터에서도 정확도 저하로 반영되는 편향이 여전히 명확하게 나타남을 관찰했다. 이 편향은 (Engstrom et al., 2020)에서 추가적으로 분석되었다.

모델의 일반화 능력을 다양한 형태의 편향(예: 일반적인 손상 및 위험한 조건) 하에서 테스트하기 위해 많은 벤치마크 (Hendrycks & Dietterich, 2018; Zendel et al., 2018; Koh et al., 2021; Hendrycks et al., 2021)가 만들어졌다. 또한 데이터셋 편향을 완화하기 위한 풍부한 연구도 진행되고 있다. 여러 데이터셋으로 학습하는 것 (Lambert et al., 2020; Nguyen et al., 2022)은 데이터셋 편향을 잠재적으로 완화할 수 있다. 테스트 시점에 모델을 다른 편향을 가진 데이터에 적응시키는 방법 (Sun et al., 2020; Wang et al., 2021)도 최근 인기를 얻고 있다.

편향의 다양한 개념 (Different Notions of Bias)
이 연구의 초점은 여러 데이터셋 간의 편향 (따라서 "data" bias가 아닌 "dataset" bias)이라는 점에 주목할 필요가 있다. 이는 주로 개념과 객체의 적절한 커버리지, 즉 데이터셋이 현실 세계를 얼마나 잘 대표하는지에 관한 것이다. 이는 데이터 내의 또 다른 일반적인 편향 개념인 **사회적 및 고정관념적 편향(social and stereotypical bias)**과 혼동해서는 안 된다. 이 개념은 알고리즘 공정성(algorithmic fairness) (Mitchell et al., 2021)에 더 중점을 두며, 단일 데이터셋 내에서도 발견될 수 있다 (예: 성별 또는 인종 편향). 이 두 가지 개념은 관련이 있지만, 강조하는 측면이 다르다. 예를 들어, 실내 가구로만 구성된 단순한 데이터셋은 사회적 편향으로부터는 대체로 자유롭지만, 세계를 대표하는 측면에서는 극도로 편향되어 있다.

데이터 내의 사회적 편향을 다루는 것은 활발한 연구 분야이다. 몇몇 잘 알려진 데이터셋에서 인구 통계학적 편향 (Buolamwini & Gebru, 2018; Yang et al., 2020) 및 지리적 편향 (Shankar et al., 2017)이 확인되었다. 또한 이들은 유해한 사회적 고정관념 (van Miltenburg, 2016; Prabhu & Birhane, 2021; Birhane et al., 2021; Zhao et al., 2021)을 포함하고 있다. 이러한 편향을 다루는 것은 공정성과 윤리적 고려 사항에 매우 중요하다. REVISE (Wang et al., 2022) 및 Know Your Data (Google People + AI Research, 2021)와 같은 도구는 데이터셋 내의 잠재적 편향에 대한 자동 분석을 제공한다. 적대적 학습(adversarial learning) (Zhang et al., 2018a) 및 domain-independent training (Wang et al., 2020)과 같은 편향 제거 접근 방식도 데이터셋 편향의 영향을 줄이는 데 유망한 결과를 보여주었다.

4 Dataset Classification

데이터셋 분류(dataset classification) task (Torralba & Efros, 2011)는 이미지 분류 task와 유사하게 정의되지만, 각 데이터셋이 고유한 클래스를 형성한다. 이는 $N$ 개의 데이터셋이 있을 때 $N$ -way 분류 문제를 생성한다. 정확도는 이 데이터셋들에서 샘플링된 held-out validation set을 통해 평가된다.

4.1 On the Datasets We Use

우리는 데이터셋 분류(dataset classification) task를 도전적으로 만들기 위해 의도적으로 특정 데이터셋들을 선택한다. 데이터셋 선택은 다음 고려사항을 기반으로 한다: (1) 대규모 데이터셋: 작은 데이터셋은 다루는 개념의 범위가 좁을 수 있으며, 데이터셋 분류를 위한 충분한 학습 이미지를 포함하지 않을 수 있다. (2) 일반적이고 다양함: 특정 시나리오(예: 도시 (Cordts et al., 2016), 장면 (Zhou et al., 2017))나 특정 메타-카테고리 객체(예: 꽃 (Nilsback & Zisserman, 2008), 반려동물 (Parkhi et al., 2012))에 대한 데이터셋은 피한다. (3) 일반화 가능한 표현(generalizable representations)을 사전학습(pre-training)하려는 의도로 수집되었거나, 그러한 의도로 사용된 데이터셋: 여기서는 "사전학습" 데이터셋과 "벤치마크" 데이터셋 간의 차이를 강조한다. 이는 평가 벤치마크 데이터셋이 종종 독특하고 편향되어 있다는 것이 더 널리 받아들여지기 때문이다 (Raji et al., 2021; Koch et al., 2021). 이러한 기준에 따라 우리는 Table 1에 나열된 데이터셋들을 선택한다.

dataset	description
YFCC (Thomee et al., 2016)	1억 개의 Flickr 이미지
CC (Changpinyo et al., 2021)	1,200만 개의 인터넷 이미지-텍스트 쌍
DataComp (Gadre et al., 2023)	Common Crawl에서 수집한 10억 개의 이미지-텍스트 쌍
WIT (Srinivasan et al., 2021)	1,150만 개의 Wikipedia 이미지-텍스트 쌍
LAION (Schuhmann et al., 2022)	Common Crawl에서 수집한 20억 개의 이미지-텍스트 쌍
ImageNet (Deng et al., 2009)	검색 엔진에서 수집한 1,400만 개의 이미지

Table 1: 우리 실험에 사용된 데이터셋.

이러한 데이터셋들은 다양성이 높다고 여겨지지만, 수집 과정에서 여전히 차이가 존재하며, 이는 각 데이터셋의 고유한 편향에 기여할 수 있다. 예를 들어, 데이터 소스가 다르다: Flickr는 사용자들이 사진을 업로드하고 공유하는 웹사이트이고, Wikipedia는 지식과 정보에 중점을 둔 웹사이트이며, Common Crawl은 웹 데이터를 크롤링하는 조직이고, 더 넓은 인터넷은 이러한 특정 웹사이트들보다 더 일반적인 범위의 콘텐츠를 포함한다. 또한, 데이터 수집 과정에서 다양한 수준의 큐레이션이 포함되었다: 예를 들어, LAION은 CLIP 모델 (Radford et al., 2021)을 역설계하고 그 zero-shot 정확도를 재현하여 수집되었다 (Schuhmann et al., 2022).

이러한 잠재적 편향에 대한 우리의 인지에도 불구하고, 신경망이 이를 포착하는 뛰어난 능력은 우리의 예상을 뛰어넘었다. 특히, 우리는 네트워크의 데이터셋 분류 정확도를 각 validation 이미지에 개별적으로 적용하여 평가했으며, 이는 네트워크가 여러 이미지의 기본 통계(underlying statistics)를 활용할 기회가 없도록 보장한다.

4.2 Main Observation

이 데이터셋 분류 task에서 신경망이 놀랍도록 높은 정확도를 달성하는 것을 관찰했다. 이러한 관찰은 다양한 설정에서 일관되게 나타난다. 기본적으로 각 데이터셋에서 1M개의 이미지를 훈련 세트로, 10K개의 이미지를 검증 세트로 무작위 샘플링한다. 우리는 지도 학습의 일반적인 관행에 따라 ConvNeXt-T 모델 (Liu et al., 2022)을 훈련시킨다 (구현 세부 사항은 Appendix A에 있다).

YFCC	CC	DataComp	WIT	LAION	ImageNet	accuracy
$\checkmark$	$\checkmark$					84.7
$\checkmark$	$\checkmark$		$\checkmark$			83.9
$\checkmark$	$\checkmark$			$\checkmark$		85.0
$\checkmark$	$\checkmark$				$\checkmark$	92.7
$\checkmark$		$\checkmark$	$\checkmark$			85.8
$\checkmark$		$\checkmark$		$\checkmark$		72.1
$\checkmark$		$\checkmark$			$\checkmark$	90.2
$\checkmark$			$\checkmark$	$\checkmark$		86.6
$\checkmark$			$\checkmark$		$\checkmark$	86.7
$\checkmark$				$\checkmark$	$\checkmark$	91.9
	$\checkmark$	$\checkmark$	$\checkmark$			83.6
	$\checkmark$	$\checkmark$		$\checkmark$		62.8
	$\checkmark$	$\checkmark$			$\checkmark$	82.8
	$\checkmark$		$\checkmark$	$\checkmark$		84.3
	$\checkmark$		$\checkmark$		$\checkmark$	91.3
	$\checkmark$			$\checkmark$	$\checkmark$	84.1
		$\checkmark$	$\checkmark$	$\checkmark$		71.5
		$\checkmark$	$\checkmark$		$\checkmark$	88.9
		$\checkmark$		$\checkmark$	$\checkmark$	68.2
			$\checkmark$	$\checkmark$	$\checkmark$	90.7
$\checkmark$	$\checkmark$	$\checkmark$				84.7
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$			79.1
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$		67.4
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	69.2

Table 2: 데이터셋 분류는 모든 조합에서 높은 정확도를 보인다. 상단 패널: 6개 데이터셋 중 3개를 포함하는 모든 20가지 조합. 하단 패널: 3, 4, 5 또는 6개 데이터셋을 포함하는 조합. 모든 결과는 각 데이터셋에서 샘플링된 1M개의 훈련 이미지로 얻은 것이다.

우리는 실험에서 다음과 같은 행동을 관찰했다: 데이터셋 조합 전반에 걸쳐 높은 정확도가 관찰된다. Table 2 (상단 패널)에서, Table 1에 나열된 6개 데이터셋 중 3개를 선택하는 모든 20가지( $C_6^3$ ) 가능한 조합을 열거했다. 요약하자면, 모든 경우에 네트워크는 62% 이상의 데이터셋 분류 정확도를 달성했으며, 20가지 조합 중 16가지에서는 80% 이상의 정확도를 달성했다. YFCC, CC, ImageNet의 조합에서는 **92.7%**의 가장 높은 정확도를 달성했다. 무작위 추측(chance-level guess)은 33.3%의 정확도를 제공한다는 점에 유의하라.

Table 2 (하단 패널)에서는 3, 4, 5, 그리고 모든 6개 데이터셋을 포함하는 조합을 연구했다. 예상대로, 더 많은 데이터셋을 사용할수록 task는 더 어려워지며, 이는 정확도 감소로 반영된다. 그러나 모든 6개 데이터셋이 포함되었을 때도 네트워크는 69.2%의 정확도를 달성했다. 6-way 분류기의 혼동 행렬은 Appendix B에서 찾을 수 있다.

모델 아키텍처 전반에 걸쳐 높은 정확도가 관찰된다. Table 3은 다양한 세대의 모델을 사용한 YCD 결과이다: AlexNet (Krizhevsky et al., 2012), VGG (Simonyan & Zisserman, 2015), ResNet (He et al., 2016), ViT (Dosovitskiy et al., 2021), 그리고 ConvNeXt (Liu et al., 2022).

모든 아키텍처가 task를 훌륭하게 해결할 수 있음을 관찰했다: 5개 네트워크 중 4개는 80% 이상의 뛰어난 정확도를 달성했으며, 심지어 고전적인 AlexNet도 **77.8%**라는 강력한 결과를 달성했다. 이 결과는 신경망이 구체적인 아키텍처와 관계없이 데이터셋 편향을 포착하는 데 매우 능숙함을 보여준다. AlexNet 논문 이후 네트워크 아키텍처 설계에는 정규화 레이어 (Ioffe & Szegedy, 2015;

model	accuracy
AlexNet	77.8
VGG-16	83.5
ResNet-50	83.8
ViT-S	82.4
ConvNeXt-T	84.7

Table 3: 다양한 모델 아키텍처가 모두 높은 정확도를 달성한다. 결과는 각 1M 이미지로 구성된 YCD 조합에 대한 것이다.

Ba et al., 2016), residual connection (He et al., 2016), self-attention (Vaswani et al., 2017; Dosovitskiy et al., 2021)을 포함한 상당한 발전이 있었다. 네트워크 아키텍처의 "inductive bias"도 다를 수 있다 (Dosovitskiy et al., 2021). 그럼에도 불구하고, 이들 중 어느 것도 데이터셋 분류에 필수적인 것으로 보이지 않는다 (예: VGG (Simonyan & Zisserman, 2015)는 이러한 구성 요소가 전혀 없다): 데이터셋 편향을 포착하는 능력은 특정 구성 요소에 의해 가능해진 것이 아니라, 심층 신경망에 내재된 특성일 수 있다.

다양한 모델 크기 전반에 걸쳐 높은 정확도가 관찰된다. 기본적으로 우리는 ConvNeXt-Tiny (27M 파라미터) (Liu et al., 2022)를 사용한다. "Tiny"라는 용어는 ViT 크기의 현대적 정의 (Touvron et al., 2021; Dosovitskiy et al., 2021)를 참조하며, ResNet-50 (25M) (He et al., 2016)과 비교할 만하다. Figure 2에서 우리는 너비와 깊이를 변경하여 다양한 크기의 모델 결과를 보고한다.

더욱 놀랍게도, 매우 작은 모델조차도 데이터셋 분류 task에서 강력한 정확도를 달성할 수 있다. 7K 파라미터 (ResNet-50의 3/10000)에 불과한 ConvNeXt는 YCD 분류에서 72.4%의 정확도를 달성한다. 이는 신경망 구조가 기저의 데이터셋 편향을 학습하는 데 매우 효과적임을 시사한다. 데이터셋 분류는 기존 시각 인식에서 딥러닝의 성공에 기여했다고 흔히 알려진 방대한 수의 파라미터 없이도 수행될 수 있다.

Figure 2: 다양한 크기의 모델이 모두 매우 높은 정확도를 달성하며, 일반적인 현대 네트워크 크기보다 훨씬 작을 수 있다. 여기서 모델은 ConvNeXt (Liu et al., 2022)의 변형이며, "Tiny" 크기는 27M 파라미터를 가진다. 결과는 각 세트에서 1M 훈련 이미지를 사용한 YCD 조합에 대한 것이다.

Figure 3: 데이터셋 분류 정확도는 훈련 이미지 수에 따라 증가한다. 이 행동은 모델이 일반화 가능한 특정 패턴을 학습하고 있음을 시사하며, 이는 일반적인 의미론적 분류 task에서 관찰되는 행동과 유사하다. 결과는 YCD에 대한 것이며, 각 모델은 동일한 반복 횟수로 훈련되었다.

또한, 더 큰 모델이 점진적으로 더 나은 성능을 보이지만, 그 효과는 점차 감소하는 것을 관찰했다. 이는 기존 시각 인식 task에서 관찰되는 현상과 일치한다. 더욱이, 우리가 연구한 모델 크기와 데이터셋 규모에서는 과적합(overfitting) 현상이 관찰되지 않았다. 이는 모델이 훈련 데이터를 암기하려 하지 않고, 데이터셋 정체성을 결정하는 데 도움이 되는 일반화 가능한 패턴이 존재할 수 있음을 의미한다. 일반화 및 암기에 대한 추가 조사는 다음에서 제시된다.

데이터셋 분류 정확도는 더 많은 훈련 데이터로부터 이점을 얻는다. YCD 분류를 위한 훈련 이미지 수를 변경하고 Figure 3에 결과를 제시한다. 흥미롭게도, 더 많은 데이터로 훈련된 모델은 더 높은 검증 정확도를 달성한다. 이러한 경향은 현대 ConvNeXt와 고전 AlexNet 모두에서 일관되게 관찰된다. 이러한 행동은 의미론적 분류 task에서는 자연스럽게 보일 수 있지만, 데이터셋 분류에서는 반드시 그렇지는 않다는 점을 지적한다: 사실, 모델이 훈련 데이터를 암기하는 데 집중했다면, 검증 데이터에 대한 일반화 성능은 감소할 수 있다. 관찰된 행동, 즉 더 많은 훈련 데이터가 검증 정확도를 향상시킨다는 것은 모델이 훈련 데이터를 암기하거나 과적합하는 것이 아니라, 보이지 않는 데이터에 일반화 가능한 특정 의미론적 패턴을 학습하고 있음을 시사한다.

데이터셋 분류 정확도는 데이터 증강(data augmentation)으로부터 이점을 얻는다. 데이터 증강 (Krizhevsky et al., 2012)은 데이터셋 크기를 늘리는 것과 유사한 효과를 가질 것으로 예상된다 (이는 그 이름의 근거이기도 하다). 우리의 기본 훈련 설정은 random cropping (Szegedy et al., 2015), RandAug (Cubuk et al., 2020), MixUp (Zhang et al., 2018b), 그리고 CutMix (Yun et al., 2019)를 데이터 증강으로 사용한다. Table 4는 감소된 또는 데이터 증강을 사용하지 않은 결과를 보여준다.

augmentation / training images per dataset	10 K	100 K	1 M
no aug	43.2	71.9	76.8
w/ RandCrop	66.1	74.5	84.2
w/ RandCrop, RandAug	70.2	78.0	85.0
w/ RandCrop, RandAug, MixUp / CutMix	72.4	80.1	84.7

Table 4: 데이터 증강은 데이터셋 분류 정확도를 향상시키며, 이는 의미론적 분류 task의 행동과 유사하다. 결과는 YCD 조합에 대한 것이다.

데이터 증강을 추가하면 훈련 이미지를 암기하기가 더 어려워지지만, 더 강력한 데이터 증강을 사용할수록 데이터셋 분류 정확도가 일관되게 향상되는 것을 관찰했다. 이러한 행동은 데이터셋당 훈련 이미지 수와 관계없이 대체로 일관되게 유지된다. 다시 말하지만, 이 행동은 의미론적 분류 task에서 관찰되는 것을 반영하며, 데이터셋 분류가 암기를 통해서가 아니라, 훈련 세트에서 보이지 않는 검증 세트로 일반화 가능한 패턴을 학습함으로써 접근됨을 시사한다.

요약. 요컨대, 우리는 신경망이 높은 정확도로 데이터셋 분류 task를 해결하는 데 매우 유능함을 관찰했다. 이러한 관찰은 데이터셋의 다양한 조합, 다양한 모델 아키텍처, 다양한 모델 크기, 데이터셋 크기, 그리고 데이터 증강 전략을 포함한 다양한 조건에서 유효하다.

5 Analysis

이 섹션에서는 데이터셋 분류 task와 관련된 다양한 수정 버전의 모델 동작을 분석한다. 이를 통해 데이터셋 분류를 위한 신경망의 더욱 흥미로운 특성들을 밝혀낼 수 있다.

5.1 Low-level Signatures?

높은 정확도가 단순히 저수준(low-level) 특징 때문일 가능성이 있다. 이러한 특징들은 사람에게는 덜 눈에 띄지만, 신경망은 쉽게 식별할 수 있다. 잠재적인 특징으로는 JPEG 압축 아티팩트(예: 데이터셋마다 압축 품질 계수가 다를 수 있음) 및 색상 양자화 아티팩트(예: 개별 데이터셋에 따라 색상이 잘리거나 양자화될 수 있음) 등이 있을 수 있다. 우리는 이러한 가능성을 배제하는 데 도움이 되는 일련의 실험을 설계한다.

Figure 4: 저수준 특징 억제를 위한 다양한 손상(corruption). 우리는 학습 및 검증 세트 모두에 특정 유형의 손상을 적용하고, 그 위에서 모델을 학습 및 평가한다.

구체적으로, 우리는 학습 및 검증 세트 모두에 특정 유형의 이미지 손상(corruption)을 적용하고, 그 위에서 모델을 학습 및 평가한다. 다시 말해, 손상된 데이터에 대해 데이터셋 분류 task를 수행한다. 우리는 네 가지 유형의 이미지 손상을 고려한다: (i) color jittering (Krizhevsky et al., 2012), (ii) 고정된 표준 편차를 가진 Gaussian noise 추가, (iii) 고정된 크기의 Gaussian kernel로 이미지 블러링, (iv) 이미지 해상도 감소. Figure 4는 각 손상 유형의 예시를 보여준다. 우리는 한 번에 한 가지 유형의 손상만 적용한다.

Table 5는 각 이미지 손상에 대한 데이터셋 분류 결과를 보여준다. 예상대로, 손상은 분류 정확도를 감소시킨다. 이는 학습 및 검증 세트 모두 영향을 받기 때문이다. 하지만 손상 정도가 약할수록 여전히 높은 분류 정확도를 달성할 수 있다. 이러한 다양한 유형의 손상을 도입하는 것은 JPEG 또는 색상 양자화 아티팩트와 같은 저수준 특징을 효과적으로 방해할 것이다. 이 결과는 모델이 저수준 편향을 넘어 데이터셋 분류 task를 해결하려 시도한다는 것을 의미한다.

corruption (on train+val)	accuracy
none	84.7
color jittering (strength: 1.0)	81.1
color jittering (strength: 2.0)	80.2
Gaussian noise (std: 0.2)	77.3
Gaussian noise (std: 0.3)	75.1
Gaussian blur (radius: 3)	80.9
Gaussian blur (radius: 5)	78.1
low resolution ( $64 \times 64$ )	78.4
low resolution ( $32 \times 32$ )	68.4

Table 5: 데이터셋 분류 task의 다양한 손상 버전에서도 높은 정확도가 달성된다. 이는 저수준 특징이 주요 원인이 아님을 시사한다. 결과는 YCD 조합에 대한 것이다.

imgs per set	w/o aug	w/ aug
100	100.0	100.0
1 K	100.0	100.0
10 K	100.0	fail
100 K	fail	fail

Table 6: 가상 데이터셋 분류 task에 대한 학습 정확도. 여기서는 동일한 원본 데이터셋(YFCC)에서 비복원 추출(without replacement) 방식으로 샘플링된 3개의 가상 데이터셋을 생성한다. 이 학습 task는 더 많은 학습 이미지 및/또는 더 강력한 데이터 증강이 주어질수록 네트워크가 해결하기 더 어려워진다. 학습 가능한 전이 가능한 패턴이 없으므로 검증 정확도는 약 33%이다.

5.2 Memorization or Generalization?

Sec. 4.2에서 우리는 데이터셋 분류를 위해 학습된 모델이 의미론적 분류 task를 위해 학습된 모델과 유사하게 동작함을 보였다 (Figure 3 및 Table 4). 이는 일반화(generalization) 행동을 보이기 때문이다. 이러한 행동은 다음 비교에서 논의할 암기(memorization) 행동과는 극명한 대조를 이룬다.

우리는 pseudo-dataset 분류 task를 고려한다. 이 시나리오에서는 동일한 원본 데이터셋에서 비복원 추출(without replacement) 방식으로 샘플링된 여러 pseudo-dataset을 수동으로 생성한다. 이 과정을 통해 진정으로 편향되지 않은 여러 pseudo-dataset을 얻을 수 있을 것으로 예상한다.

Table 6은 이 pseudo-dataset 분류 task를 위해 학습된 모델의 학습 정확도를 보고한다. 이 실험에서는 세트당 다른 수의 학습 이미지를 사용했으며, 데이터 증강(data augmentation) 적용 여부에 따른 결과를 비교했다. task가 비교적 단순할 때는 모델이 100%의 학습 정확도를 달성하지만, task가 더 어려워질수록 (더 많은 학습 이미지 또는 더 강한 증강) 모델은 불안정하고 감소하지 않는 손실 곡선에서 볼 수 있듯이 수렴에 실패한다. 이러한 현상은 모델이 이 pseudo-dataset 분류 task를 수행하기 위해 개별 이미지와 그 레이블을 암기하려고 시도한다는 것을 의미한다. 이 pseudo-dataset의 이미지들은 편향되지 않았기 때문에, 서로 다른 세트를 구별하기 위해 발견될 수 있는 공유된 패턴이 없어야 한다. 결과적으로 모델은 Zhang et al. (2017)의 시나리오와 유사하게 이미지와 그 무작위 레이블을 암기하도록 강요받는다. 그러나 더 많은 학습 이미지나 더 강한 증강이 주어지면 암기가 더 어려워지고, 특정 시점 이후에는 학습 과정이 실패하게 된다. 이러한 현상은 우리가 실제 데이터셋 분류 task에서 관찰한 것(Figure 3 및 Table 4)과는 다르다. 이는 다시 한번 모델이 실제 데이터셋 분류 task에서 공유되고 일반화 가능한 패턴을 포착하려고 시도한다는 것을 시사한다.

명백해 보일 수 있지만, 우리는 pseudo-dataset 분류 task를 위해 학습된 모델이 검증 데이터(각 pseudo-dataset에서 분리되어 샘플링된 데이터)에 일반화되지 않음을 확인했다. 학습 정확도가 100%일 때조차도, 검증 세트에서는 약 33%의 무작위 수준(chance-level) 정확도를 보고한다.

5.3 Self-supervised Learning

지금까지 우리의 모든 데이터셋 분류 결과는 fully-supervised 프로토콜 하에 제시되었다: 즉, 모델들은 완전한 supervision으로 end-to-end 학습되었다. 다음으로, 우리는 self-supervised 학습에서 semantic classification task에 일반적으로 사용되는 프로토콜을 따라 self-supervised 프로토콜을 탐구한다.

구체적으로, 우리는 어떠한 레이블도 사용하지 않고 self-supervised learning 모델인 MAE (He et al., 2022)를 사전학습한다. 그런 다음, 이 사전학습된 모델에서 추출된 **feature들을 고정(freeze)**하고, 데이터셋 분류 task에 대한 supervision을 사용하여 linear classifier를 학습한다. 이를 linear probing 프로토콜이라고 한다. 이 프로토콜에서는 데이터셋 분류 레이블의 supervision 하에 linear classifier layer만 튜닝 가능하다는 점에 유의해야 한다. Linear probing은 더 도전적인 시나리오를 제시한다.

Table 7은 self-supervised 프로토콜 하의 결과를 보여준다. 표준 ImageNet (YCD 이미지를 포함하지 않음)으로 사전학습된 MAE를 사용하더라도, 모델은 데이터셋 분류에 대해 76.2%의 linear probing 정확도를 달성한다. 이 경우, linear classifier layer만 분류 데이터에 노출된다.

동일한 YCD 학습 데이터로 사전학습된 MAE를 사용하면, linear probing에서 78.4%의 더 높은 정확도를 달성한다. 이 MAE는 동일한 타겟 데이터로 사전학습되었지만, 목표가 데이터셋 분류라는 사전 지식은 없다는 점에 유의해야 한다. 그럼에도 불구하고, 사전학습된 모델은 ImageNet이라는 다른 데이터셋으로 사전학습된 feature들보다 (이 task에 대해) 더 판별적인 feature들을 학습할 수 있다. 이러한 전이 학습(transfer learning) 행동은 semantic classification task에서 보이는 것과 유사하다.

case	accuracy
fully-supervised	82.9
linear probing $w /$
$\quad$ MAE trained on IN-1K	76.2
$\quad$ MAE trained on YCD	78.4

Table 7: Self-supervised 사전학습 후 linear probing을 수행하면 데이터셋 분류에서 높은 정확도를 달성한다. 여기서 우리는 MAE (He et al., 2022)를 self-supervised 사전학습 baseline으로 연구하며, 이는 ViT-B를 backbone으로 사용한다. 데이터셋 분류를 위한 fully-supervised baseline은 동일한 ViT-B 아키텍처를 사용하며 (82.9%), 결과는 YCD 조합에 대한 것이다.

case	transfer acc
random weights	6.7
Y+C+D	27.7
Y+C+D+W	34.2
Y+C+D+W+L	34.2
Y+C+D+W+L+I	34.8
MAE (He et al., 2022)	68.0
MoCo v3 (Chen et al., 2021)	76.7

Table 8: 데이터셋 분류를 통해 학습된 feature들은 linear probing 프로토콜 하에서 의미 있는 결과를 달성할 수 있다. 전이 학습 (linear probing) 정확도는 ImageNet-1K에 대해 보고되었으며, 모든 항목에서 ViT-B를 backbone으로 사용한다. 약어는 Table 2를 따른다.

5.4 Features Learned by Classifying Datasets

우리는 데이터셋 분류를 위해 학습된 모델이 보지 못한(unseen) validation 데이터에 잘 일반화될 수 있음을 보여주었다. 다음으로, 이러한 모델들이 semantic classification task에 얼마나 잘 전이될 수 있는지 연구한다. 이를 위해, 이제 데이터셋 분류를 pretext task로 간주하고, frozen feature에 대해 **semantic classification task (ImageNet-1K 분류)**에서 linear probing을 수행한다. Table 8은 다양한 데이터셋 조합을 사용하여 사전학습된 데이터셋 분류 모델의 결과를 보여준다.

무작위 가중치를 사용하는 baseline과 비교했을 때, 데이터셋 분류 모델은 ImageNet-1K linear probing에서 무시할 수 없는(non-trivial) 정확도를 달성할 수 있다. 중요한 점은, 더 많은 데이터셋의 조합을 사용할수록 linear probing 정확도가 증가한다는 것이다. 이는 더 많은 데이터셋에서 데이터셋 편향을 발견함으로써 더 나은 feature가 학습됨을 시사한다.

참고로, 데이터셋 분류를 통해 학습된 feature는 MAE (He et al., 2022) 및 MoCo v3 (Chen et al., 2021)와 같은 self-supervised learning 방법으로 학습된 feature보다 현저히 나쁘다는 점에 유의해야 한다. 이는 예상된 결과이다. 그럼에도 불구하고, 우리의 실험은 신경망에 의해 발견된 데이터셋 편향이 이미지 분류에 유용한 semantic feature와 관련이 있음을 밝혀낸다.

5.5 Cross-DATASET GENERALIZATION

Torralba & Efros (2011)는 모델이 종종 다른 데이터셋 간에 일반화하는 데 어려움을 겪는다고 관찰했다. 예를 들어, 데이터셋 A로 자동차를 인식하도록 학습된 모델은 데이터셋 A의 held-out 이미지에서는 잘 작동하지만, 데이터셋 B에서는 성능이 저조할 수 있다. 우리는 현대적이고 대규모 데이터셋을 사용하여 이 cross-generalization 실험을 재현한다. 이들 데이터셋에 공통적으로 정의된 task가 없기 때문에, 우리는 contrastive learning (MoCo v3) (Chen et al., 2021)을 대리(surrogate) task로 사용하여 validation loss를 보고한다. masked autoencoding (MAE) (He et al., 2022)을 사용한 더 많은 결과는 Appendix B에서 확인할 수 있다.

train / eval	YFCC	CC	DataComp	WIT	LAION	ImageNet	average
YFCC	1.761	2.202	2.668	2.083	2.764	2.026	2.251
CC	1.971	1.759	1.885	2.012	1.874	1.970	1.912
DataComp	2.216	1.891	1.772	2.161	1.801	2.023	1.977
WIT	1.969	2.059	2.238	1.742	2.288	2.004	2.050
LAION	2.332	1.902	1.787	2.236	1.779	2.097	2.022
ImageNet	1.941	2.077	2.040	2.157	2.233	1.742	2.032
combined	1.940	1.841	1.822	1.915	1.847	1.860	1.871

Table 9: MoCo v3 validation loss를 사용한 cross-dataset 일반화 결과. 굵은 글씨는 각 평가 데이터셋(열)에서 가장 낮은 값을 나타낸다. 명확한 대각선은 cross-dataset 전이가 동일한 데이터셋으로 학습하는 것보다 항상 성능 격차가 있음을 보여준다. 모든 데이터셋을 결합했을 때 평균적으로 가장 좋은 결과를 얻는다.

Table 9는 결과를 보여준다. 각 열에서 가장 낮은 validation loss를 가진 명확한 대각선을 볼 수 있다. 이는 어떤 특정 validation 데이터셋에서든, 동일한 학습 데이터셋으로 사전학습할 때만 최고의 일반화 성능을 달성할 수 있음을 나타낸다. 따라서, 더 크고 다양해진 데이터셋에도 불구하고 cross-dataset 일반화는 여전히 문제로 남아있다. 흥미롭게도, **모든 데이터셋을 단순히 결합하는 것(각 데이터셋에서 1/6의 이미지를 가져와 총 이미지 수를 제어)**이 전반적으로 가장 좋은 결과를 가져온다. 이는 데이터셋을 결합하는 것이 데이터셋 편향을 줄이는 간단한 전략이 될 수 있음을 시사한다.

6 User Study

데이터셋 분류 task에 대한 이해를 높이기 위해, 우리는 사람들이 이 task를 얼마나 잘 수행하는지 평가하고 그들의 경험을 파악하기 위한 사용자 연구를 추가로 진행하였다.

설정 (Settings)
우리는 사용자들에게 YCD 조합에서 샘플링된 개별 이미지를 분류하도록 요청했다. 사용자들이 이 데이터셋에 익숙하지 않을 수 있으므로, 각 검증 이미지를 예측할 때마다 훈련 이미지(데이터셋 ID의 ground-truth 레이블 포함)를 무제한으로 탐색할 수 있는 인터페이스를 제공했다. 각 사용자에게는 훈련 세트와 겹치지 않는 100개의 검증 이미지를 분류하도록 요청했다. 각 이미지 또는 전체 테스트에 소요되는 시간은 제한하지 않았다.

사용자 (Users)
총 20명의 자원봉사 참가자가 사용자 연구에 참여했다. 이들 모두는 머신러닝 배경을 가진 연구원이었으며, 그중 14명은 컴퓨터 비전 연구 경험이 있었다.

사용자 연구 결과 (User study results)
Figure 5는 데이터셋 분류 task에 대한 사용자 연구 결과 통계를 보여준다. 요약하자면, 20명의 사용자 중 11명은 40%~45%의 정확도를 보였고, 7명은 45%~50%, 그리고 단 2명만이 50% 이상의 정확도를 달성했다. **평균은 45.4%**였고, **중앙값은 44%**였다.
인간의 성능은 우연 수준의 추측(33.3%)보다 높았으며, 이는 사람들이 이 데이터셋들을 구별하기 위해 발견할 수 있는 패턴이 존재함을 시사한다. 그러나 인간의 성능은 신경망의 84.7%보다 훨씬 낮았다.

또한, 컴퓨터 비전 연구 경험이 있는 14명의 사용자가 다른 사용자들보다 평균적으로 더 나은 성능을 보이지 않았다는 점도 보고한다. 이 14명의 사용자들에게 "이 task에 대해 신경망이 어느 정도의 정확도를 달성할 것으로 예상하십니까?"라는 질문도 했다. 2명의 사용자는 60%, 6명의 사용자는 80%, **1명의 사용자는 90%**를 예상했으며, 5명의 사용자는 답변하지 않았다. 사용자들은 우리의 연구 결과를 알기 전에 이러한 예상을 했다.

Figure 5: 데이터셋 분류 task를 수행하는 인간에 대한 사용자 연구 결과. 인간은 일반적으로 YCD의 이미지를 40~60%의 정확도로 분류한다.

15명의 참가자는 task의 난이도를 "어렵다"고 평가했다. "쉽다"고 평가한 참가자는 없었다. 2명의 참가자는 task가 "흥미롭다"고 언급했다.

우리는 사용자들에게 이 task를 해결하기 위해 어떤 데이터셋별 패턴을 사용했는지 추가로 질문했다. 그들의 답변을 아래에 요약했으며, 괄호 안의 숫자는 각 패턴을 언급한 사용자 수를 나타낸다:

YFCC: 사람 (6), 풍경 (3), 자연광, 식물, 라이프스타일 (2), 실제 세계, 스포츠, 결혼식, 고해상도 (2), 더 어두움, 가장 구체적, 가장 새로운, 복잡함;
CC: 만화 (2), 애니메이션, 의류 샘플, 제품, 로고, 개념, 설명 텍스트, 지리, 가구, 동물, 저해상도, 다채로움, 더 밝음, 일상 이미지, 지역 이미지, 단일 인물, 사실적, 깨끗한 배경;
DataComp: 흰색 배경 (3), 여백, 투명 배경, 더 깨끗한 배경, 단일 항목 (2), 제품 (2), 상품, 로고 스타일, 제품 쇼케이스, 텍스트 (2), 많은 단어, 예술적인 단어, 광고, 스티커, 애니메이션 그림 (2), 스크린샷, 클로즈업 샷, 단일 인물, 사람, 비현실적인 아이콘, 만화, 레트로.

이러한 사용자 답변에는 악용될 수 있는 몇 가지 간단한 유형의 편향이 있다 (예: DataComp의 "흰색 배경"). 이는 사용자 예측 정확도를 우연 수준의 추측보다 높이는 데 도움이 될 수 있다. 그러나 "사람"이 이미지에 포함되는 것과 같은 많은 유형의 편향은 이미지를 식별하는 데 의미가 없다 (예: 모든 데이터셋에는 사람이 등장하는 이미지가 포함되어 있다).

7 Conclusion

우리는 현대 신경망과 대규모 데이터셋의 맥락에서 데이터셋 분류 문제를 재검토한다. 우리는 데이터셋 편향(bias)이 현대 신경망에 의해 여전히 쉽게 포착될 수 있음을 관찰했다. 이러한 현상은 모델, 데이터셋 조합 및 기타 여러 설정 전반에 걸쳐 견고하게 나타난다.

신경망에 의해 포착되는 편향의 구체적인 형태는 여전히 불분명하다는 점을 지적할 가치가 있다. 우리는 이러한 편향이 일반화 가능하고 전이 가능한(transferrable) 패턴을 포함할 수 있으며, 인간에게는 쉽게 인지되지 않을 수 있음을 발견했다. 우리는 이 문제에 더 많은 노력이 기울여지기를 바라며, 이는 미래에 편향이 적은 데이터셋을 구축하는 데에도 도움이 될 것이다.

감사의 글 (Acknowledgements)
귀중한 토론과 피드백을 제공해 준 Yida Yin, Mingjie Sun, Saining Xie, Xinlei Chen, Mike Rabbat에게 감사드리며, 사용자 연구에 참여해 준 모든 자원봉사자들에게도 감사드린다.

A Implementation Details

이미지-텍스트 데이터셋(CC, DataComp, WIT, LAION)의 경우, 이미지만을 사용한다. LAION 데이터셋은 사용 전에 필터링되었다. 우리는 각 데이터셋에서 동일한 수의 이미지를 균일하게 샘플링하여 데이터셋 분류를 위한 학습/검증 세트를 구성한다. 만약 데이터셋에 이미 사전 정의된 학습/검증 분할이 있다면, 우리는 학습 분할(train split)에서만 샘플링한다. 특별한 언급이 없는 한, 각 데이터셋당 100만 개의 이미지를 기본으로 사용한다. 이는 적은 양의 데이터는 아니지만, 우리가 연구하는 대부분의 데이터셋에서는 여전히 **전체 이미지의 극히 일부(예: 10% 미만)**에 불과하다. 이미지 로딩 속도를 높이기 위해, **원본 이미지의 짧은 변이 500픽셀보다 크면 짧은 변을 500픽셀로 조정(resize)**한다. 우리는 이러한 조정이 모델 성능에 미치는 영향이 미미하다는 것을 확인했다.

우리는 학습 이미지 수와 관계없이, ImageNet-1K 분류에 대한 일반적인 300-epoch supervised 학습(Liu et al., 2022)과 동일한 수의 샘플을 보면서 모델을 학습시킨다. 이는 동일한 배치 크기를 사용하므로 Liu et al. (2022)와 동일한 수의 iteration에 해당한다. 완전한 학습 레시피는 Table 10에 제시되어 있다.

config	value
optimizer	AdamW
learning rate	$1 \mathrm{e}-3$
weight decay	0.3
optimizer momentum	$\beta_{1}, \beta_{2}=0.9,0.95$
batch size	4096
learning rate schedule	cosine decay
warmup epochs	20 (ImageNet-1K)
training epochs	300 (ImageNet-1K)
randomaug (Cubuk et al., 2020)	$(9,0.5)$
label smoothing	0.1
mixup (Zhang et al., 2018b)	0.8
cutmix (Yun et al., 2019)	1.0

Table 10: 데이터셋 분류를 위한 학습 설정.

Section 5.3 및 5.4의 ViT-B에 대한 linear probing 실험에서는 MAE (He et al., 2022)에서 사용된 설정을 따른다. Section 5.4의 경우, 250 epoch의 체크포인트를 사용하고, base learning rate는 $\{0.1, 0.2, 0.3\}$ 에서, feature 추출을 위한 layer index는 $\{8, 9, 10\}$ 에서 탐색한다. Section 5.5의 cross-dataset generalization 실험에서는 batch size를 1024로 설정하고, 다른 모든 하이퍼파라미터는 MoCo v3 (Chen et al., 2021)와 동일하게 유지한다.

추론 시, 이미지는 먼저 짧은 변이 256픽셀이 되도록 종횡비를 유지하며 크기가 조정된다. 그런 다음 모델은 $224 \times 224$ 크기의 중앙 부분을 입력으로 사용한다. 따라서 모델은 다양한 데이터셋의 해상도 및/또는 종횡비 분포 차이를 이미지의 데이터셋 정체성을 예측하는 지름길로 직접 활용할 수 없다. 모델은 학습 시 $224 \times 224$ 크기의 무작위로 증강된(augmented) 이미지 crop을 입력으로 사용한다.

B Additional Results

학습 곡선 (Training Curves)
Figure 6에서는 ConvNeXt-T YCD 분류 모델의 **학습 손실(training loss)과 검증 정확도(validation accuracy)**를 보여준다. 학습은 초기 단계에서 높은 정확도 수준으로 빠르게 수렴한다. 이는 신경망이 데이터셋 편향(dataset bias)을 포착하는 강력한 능력을 다시 한번 입증한다.

Figure 6: YCD 분류를 위한 학습 곡선. 모델은 빠르게 수렴한다.

ImageNet vs. ImageNetV2
ImageNetV2 (Recht et al., 2019)는 ImageNet-1K의 validation set과 정확히 동일한 수집 과정을 따르려고 노력하여 새로운 validation set을 생성하고자 했다. 따라서 이미지들은 매우 유사하게 보인다.
우리는 각각 8K개의 이미지만을 학습에 사용했음에도 불구하고, ImageNetV2와 ImageNet-1K의 validation set을 분류하는 classifier가 81.8%의 정확도를 달성할 수 있음을 발견했다. 이는 50%보다 훨씬 높은 수치이다. 이는 겉보기에는 유사해 보이는 이미지 분포 간의 차이를 구별하는 신경망의 강력한 능력을 다시 한번 보여준다.

Figure 7: Table 2의 6-way 분류에 대한 Confusion matrix.

Confusion Matrix
우리는 6-way 데이터셋 분류에 대한 confusion matrix를 그렸다. DataComp와 LAION 사이에 높은 혼동(confusion)이 존재함을 관찰할 수 있다. 이는 두 데이터셋(Schuhmann et al., 2022; Gadre et al., 2023) 모두 Common Crawl에서 데이터를 가져와 CLIP (Radford et al., 2021) embedding space에서 캡션과 밀접하게 정렬되는 이미지를 선택하기 위해 필터링을 적용했기 때문일 가능성이 높다.

MAE를 이용한 Cross-dataset Generalization
Section 5.5에서 사용된 contrastive learning (MoCo v3) task 외에도, 여기서는 masked autoencoding (MAE) (He et al., 2022) 이라는 또 다른 surrogate task를 사용하여 cross-dataset generalization 문제를 탐구한다. Table 11은 그 결과를 보여준다.
이전 관찰과 유사하게, 각 열에서 가장 낮은 validation loss를 보이는 명확한 대각선 패턴이 나타난다. 다만, 각 열의 loss 값 차이는 contrastive learning에서보다 훨씬 작다. 이는 주어진 데이터셋으로 사전학습된 모델이 동일한 데이터셋 내에서는 잘 일반화되지만, 다른 데이터셋으로 전이될 때는 일반화 성능이 떨어진다는 것을 시사한다.

train / eval	YFCC	CC	DataComp	WIT	LAION	ImageNet	average
YFCC	0.419	0.394	0.320	0.434	0.332	0.397	0.383
CC	0.423	0.386	0.311	0.433	0.320	0.395	0.378
DataComp	0.428	0.393	0.306	0.437	0.317	0.394	0.379
WIT	0.423	0.394	0.317	0.427	0.328	0.396	0.381
LAION	0.429	0.392	0.306	0.439	0.314	0.395	0.379
ImageNet	0.425	0.395	0.312	0.437	0.325	0.389	0.380
combined	0.422	0.388	0.306	0.430	0.317	0.391	0.376

Table 11: MAE validation loss를 이용한 cross-dataset generalization. 굵은 글씨는 각 평가 데이터셋(열)에서 가장 낮은 값을 나타낸다.

C Limitations

현대 신경망이 이미지가 어떤 데이터셋에서 왔는지 분류하는 데 뛰어난 정확도를 달성할 수 있음을 발견했지만, 신경망이 포착하는 편향(bias)의 정확한 형태가 무엇인지는 여전히 불분명하다. 이는 편향의 구체적인 형태를 이해하고 해석하는 것에 대한 향후 연구의 필요성을 시사한다. 또한, 본 연구는 제한된 6개의 대규모 이미지 데이터셋만을 검토했으며, 다른 많은 인기 있는 이미지 데이터셋뿐만 아니라 비디오 및 언어와 같은 다른 도메인의 데이터셋은 제외하였다.