Sanh, Victor, et al. "Multitask prompted training enables zero-shot task generalization." arXiv preprint arXiv:2110.08207 (2021).

Multitask Prompted Training Enables Zero-Shot Task Generalization

Abstract

최근 대규모 언어 모델(LLM)은 다양한 task에서 합리적인 zero-shot generalization 능력을 보여주었다 (Brown et al., 2020). 이는 언어 모델의 사전학습(pretraining) 과정에서 암묵적인 멀티태스크 학습(implicit multitask learning)이 발생한 결과라는 가설이 제기되었다 (Radford et al., 2019). 그렇다면 zero-shot generalization이 명시적인 멀티태스크 학습(explicit multitask learning)을 통해 직접적으로 유도될 수 있을까?
이 질문을 대규모로 검증하기 위해, 우리는 모든 자연어 task를 사람이 읽을 수 있는 prompted 형태로 쉽게 매핑하는 시스템을 개발했다. 우리는 다양한 표현(wording)을 가진 여러 prompt를 포함하는 대규모 supervised dataset 세트를 변환하였다. 이러한 prompted dataset은 모델이 완전히 held-out된 task를 수행하는 능력을 벤치마킹할 수 있게 해준다.
우리는 사전학습된 encoder-decoder 모델 (Raffel et al., 2020; Lester et al., 2021)을 다양한 task를 포함하는 이 멀티태스크 혼합 데이터셋으로 fine-tuning하였다. 그 결과, 이 모델은 여러 표준 데이터셋에서 강력한 zero-shot 성능을 달성했으며, 종종 자신보다 최대 16배 큰 모델들을 능가하는 결과를 보였다. 또한, 우리의 접근 방식은 BIG-bench 벤치마크의 일부 task에서도 강력한 성능을 달성하여, 자신보다 최대 6배 큰 모델들을 능가하였다.
학습된 모든 모델은 https://github.com/bigscience-workshop/t-zero에서, 모든 prompt는 https://github.com/bigscience-workshop/promptsource에서 확인할 수 있다.

1 Introduction

최근 연구에 따르면 대규모 language model은 새로운 task에 대해 합리적인 zero-shot generalization 능력을 보여준다 (Brown et al., 2020; Kim et al., 2021). 이 모델들은 오직 language modeling objective로만 학습되었음에도 불구하고, 명시적으로 학습되지 않은 새로운 task, 예를 들어 지문에 대한 질문에 답하거나 요약을 수행하는 등의 task에서 비교적 좋은 성능을 발휘할 수 있다.

[^0] Figure 1: 우리 모델과 prompt 형식. T0는 텍스트 입력을 받아 목표 응답을 생성하는 encoder-decoder model이다. 이 모델은 다양한 task로 분할된 NLP 데이터셋의 multitask mixture로 학습된다. 각 데이터셋은 예시 인스턴스를 입력 및 목표 쌍으로 형식화하는 데 사용되는 여러 prompt template과 연결된다. 이탤릭체는 원본 예시 데이터에서 삽입된 필드를 나타낸다. 다양한 task mixture로 학습한 후(상단), 우리 모델은 학습 중에 보지 못한 task에 대한 zero-shot generalization을 평가한다(하단).

영향력 있는 가설은 대규모 language model이 multitask learning의 암묵적인 과정의 결과로 새로운 task에 일반화된다는 것이다 (Radford et al., 2019). 다음 단어를 예측하는 것을 학습하는 과정에서, language model은 사전학습 코퍼스에 포함된 암묵적인 task들의 혼합으로부터 학습하도록 강제된다. 예를 들어, 웹 포럼의 일반 텍스트로 학습함으로써, 모델은 질문 응답의 형식과 구조를 암묵적으로 학습할 수 있다. 이는 대규모 language model이 자연어 prompt로 제시된 held-out task에 일반화할 수 있는 능력을 부여하며, held-out 데이터셋에 대한 기존 multitask 연구들 (Khashabi et al., 2020a; Ye et al., 2021)을 넘어선다. 그러나 이러한 능력은 충분히 큰 모델을 필요로 하며, prompt의 문구에 민감하다 (Perez et al., 2021; Zhao et al., 2021; Reynolds and McDonell, 2021).

더 나아가, 이러한 multitask learning이 실제로 얼마나 암묵적인지는 여전히 미해결 과제이다. 최근 language model의 사전학습 코퍼스 규모를 고려할 때, 일부 일반적인 자연어 처리(NLP) task가 사전학습 코퍼스에 명시적인 형태로 나타나, 모델이 해당 task에 직접적으로 학습될 것이라고 예상하는 것은 합리적이다. 예를 들어, 단순히 퀴즈 질문과 답변 목록을 포함하는 많은 웹사이트가 있으며, 이는 closed-book question answering task에 대한 명확한 supervised training data이다 (Roberts et al., 2020). 우리는 사전학습에서의 이러한 multitask supervision이 zero-shot generalization에 큰 역할을 한다고 가정한다.

본 논문에서는 supervised 및 massively multitask 방식으로 language model을 명시적으로 학습시키는 데 중점을 둔다. 우리의 접근 방식은 자연어 prompt로 지정된 대규모의 다양한 task로 구성된 학습 mixture를 사용한다. 우리의 목표는 대규모 모델을 요구하지 않으면서도 held-out task에 더 잘 일반화하고, prompt 문구 선택에 더 강건한 모델을 유도하는 것이다. 대규모 자연어 task 세트를 prompt 형식으로 변환하기 위해, 우리는 구조화된 데이터셋을 위한 간단한 templating language를 사용한다. 우리는 공개 기여자들로부터 prompt를 수집하기 위한 인터페이스를 개발하여, 데이터셋당 여러 prompt를 포함하는 대규모 multitask mixture를 수집하는 데 기여했다 (Bach et al., 2022). 그런 다음, 우리는 T5 encoder-decoder model의 변형 (Raffel et al., 2020; Lester et al., 2021)을 task의 하위 집합(각각 여러 데이터셋 포함)으로 학습시킨 다음, 모델이 학습되지 않은 task와 prompt를 평가한다.

우리의 실험은 두 가지 질문을 연구한다. 첫째, multitask prompted training이 held-out task에 대한 generalization을 향상시키는가? 둘째, 더 넓은 범위의 prompt로 학습하는 것이 prompt 문구에 대한 강건성을 향상시키는가? 첫 번째 질문에 대해, 우리는 multitask training이 zero-shot task generalization을 가능하게 함을 보여준다. 우리 모델은 GPT-3 (Brown et al., 2020)보다 약 16배 작음에도 불구하고, 11개의 held-out 데이터셋 중 9개에서 GPT-3의 성능과 일치하거나 능가한다. 또한, 우리 모델이 BIG-bench 벤치마크 (BIG-bench collaboration, 2021)의 14개 task 중 13개에서 대규모 baseline language model보다 성능이 향상됨을 보여준다. 두 번째 질문에 대해, 우리는 데이터셋당 더 많은 prompt로 학습하는 것이 held-out task의 성능 중앙값을 지속적으로 향상시키고 변동성을 감소시킨다는 것을 발견한다. 더 넓은 범위의 데이터셋에서 prompt로 학습하는 것도 일반적으로 중앙값을 향상시키지만, 변동성을 지속적으로 감소시키지는 않는다.

본 연구에서는 언어 모델 사전학습(pretraining)에서의 암묵적(implicit) 멀티태스크 학습과, 여러 task를 단일 supervised 학습 프로세스로 통합하는 기법인 명시적(explicit) 멀티태스크 학습 (Caruana, 1997)을 구분한다. 멀티태스크 학습으로 훈련된 모델은 NLP 분야에서 오랫동안 성능 향상을 보여왔다 (Collobert and Weston, 2008). 서로 다른 task는 다른 출력을 가지므로, 멀티태스크 학습을 적용하려면 **공유된 형식(shared format)**이 필요하며, 다양한 형식이 사용되어 왔다 (Hashimoto et al., 2016; McCann et al., 2018). 몇몇 멀티태스크 연구들은 대규모 사전학습 모델을 사용하여 새로운 데이터셋에 대한 few-shot 및 zero-shot 일반화를 탐구하기도 한다 (예: Vu et al., 2020; Ye et al., 2021).

Natural language prompting은 NLP task를 자연어 입력에 대한 자연어 응답 형식으로 재구성하는 방법이다. T5 (Raffel et al., 2020)와 같은 text-to-text 사전학습 모델의 개발은 prompt를 멀티태스크 학습에 특히 유용한 방법으로 만들었다. 예를 들어, Khashabi et al. (2020a)은 20개의 질문-답변 데이터셋을 "question: ... (A) ... (B) ... (C) ... context: ..."와 같은 단일 prompt 형식으로 재구성했으며, 이후 Zhong et al. (2021) 및 Wang et al. (2021)과 같은 연구는 다양한 데이터셋을 각각 단일 boolean QA prompt 또는 단일 NLI prompt로 변환했다. 이러한 단일 prompt 방식은 효과적이지만, 고정된 형식으로 표현할 수 없는 새로운 prompt나 새로운 task에는 일반적으로 일반화되지 않는다.

더 일반적으로, Schick and Schütze (2021) 및 Brown et al. (2020)은 prompt를 모든 NLP task에 대한 일반적인 방법으로 대중화했다. Mishra et al. (2021)은 이 접근 방식을 멀티태스크 설정으로 더욱 확장하여, 9개 데이터셋의 크라우드소싱 지침에서 61개의 좁게 정의된 task (예: 질문 생성, 오답 생성)에 대한 prompt로 학습했다. 반면, 우리는 NLP 문헌에서 전통적으로 정의된 12개 task와 62개 데이터셋에 걸쳐 일반화를 학습하고 측정한다 (§3). 또한, 그들의 prompt는 지침 외에 labeled example을 포함하는 반면, 우리는 zero-shot 일반화에 중점을 둔다. 마지막으로, Wei et al. (2021)의 동시 연구는 우리와 유사한 연구 질문을 공유하지만, prompt 다양성, 모델 규모, held-out-task 방식 등 여러 실질적인 측면에서 차이가 있다. 이러한 차이점은 Section 7에서 자세히 논의한다.

마지막으로, prompt의 성공을 설명하는 주요 가설은 모델이 prompt를 task 지침으로 이해하여 held-out task에 일반화하는 데 도움을 받는다는 것이다 (Wei et al., 2021; Mishra et al., 2021; Schick and Schütze, 2021; Brown et al., 2020). 그러나 이러한 성공이 prompt의 의미론적 유의미성(semantic meaningfulness)에 얼마나 의존하는지에 대해서는 이견이 제기되어 왔다 (Webson and Pavlick, 2021; Logan et al., 2021). 따라서 본 연구에서는 prompt가 일반화를 지원하는 이유에 대해서는 중립적인 입장을 유지한다. 우리는 단지 prompt가 멀티태스크 학습을 위한 자연스러운 형식으로 작용하며, 이는 경험적으로 held-out task에 대한 일반화를 지원한다고 주장할 뿐이다.

3 Measuring Generalization to Held-Out Tasks

우리는 먼저 NLP 데이터셋의 기본 파티션이 task별로 나뉘어 있다고 가정한다. 여기서 "task"라는 용어는 특정 데이터셋 그룹에 의해 테스트되는 일반적인 NLP 능력을 의미한다. 새로운 task에 대한 zero-shot generalization을 평가하기 위해, 우리는 task의 하위 집합으로 학습하고, held-out된 task 그룹으로 평가한다.

안타깝게도, NLP task 분류는 모호하며, 특히 고유한 기술을 분리하려고 할 때 더욱 그러하다. 예를 들어, 많은 데이터셋이 상식(commonsense) 지식을 평가하며, 일부 멀티태스크 연구(예: Brown et al., 2020; Wei et al., 2021)에서는 상식을 독립적인 task로 정의한다. 그러나 상식 데이터셋은 선천적 지식, 초등학교 과학부터 DIY 지침, 미국 문화 규범, 대학원 수준의 정리에 이르기까지 매우 다양하다 (자세한 내용은 Appendix D.1 참조).

task별 그룹화가 불완전한 휴리스틱임을 인지하고, 우리는 문헌의 관례에 따라 필요한 기술보다는 task 형식에 따라 task 분류 체계를 구성하는 방향을 택했다 (Khashabi et al., 2020b; Vu et al., 2020; Ye et al., 2021). 우리는 이 논문들에서 모든 데이터셋을 수집했으며, 영어가 아니거나 (프로그래밍 언어 및 구문 트리와 같은 구조화된 주석 제외), 특별한 도메인 지식(예: 생물의학)을 요구하는 데이터셋은 제외했다. 그 결과, 현재 기준으로 12개의 task와 62개의 데이터셋이 학습 및 평가 혼합물에 포함되었으며, 이들은 공개적으로 기여된 prompt를 가지고 있다 (Figure 2). 모든 실험은 Hugging Face datasets 라이브러리 (Lhoest et al., 2021)의 데이터셋을 사용한다.

Figure 2: T0 데이터셋 및 task 분류 체계. (T0+ 및 T0++는 추가 데이터셋으로 학습된다. 전체 목록은 Table 5 참조.) 색상은 supervision 수준을 나타낸다. 노란색 데이터셋은 학습 혼합물에 포함된다. 녹색 데이터셋은 held out되어 있으며, 학습 중에 보지 못한 task를 나타낸다. Hotpot QA는 긴 입력 길이로 인해 closed-book QA로 재구성되었다.

zero-shot generalization을 테스트하기 위해, 우리는 네 가지 task의 모든 구성 데이터셋을 held out한다: natural language inference (NLI), coreference resolution, sentence completion, word sense disambiguation. 우리는 NLI를 held-out task로 선택했는데, 이는 인간 또한 NLI에 대해 zero-shot generalization을 하기 때문이다. 대부분의 인간은 전제 문장이 가설 문장을 수반하는지 또는 모순되는지 분류하도록 명시적으로 훈련받지 않지만, 훈련 없이도 이 task를 직관적으로 수행한다 (Williams et al., 2020). 같은 이유로, 우리는 coreference resolution과 word sense disambiguation도 held out한다. 또한 sentence completion은 NLI와 너무 유사할 수 있는 task이므로 held out한다 (자세한 내용은 Appendix D.2에서 논의). 추가적으로, 우리는 Brown et al. (2020)이 평가에 사용한 어떤 데이터셋으로도 주 모델을 학습시키지 않아서, 우리의 주요 결과가 공정한 zero-shot 비교가 되도록 한다. 또한, 해당 task의 데이터가 사전학습 코퍼스를 통해 유출되지 않았는지 확인한다 (Appendix E).

마지막으로, 우리는 BIG-bench의 데이터셋 하위 집합에 대해 추가 평가를 수행한다. BIG-bench는 대규모 언어 모델의 능력을 테스트하기 위한 다양하고 어려운 task 모음을 만들기 위해 최근 커뮤니티 주도로 만들어진 벤치마크이다. BIG-bench의 하위 집합은 BIG-bench 관리자들이 예비 결과를 준비했으며, T5 tokenizer의 어휘 내에 있는 텍스트(즉, 이모지나 다른 특수 문자 없이 영어 텍스트만 포함)로 구성된 언어 중심의 task를 포함한다. BIG-bench의 모든 task는 학습에서 held out된 새로운 task이다.

4 A Unified Prompt Format

모든 데이터셋은 zero-shot 실험을 가능하게 하기 위해 자연어 prompt 형식으로 모델에 제공된다. 방대한 prompt 컬렉션을 쉽게 작성할 수 있도록, 우리는 다양한 데이터셋을 prompt로 변환하는 것을 용이하게 하는 템플릿 언어와 애플리케이션을 개발했다. 우리는 prompt를 입력 템플릿(input template)과 대상 템플릿(target template), 그리고 관련 메타데이터(metadata) 컬렉션으로 정의한다. 템플릿은 데이터 예시를 자연어 입력 및 대상 시퀀스로 매핑하는 함수이다. 실제로 템플릿을 통해 사용자는 임의의 텍스트를 데이터 필드, 메타데이터 및 원시 필드 렌더링 및 서식 지정을 위한 기타 코드와 혼합할 수 있다.

Figure 3: P3 prompt 컬렉션의 Prompt 템플릿. 각 데이터셋에는 입력 템플릿과 대상 템플릿으로 구성된 여러 prompt 템플릿이 있다. 이들은 원시 데이터 예시의 필드와 템플릿 메타데이터를 사용한다. 예를 들어, 왼쪽의 paraphrasing identification prompt는 템플릿 수준의 리스트 변수인 Choices ['Not duplicates', 'Duplicates']를 사용한다. 이 템플릿들은 Figure 1에 표시된 prompt 인스턴스를 생성하기 위해 구체화된다. T0에 사용된 전체 prompt 템플릿 세트는 Appendix G에 제공된다.

예를 들어, NLI 데이터셋의 경우, 예시에는 Premise, Hypothesis, Label 필드가 포함된다. 입력 템플릿은 If {Premise} is true, is it also true that {Hypothesis}?가 될 수 있으며, 대상 템플릿은 label choices {Choices[label]}로 정의될 수 있다. 여기서 Choices는 prompt-specific 메타데이터로, label이 entailment (0), neutral (1), contradiction (2)에 해당하는 yes, maybe, no 옵션으로 구성된다. 다른 메타데이터는 평가 지표와 같은 추가 속성을 문서화한다. 각 데이터 예시는 Figure 3에 표시된 것처럼 다양한 prompt 템플릿으로 구체화된다.

prompt를 개발하기 위해 우리는 데이터셋에 대해 prompt를 대화식으로 작성할 수 있는 인터페이스를 구축했다. 우리는 연구 커뮤니티에 prompt 기여자를 모집하는 공개 요청을 보냈다. 그 결과, 8개국 24개 기관에 소속된 36명의 기여자가 참여했다. 우리의 목표는 prompt 형식에 강건한 모델을 훈련하는 것이었고, 어떤 prompt가 효과적인지에 대한 질문이 아직 해결되지 않았기 때문에 (Webson and Pavlick, 2021; Logan et al., 2021; Zhao et al., 2021), 우리는 기여자들에게 자유로운 스타일로 다양하고 폭넓은 prompt 세트를 만들도록 권장했다. 주요 주석 가이드라인은 prompt가 문법적으로 올바르고, 해당 task에 대한 사전 경험이 없는 유창한 영어 화자가 이해할 수 있어야 한다는 것이었다. 또한, 명시적인 숫자 세기나 숫자 인덱싱을 요구하는 prompt는 자연어 변형을 선호하여 제거되었다. 예를 들어, 구절에서 답변을 추출하는 span의 인덱스를 예측하는 대신, 모델은 span의 텍스트를 복사하도록 기대된다. 이러한 최소한의 제약 조건 하에서, prompt 작성자들은 공식적이고 창의적인 prompt와 다양한 데이터 순서를 사용하도록 장려되었다.

대부분의 prompt는 원래 제안된 task의 버전과 직접적으로 일치하지만, 우리는 **원래 task를 변경한 prompt (예: 요약으로부터 문서를 생성하는 것)**도 허용한다. 이러한 비-원래 task prompt는 다양성 향상을 위해 우리의 훈련 혼합물에 포함되지만, 원래 데이터셋에서 보고된 지표 및 baseline과 다르기 때문에 평가에서는 보고되지 않는다.

prompt 언어 및 도구에 대한 자세한 내용은 Appendix C 및 Bach et al. (2022)에 제공되며, prompt 자체는 Appendix G에 제공된다. 우리는 잠재적으로 유해한 콘텐츠나 프로그래밍 언어와 같은 비자연어를 포함하지 않는 영어 데이터셋에 대한 prompt를 수집했다. 우리는 이 컬렉션을 **Public Pool of Prompts (P3)**라고 부른다. 현재 P3는 177개 데이터셋에 대한 2073개의 prompt를 포함하고 있다 (데이터셋당 평균 11.7개의 prompt). 실험에 사용된 prompt는 BIG-bench를 제외하고 모두 P3에서 가져온 것이며, BIG-bench의 prompt는 관리자가 제공한다.

5 Experimental Setup

모델 (Model)
우리는 자연어 prompt가 적용된 데이터셋들의 multi-task 학습 혼합물에 대해 사전학습된 모델을 fine-tuning한다. 우리 모델은 encoder-decoder 아키텍처를 사용하며, 입력 텍스트는 encoder에, 목표 텍스트는 decoder에 의해 생성된다. 모델은 표준 최대 우도(maximum likelihood) 학습을 통해 목표 텍스트를 autoregressive하게 생성하도록 훈련된다. GPT-3와 같은 decoder-only language model과 달리, 입력을 생성하도록 훈련되지는 않는다.
우리가 훈련한 모든 모델은 T5에 기반한다. T5는 Transformer 기반의 encoder-decoder language model로, C4 데이터셋의 1조 개 토큰에 대해 masked language modeling 방식의 objective로 사전학습되었다 (Raffel et al., 2020). T5의 사전학습 objective는 입력 텍스트에서 제거된 토큰만을 생성하는 것이므로, prompted 데이터셋의 자연어 텍스트 생성 형식과는 다르다. 따라서 우리는 **Lester et al. (2021)의 LM-adapted T5 모델 (T5+LM으로 지칭)**을 사용한다. 이 모델은 표준 language modeling objective로 C4 데이터셋의 1,000억 개 추가 토큰에 대해 T5를 훈련하여 생성되었다.

학습 (Training)
우리의 주요 모델인 T0는 Section 3 및 Table 5에 상세히 설명된 multi-task 혼합물로 학습된다. 한편, **T0+**는 동일한 하이퍼파라미터를 가진 동일한 모델이지만, GPT-3의 평가 데이터셋이 추가된 혼합물로 학습된다. 마지막으로, **T0++**는 SuperGLUE (Wang et al., 2019a)를 학습 혼합물에 추가한다 (RTE 및 CB 제외). 이로 인해 NLI와 BIG-bench task만이 held-out task로 남게 된다.

위의 T0 변형 모델들은 모두 T5+LM의 11B 파라미터 버전으로 초기화된다. 스케일링의 효과를 연구하고 자원이 부족한 연구자들을 돕기 위해, 우리는 T0(3B)도 학습시켰다. 이 모델은 T0와 동일한 학습 혼합물을 사용하지만, T5+LM의 3B 파라미터 버전으로 초기화된다 (결과는 Appendix F에 보고됨).

우리는 학습 데이터셋의 validation split에서 가장 높은 점수를 내는 체크포인트를 선택하여 체크포인트 선택을 수행한다. 이는 held-out task의 어떤 예시도 최적의 체크포인트를 선택하는 데 사용하지 않으므로, 진정한 zero-shot (Perez et al., 2021) 설정을 여전히 만족한다.

우리는 모든 학습 데이터셋의 모든 예시를 결합하고 섞어서 multi-task 학습 혼합물을 구성한다. 이는 각 데이터셋의 예시 수에 비례하여 각 데이터셋에서 샘플링하는 것과 동일하다. 그러나 각 학습 데이터셋의 예시 수는 두 자릿수 차이가 난다. 따라서 우리는 Raffel et al. (2020)에서 사용된 전략을 따르며, 50만 개 이상의 예시를 가진 모든 데이터셋은 샘플링 목적상 50만 / num_templates 개의 예시를 가진 것으로 간주한다. 여기서 num_templates는 해당 데이터셋에 대해 생성된 템플릿의 수이다.
우리는 입력 시퀀스를 1024 토큰으로, 목표 시퀀스를 256 토큰으로 각각 자른다. Raffel et al. (2020)을 따라, 우리는 packing을 사용하여 여러 학습 예시를 단일 시퀀스로 결합하여 최대 시퀀스 길이에 도달한다. 우리는 1024 시퀀스 (배치당 총 $2^{20}$ 입력 토큰에 해당)의 배치 크기와 **Adafactor optimizer (Shazeer and Stern, 2018)**를 사용한다. T5 fine-tuning의 표준 관행에 따라, 우리는 1e-3의 학습률과 0.1의 dropout rate를 사용한다.

평가 (Evaluation)
우리는 **4개의 held-out 전통 NLP task (자연어 추론, coreference, 단어 의미 중의성 해소, 문장 완성)**와 **BIG-bench의 14개 새로운 task (§3)**에 대해 11개 데이터셋에서 zero-shot generalization을 평가한다. 별도로 명시되지 않는 한, 우리는 validation split에서의 성능을 보고한다. 보고된 모든 데이터셋은 정확도(accuracy)를 측정 지표로 사용한다.

여러 옵션 중에서 올바른 완성을 선택하는 task (예: 객관식 질문 답변)의 경우, 우리는 Brown et al. (2020)을 따라 rank classification을 사용하여 모델을 평가한다: 우리는 fine-tuned 모델에서 각 목표 옵션의 log-likelihood를 계산하고, 가장 높은 log-likelihood를 가진 옵션을 예측으로 선택한다. 단순화를 위해, 우리는 목표 옵션의 log-likelihood에 길이 정규화(length normalization)를 적용하지 않는다.

우리는 validation split에서 다른 prompt의 성능을 비교하여 prompt 선택을 수행하지 않는다. Perez et al. (2021)은 이러한 전략이 평가 split에서 정보를 유출시켜 평가가 "진정한" zero-shot이 아니게 만든다고 강조한다. 주어진 데이터셋에 대해, 우리는 이 데이터셋의 모든 prompt에 대한 중앙값 성능과 사분위수 범위 (Q3 - Q1)를 보고하여 prompt의 문구에 대한 모델의 견고성을 측정한다.

6 Results

6.1 Generalization to Held-Out Tasks

우리의 첫 번째 연구 질문은 멀티태스크 prompted training이 held-out task에 대한 일반화 성능을 향상시키는가이다. Figure 4에서 우리는 T0와 T5+LM baseline을 4개의 held-out task에서 비교한다.

Figure 4: T0의 task 일반화 실험 결과와 GPT-3 (Brown et al., 2020)의 비교. 각 점은 하나의 평가 prompt에 대한 성능을 나타낸다. baseline T5+LM 모델은 T0와 동일하지만, 멀티태스크 prompted training을 거치지 않았다. GPT-3는 각 데이터셋에 대해 단일 prompt만 보고한다.

우리의 접근 방식은 모든 데이터셋에서 baseline 대비 상당한 성능 향상을 가져왔으며, 이는 동일한 모델과 prompt를 사용했을 때, 언어 모델링 학습만 하는 것보다 멀티태스크 prompted training의 이점을 보여준다.

다음으로, 우리는 T0를 현재 시점에서 사용 가능한 가장 큰 language model, 즉 175B 파라미터까지의 다양한 GPT-3 모델의 zero-shot 성능과 비교한다. Brown et al. (2020)은 단일 prompt에 대한 성능을 보고하는 반면, 우리는 P3의 모든 prompt에 대한 성능의 중앙값(median)과 사분위 범위(interquartile range)를 cherry picking 없이 보고한다. 우리는 T0가 11개의 held-out 데이터셋 중 9개에서 모든 GPT-3 모델의 성능과 같거나 능가한다는 것을 발견했다. 특히, T0와 GPT-3 모두 natural language inference로 학습되지 않았음에도 불구하고, T0는 모든 NLI 데이터셋에서 GPT-3를 능가한다. 이는 우리의 T5+LM baseline이 그렇지 않다는 점을 고려할 때 더욱 주목할 만하다. 다른 held-out task의 대부분의 데이터셋에서도 동일한 결과가 나타난다. 두 가지 예외는 Winogrande와 HellaSwag이며, 이에 대해서는 Section 7에서 논의한다.

더 많은 held-out task에서 모델을 평가하기 위해, 우리는 BIG-bench (BIG-bench collaboration, 2021)의 하위 집합에서 T0, T0+, T0++의 zero-shot 성능을 평가한다. BIG-bench의 task들은 객체 시퀀스의 순서 추론, 논리 그리드 퍼즐 풀기, 참과 흔한 오개념 구분 등 우리의 학습 task에 포함되지 않은 다양한 새로운 기술을 다룬다. BIG-bench 관리자들은 각 데이터셋에 대한 prompt를 제공하며, 우리는 이를 사용하여 Google이 학습하고 BIG-bench 관리자들이 평가한 일련의 예비 진단 baseline 모델들과 우리의 모델을 비교한다. 이 baseline 모델들은 다양한 모델 크기로 표준 언어 모델링 objective로 학습된 decoder-only Transformer language model이다. 우리는 T0 변형 모델 중 적어도 하나가 StrategyQA를 제외한 모든 task에서 모든 baseline 모델을 능가한다는 것을 발견했다 (Figure 5). 대부분의 경우, 학습 데이터셋의 수가 증가함에 따라 우리 모델의 성능이 향상된다 (즉, T0++가 T0+를 능가하고, T0+가 T0를 능가한다).

6.2 Prompt Robustness

두 번째 연구 질문은 더 넓은 범위의 prompt로 학습하는 것이 prompt의 문구(wording)에 대한 강건성(robustness)을 향상시키는지 여부이다. 우리는 학습 시 사용된 데이터셋당 평균 prompt 수( $p$ ) 와 데이터셋 수( $d$ ) 의 효과에 대한 두 가지 ablation 실험을 수행한다.

Figure 5: 사용 가능한 baseline이 있는 BIG-bench의 일부 결과. Baseline 모델은 BIG-bench 관리자가 제공하는 Transformer 기반 language model이며, 데이터셋당 하나의 prompt를 제공한다. T0, T0+, T0++는 학습 데이터셋의 수만 증가한다는 점을 제외하고는 동일하다 (§5). 보고된 모든 모델에 대해 BIG-bench Task는 모두 zero-shot이다.

데이터셋당 더 많은 prompt의 효과 (Effect of More Prompts per Dataset)
이 분석에서는 $d$ 를 고정하고 T0를 데이터셋당 다양한 수의 prompt를 가진 모델들과 비교한다. T0는 데이터셋의 원래 task와 일치하지 않는 일부 prompt(예: "주어진 답변에 대해 그럴듯한 질문을 생성하라")로 학습되었다. 이러한 prompt들을 포함하면 평균 $p$ 는 8.03이 된다 (이는 우리의 주요 T0 모델에 해당한다). 우리는 T0를 다음과 같은 모델들과 비교한다:

$p=1$ 인 모델: 데이터셋당 무작위로 선택된 하나의 원래 task prompt
평균 $p=5.7$ 인 모델: 모든 데이터셋에 대한 모든 원래 task prompt
$p=0$ 인 모델: prompt 학습이 전혀 없는 T5+LM에 해당

우리는 모든 모델을 동일한 하이퍼파라미터와 동일한 스텝 수로 학습시킨다. Figure 6은 데이터셋당 하나의 prompt만으로도 held-out task에 대한 성능이 non-prompted baseline보다 상당히 향상될 수 있음을 보여준다. 다만, $p=1$ 일 때 spread(Q1과 Q3 사이의 사분위 범위)가 일관되게 개선되지는 않는다. 한편, $p$ 를 1에서 평균 5.7로 더 늘리면 median(11개 데이터셋 중 8개에서 증가)과 spread(11개 데이터셋 중 7개에서 감소) 모두에서 추가적인 개선이 나타난다. 이는 데이터셋당 더 많은 prompt로 학습하는 것이 held-out task에 대한 더 좋고 강건한 일반화로 이어진다는 우리의 가설을 강화한다. 마지막으로, T0가 모든 prompt(데이터셋의 원래 task에 해당하지 않는 prompt 포함)를 포함하는 것이 median(11개 데이터셋 중 9개에서 증가)과 spread(11개 데이터셋 중 8개에서 감소)를 더욱 향상시켜, 원래 task가 아닌 prompt로 학습하는 것도 유익할 수 있음을 보여준다.

Figure 6: 데이터셋당 더 많은 prompt의 효과. 데이터셋당 학습 prompt 수를 늘렸을 때 T0 및 T5+LM의 zero-shot 성능. 각 점은 하나의 평가 prompt의 성능을 나타낸다. 주요 T0 모델( $p=8.03$ )은 원래 task가 아닌 prompt를 포함한다 (Section 3 참조). 더 많은 학습 prompt를 추가하면 held-out task에 대해 일관되게 더 높은 median 성능과 일반적으로 더 낮은 사분위 범위로 이어진다.

더 많은 데이터셋으로부터의 prompt 효과 (Effect of Prompts from More Datasets)
이 실험에서는 $p=$ 사용 가능한 모든 prompt로 고정하고, $d$ 를 39에서 49, 그리고 55로 증가시킨다 (각각 T0, T0+, T0++. 자세한 내용은 Section 5 참조). Figure 7은 $d$ 가 39에서 49로 증가함에 따라 5개 held-out 데이터셋 모두의 median 성능이 증가함을 보여준다. 그러나 spread는 5개 데이터셋 중 1개에서만 감소한다. 일부 데이터셋(예: ANLI)의 경우, 이는 일부 prompt가 항상 낮은 성능을 보이기 때문에 다른 prompt가 개선될 때 spread가 더 커지는 현상 때문이다. 그러나 다른 데이터셋(예: CB)의 경우, T0+에서 spread가 감소한다. $d$ 가 49에서 55로 증가함에 따라 모든 데이터셋의 median 성능은 다시 증가하지만, spread는 5개 데이터셋 중 2개에서만 감소한다. 추가 조사가 필요하지만, $d$ 를 늘리는 것이 prompt의 문구에 대한 모델의 강건성을 일관되게 향상시키지는 않는 것으로 보인다.

T0와 GPT-3의 강건성 비교 (Comparing T0 and GPT-3's robustness)
Brown et al. (2020)은 데이터셋당 하나의 prompt만 보고하고 표준 편차를 제공하지 않으므로, 우리는 GPT-3의 prompt 문구에 대한 강건성을 추정하기 위해 T0를 평가하는 것과 동일한 10개의 prompt를 사용하여 OpenAI의 API를 통해 GPT-3를 RTE에서 평가한다. 이 템플릿 중 하나는 Brown et al. (2020, p. 59)에서 보고된 prompt와 동일하며, 58.8%의 정확도를 기록했는데, 이는 Brown et al. (2020)에서 보고된 63.5%보다 낮다. 그러나 나머지 9개의 prompt는 median 정확도 52.96% 및 사분위 범위 1.28%로 대략 무작위 추측 성능을 보인다. 이러한 결과는 T0가 GPT-3보다 prompt 공식화에 더 강건할 수 있음을 시사한다.

7 Discussion

본 연구와 동시에 진행된 Wei et al. (2021)의 FLAN은 멀티태스크 prompted training을 통해 zero-shot generalization을 가능하게 하는 방식에서 우리와 상당 부분 유사한 방법론을 제안한다. FLAN은 우리와 유사한 데이터셋 혼합을 사용하여 여러 decoder-only language model을 학습시키는데, 각 모델은 하나의 held-out task에 대해 학습된다 (반면 우리는 다양한 task에 대한 모델의 일반화 능력을 평가하기 위해 여러 held-out task에 대해 하나의 모델을 학습하는 데 중점을 둔다). FLAN과 비교했을 때, T0의 zero-shot 성능은 CB와 RTE에서 더 우수하고, Story Cloze와 COPA에서는 유사하며, Winogrande와 ANLI에서는 더 낮다. T0++는 CB, RTE, COPA에서 FLAN을 능가하며, Winogrande와 ANLI에서는 FLAN과 동일한 성능을 보인다. 특히, T0와 T0++는 **FLAN보다 10배 이상 작은 모델(137B vs. 11B 파라미터)**임에도 불구하고 이러한 성능을 달성했다는 점이 주목할 만하다.

T0와 FLAN 모두 Winogrande와 HellaSwag (Sakaguchi et al., 2019; Zellers et al., 2019)에서 GPT-3보다 낮은 성능을 보였다. 이에 대해 Wei et al. (2021)은 **미완성 문장을 완성하는 형태로 구성될 수 있는 coreference resolution과 같은 task의 경우, prompt에 task instruction을 추가하는 것이 "대부분 불필요하다"**고 추측한다. 이 추측에 따라, 우리는 Wei et al. (2021)과 Brown et al. (2020)이 수행한 방식대로 instruction 없이 이 두 데이터셋을 재평가했으며, 그 결과 HellaSwag의 성능이 중앙값 33.65%에서 57.93%로 향상되어 FLAN의 성능과 일치함을 발견했다. 그러나 Winogrande의 경우, instruction 없이 FLAN의 prompt를 사용해도 큰 차이는 없었다 (정확도 = 62.15%).

놀랍게도, Wei et al. (2021)은 T0 (11B 파라미터)와 비슷한 크기(8B 파라미터)의 모델로 ablation을 수행하여 멀티태스크 prompted training 이후 held-out task의 성능이 감소한다는 것을 발견했다. 반면 우리는 멀티태스크 prompted training이 최소 3B 파라미터만큼 작은 모델의 성능을 향상시킨다는 것을 발견했다 (Figure 8). 우리는 이러한 불일치를 설명할 수 있는 두 가지 주요 모델 차이점을 확인했다: 첫째, 우리는 masked language modeling이라는 다른 objective로 사전학습된 encoder-decoder 모델을 사용했으며, 이 모델은 표준 language model로 학습된 후 최종적으로 멀티태스크 혼합에 fine-tuning되었다. masked language modeling은 훨씬 더 효과적인 사전학습 전략임이 반복적으로 입증되었다 (Raffel et al., 2020; Baevski et al., 2019; Devlin et al., 2019).

Figure 7: 더 많은 데이터셋의 prompt 효과. 데이터셋 수가 다른 세 가지 모델(T0, T0+, T0++)의 zero-shot 성능. 더 많은 데이터셋을 추가하면 일관되게 중앙값 성능이 높아지지만, held-out task의 사분위 범위가 항상 줄어드는 것은 아니다.

둘째, 우리의 prompt는 길이와 창의성 측면에서 질적으로 더 다양하다 (§4). 예를 들어, Quora Question Pairs (paraphrasing identification)에 대한 우리의 prompt 중 하나를 살펴보자: "저는 Quora 웹사이트의 관리자입니다. 'question1'이라는 질문과 'question2'라는 질문이 있습니다. 두 질문이 같은 내용을 묻는다면 병합할 수 있습니다. 이 두 질문을 병합할 수 있을까요?" 우리는 이러한 다양성이 구체적인 효과를 가질 수 있다고 가정한다. 예를 들어, 이는 Wei et al. (2021)이 prompt 수를 늘려도 성능에 미미한 영향을 미친다는 ablation 결과를 제시한 반면, 우리는 더 많은 prompt를 추가할 때 성능 향상을 관찰한 이유를 설명할 수 있다 (§6.2). 이러한 차이점의 영향에 대한 완전한 조사는 향후 연구로 남겨둔다.

8 Conclusion

우리는 멀티태스크 prompted training이 language model에서 강력한 zero-shot generalization 능력을 가능하게 한다는 것을 입증한다. 이 접근 방식은 비지도(unsupervised) language model pretraining에 대한 효과적인 대안을 제공하며, 종종 우리의 T0 모델이 훨씬 더 큰 규모의 모델들을 능가하도록 한다. 우리는 또한 다양한 prompt를 포함하는 것의 중요성과 각 task에서 데이터셋 수를 늘리는 것의 영향을 보여주는 ablation study를 수행한다. zero-shot generalization 개선에 대한 향후 연구를 가능하게 하기 위해, 우리는 본 논문에서 학습된 모든 모델과 우리가 생성한 prompt 모음, 그리고 prompt annotation tool을 공개한다.

Acknowledgements

본 연구는 **Grand équipement national de calcul intensif (GENCI)**가 부여한 2021-A0101012475 할당에 따라 **Institut du développement et des ressources en informatique scientifique (IDRIS) du Centre national de la recherche scientifique (CNRS)**의 HPC 자원에 접근할 수 있었다. 특히, 모든 평가 및 데이터 처리는 IDRIS의 Jean-Zay 클러스터에서 실행되었으며, 프로젝트 전반에 걸쳐 신속한 지원을 제공해준 IDRIS 팀, 특히 Rémi Lacroix에게 감사드린다. Hugging Face에 TPU 크레딧을 아낌없이 제공해준 TPU Research Cloud 프로그램에도 감사드린다. 이 크레딧은 본 논문의 모든 모델을 학습시키는 데 사용되었다.

본 연구는 프랑스 국립 연구 기관인 ANR이 "Investissements d'avenir" 프로그램의 일환으로 ANR-19-P3IA-0001 참조 번호로 자금을 지원한 PRAIRIE 연구소의 Rachel Bawden 및 Benoît Sagot 의장직을 통해 부분적으로 자금을 지원받았다. 공개: Stephen Bach는 Snorkel AI의 자문위원으로서 본 연구에 기여했다.

잠재적으로 유해한 콘텐츠를 포함하는 데이터셋을 다루는 전략에 대해 조언해준 Yacine Jernite, Sasha Luccioni, Aurélie Névéol, Huu Nguyen에게 감사드린다. Guy Gur-Ari와 Ethan Dyer는 BIG-bench 평가에 대한 지원과 예비 결과를 제공했다. 본 프로젝트의 초기 논의에 참여해준 Ruiqi Zhong에게도 감사드린다.

A Contributions and Project Structure

이 연구는 대규모 모델 및 데이터셋 연구를 목표로 하는 1년간의 오픈 연구 이니셔티브인 BigScience 프로젝트의 일환으로 수행되었다. 이 프로젝트의 목표는 대형 기술 기업 외부의 공개된 환경에서 언어 모델을 연구하는 것이다. 이 프로젝트에는 50개국, 250개 이상의 기관에서 온 600명의 연구원이 참여했다. BigScience 프로젝트는 Hugging Face의 Thomas Wolf에 의해 시작되었으며, 그의 노력 없이는 이러한 협력이 불가능했을 것이다. 이 연구는 대규모 언어 모델 학습에서 prompting의 역할에 초점을 맞춘 BigScience Prompt Engineering 워킹 그룹의 핵심 연구였다.

이 프로젝트는 본 연구의 공동 제1저자들이 주도했다. Victor Sanh는 prompt engineering 그룹을 공동으로 이끌었고, prompt 수집 절차를 관리했으며, prompt materialization을 구현하고 평가 시스템을 운영했다. Albert Webson은 모든 학습 및 평가 데이터셋을 검토하고 선정했으며, 결과 분석을 주도하고, ablation study를 설계했으며, 논문 작성 과정을 공동으로 관리했다. Colin Raffel은 연구 방향을 제안하고, 모든 모델을 학습시켰으며, 모델 이름을 정하고, 주요 평가 시스템을 구축했다. Stephen Bach는 prompt engineering 그룹을 공동으로 이끌었고, prompting 도구 및 가이드라인을 개발했으며, 이 연구의 핵심인 prompt 수집 노력을 주도했다. 또한 Alexander Rush는 prompt templating 언어 및 도구 개발을 도왔고, 논문 작성을 공동으로 관리했다.

BigScience 프로젝트의 목표에 따라, 이 연구는 워킹 그룹의 모든 기여자들에 의해 공동 저술되었다. 우리는 이 기여를 프로젝트에 최소 3개 이상의 승인된 prompted 데이터셋을 기여한 것으로 정의한다. 더 나은 측정 기준이 없으므로, 저자들은 프로젝트에 대한 코드 기여도를 기준으로 정렬되었다. 우리는 다음 사람들의 작업을 명시적으로 강조한다: 평가 및 작성에 도움을 준 Lintang Sutawika; prompting 도구 개발에 도움을 준 Urmish Thakker, Mike Tian-Jian Jiang, Shanya Sharma, Arnaud Stiegler, Manan Dey; 모델 및 데이터셋 출시에 도움을 준 M Saiful Bari; 오염 분석을 수행한 Teven Le Scao.

B Broader Impacts

B. 1 Environmental Costs

대규모 language model을 학습시키는 것은 상당한 환경 비용을 발생시킬 수 있다 (Strubell et al., 2019; Schwartz et al., 2020; Lacoste et al., 2019; Bender et al., 2021). 이러한 비용은 학습에 필요한 하드웨어 전력 사용으로 인해 발생한다. 최근 Patterson et al. (2021)은 다양한 최신 대규모 language model 학습으로 인한 탄소 배출량에 대한 상세한 분석을 수행했다. 해당 연구에서 분석된 모델 중 하나는 가장 큰 T5 variant였으며, 이는 약 46.7 tCO2e를 배출한 것으로 추정되었다. 우리는 이 T5 variant를 기반으로 T0를 개발했고, 동일한 하드웨어(Google Cloud TPUs)에서 학습을 수행했으므로, Patterson et al. (2021)의 T5 추정치를 우리가 수행한 학습량에 비례하여 재조정함으로써 본 연구에서 발생한 탄소 배출량을 추정할 수 있다. 구체적으로, T5는 1조 개의 토큰으로 사전학습되었다. 본 연구의 모든 학습 실행(본 논문에서 설명되지 않은 예비 테스트 실험 포함)을 통틀어 우리는 2,500억 개의 토큰을 학습했으며, 이는 T5의 약 **25%**에 해당한다. 이러한 학습 실행은 v3-512 Cloud TPU 장치에서 총 약 270시간의 학습에 해당한다. 또한, T5는 Google의 대만 데이터센터에서 학습되었지만, 우리는 europe-west4-a Cloud 지역에서 학습을 수행했다. Google이 이들 데이터센터에 대해 공개한 gCO2eq/kWh는 각각 540과 410이며, 이는 우리의 탄소 배출량이 추가적으로 **410/540 ≈ 75.9%**의 비율로 조정되어야 함을 시사한다. 위 내용을 바탕으로, 우리 모델 학습에 대한 총 배출량은 약 46.7 × 25% × 75.9% ≈ 8.9 tCO2e로 추정된다. 참고로, Patterson et al. (2021)은 샌프란시스코에서 뉴욕까지 왕복 제트기 비행이 약 180 tCO2e를 배출한다고 추정했으며, Strubell et al. (2019)은 승객 1인당 평균 배출량을 약 1 tCO2e로 추정한다. 우리의 실험은 평가 비용, XL 크기 ablation, 데이터 전처리 등으로 인해 추가적인 배출량이 발생했지만, 이러한 비용은 주요 T0 모델의 학습 실행에 비해 무시할 수 있는 수준이다. 더욱이, 대부분의 평가 및 데이터 전처리는 전력의 대부분이 원자력 에너지에서 공급되는 프랑스의 Jean-Zay 클러스터에서 실행되었다.

Model	Hardware	Hours	Grid	$\mathrm{gCO}_{2} \mathrm{eq} / \mathrm{kWh}$	Estimated $\mathrm{tCO}_{2} \mathrm{e}$
T0 (single run)	v3-512	27	europe-west4-a	410	0.9
All experiments in this paper	v3-512	270	europe-west4-a	410	8.9
T5-11B (single run)	v3-1024	528	Taiwan	540	46.7

Table 1: T0 및 T5의 탄소 배출량 정보.

B. 2 Risks in Developing and Releasing Large Language Models

본 논문의 초점은 멀티태스크 prompt training에 대한 실증적 탐구와 이것이 여러 task에서 zero-shot 성능을 어떻게 향상시키는지에 있다. 우리는 각 데이터셋에 대해 여러 prompt를 작성하여 데이터셋을 변환하고, 변환된 예시들로 사전학습된 모델을 fine-tuning하여 여러 task에서 강력한 zero-shot 능력을 관찰했다.
우리는 우리 모델의 zero-shot 성능이 "전통적인" transfer-learning 설정에서 해당 task에 대해 fine-tuning된 모델에 비해 여전히 상당히 뒤처진다는 점에 주목한다. 이는 이 분야에서 아직 많은 연구가 필요함을 강조하며, 우리는 본 연구와 이 연구의 일환으로 개발된 리소스들이 미래 연구에 핵심적인 역할을 할 것이라고 믿는다.

본 연구는 Hugging Face datasets 라이브러리 (Lhoest et al., 2021)의 공개 데이터셋과 **공개 모델인 T5+LM (Lester et al., 2021)**만을 기반으로 구축되었다. 대규모 언어 모델 출시의 함의는 Bender et al. (2021); Bommasani et al. (2021); Solaiman et al. (2019) 등에서 광범위하게 논의되었다. 우리는 우리 연구를 재현하는 것이 전 세계 수십 개 기관의 역량 내에 있을 것으로 예상하며, 주요 장벽은 재정적 제약이라고 생각한다. 따라서 우리는 우리 모델을 출시함으로써 발생하는 추가적인 잠재적 위험과 해악은 제한적이며, 출시하지 않을 경우 주로 자금 지원이 적은 연구 기관과 개인에게 영향을 미칠 것이라고 믿는다.

또한, 우리는 개방성, 투명성, 재현성을 지지한다. 본 연구의 일환으로 개발된 데이터셋, 모델, 도구를 공개하는 것은 우리 결과와 미래 연구의 재현을 촉진할 핵심 요소이다. 따라서 우리의 리소스는 다음에서 이용 가능하다:

Collection of prompts: http://github.com/bigscience-workshop/promptsource
Trained models: https://github.com/bigscience-workshop/t-zero
Materialized prompted data used to train the models: https://huggingface.co/datasets/ bigscience/P3

B. 3 Bias and Fairness

Hugging Face 라이브러리에서 제공되는 일부 데이터셋에는 잠재적으로 유해한 콘텐츠가 포함되어 있다. 우리는 모델이 이러한 출력을 생성하도록 학습되는 것을 방지하기 위해 이러한 데이터셋을 학습 혼합에서 의도적으로 제외했다. 특히, 우리는 **Sentiment140 (Go et al., 2009)**과 같이 Twitter 콘텐츠를 기반으로 하거나, **Hate Speech 18 (de Gibert et al., 2018)**과 같이 백인 우월주의 포럼 데이터를 기반으로 구축된 포럼 및 소셜 미디어 콘텐츠로 구성된 데이터셋을 제외했다.

잠재적으로 유해한 콘텐츠가 포함된 데이터셋을 fine-tuning에서 제외하기 위해 의도적인 결정을 내렸음에도 불구하고, 학습된 모델은 편향에서 자유롭지 않다. 몇 가지 실험을 바탕으로, **T0++**는 음모론적이거나 편향된 것으로 분류될 수 있는 답변을 생성할 수 있다:

Input	Prediction
Is the earth flat?	yes
Do vaccines cause autism?	yes
Complete this sentence: This man works as a	Architect
Complete this sentence: This woman works as a	Nanny

Table 2: T0++의 몇 가지 문제적인 예측.

Language model은 사전학습된 대규모 코퍼스에 내재된 바람직하지 않은 **사회적 편향(social biases)**을 재현할 수 있다. 우리는 모델을 두 가지 방식으로 평가한다: 첫째, 성별 편향(gender biases)을 인식하거나 분류하는 능력, 둘째, 그러한 편향을 재현하는 정도.

모델이 성별 편향을 인식하는 능력을 측정하기 위해, 우리는 WinoGender Schemas (Rudinger et al., 2018) (SuperGLUE에서는 AX-g라고도 불림)와 **CrowS-Pairs (Nangia et al., 2020)**를 사용하여 모델을 평가한다. WinoGender Schemas는 문장 내 하나의 대명사 성별만 다른 최소 쌍의 문장들로 구성되어 있으며, 성별 편향의 존재 여부를 테스트하도록 설계되었다. 우리는 **Poliak et al. (2018)**의 버전을 사용하여 WinoGender를 텍스트 함의(textual entailment) task로 변환하고 정확도를 보고한다. CrowS-Pairs는 최소 쌍의 문장을 사용하여 masked language model에 존재하는 미국 스테레오타입 편향의 정도를 측정하기 위한 챌린지 데이터셋이다. 우리는 두 문장 중 어느 것이 스테레오타입적인지(또는 반-스테레오타입적인지) 예측하는 방식으로 task를 재구성하고 정확도를 보고한다. 각 데이터셋에 대해 5개에서 10개의 prompt를 사용하여 평가한다.

Dataset	Model	Mean (Acc.)	Median (Acc.)
CrowS-Pairs	T0	59.2	83.8
	T0+	57.6	83.8
	T0++	62.7	64.4
	T0 (p=1)	57.6	69.5
	T0 (3B)	56.9	82.6
WinoGender	T0	84.2	84.3
	T0+	80.1	80.6
	T0++	89.2	90.0
	T0 (p=1)	81.6	84.6
	T0 (3B)	69.7	69.4

Table 3: 분류 task로 재구성된 CrowS-Pairs 및 WinoGender에 대한 평균 및 중앙값 정확도.

모델이 성별 편향을 재현하는 정도를 측정하기 위해, 우리는 **WinoBias Schemas (Zhao et al., 2018)**를 사용하여 모델을 평가한다. WinoBias Schemas는 성별 편향의 영향을 받을 수 있는 대명사 공참조 해결(pronoun coreference resolution) task이다. WinoBias Schemas는 두 가지 스키마(type1 및 type2)를 가지며, 이는 pro-stereotype 및 anti-stereotype 하위 집합으로 나뉜다. "pro-stereotype" 예시는 올바른 답변이 스테레오타입에 부합하는 경우이며, "anti-stereotype" 예시는 스테레오타입에 반대되는 경우이다. 모든 예시에는 명확하게 올바른 답변이 있으며, 따라서 "pro-" 및 "anti-" 하위 집합 간의 점수 차이는 스테레오타입이 모델을 얼마나 잘못된 방향으로 이끌 수 있는지를 측정한다. 우리는 모델의 예측에 대상 명사(target noun)가 존재하면 예측이 올바른 것으로 간주하여 정확도를 보고한다. 6개의 prompt에 대해 평가한다.

C Annotation system - PromptSource

수백 개의 prompt 템플릿을 수집하기 위해, 우리는 먼저 사용자들이 데이터를 보고, 표준 형식으로 템플릿을 제공하며, 템플릿이 올바르게 작동하는지 확인할 수 있는 시스템이 필요했다. 우리는

Model	Subset	Average (Acc.)			Median (Acc.)
		Pro	Anti	Pro - Anti	Pro	Anti	Pro - Anti
T0	Type 1	68.0	61.9	6.0	71.7	61.9	9.8
	Type 2	79.3	76.4	2.8	79.3	75.0	4.3
T0+	Type 1	66.6	57.2	9.4	71.5	62.6	8.8
	Type 2	77.7	73.4	4.3	86.1	81.3	4.8
T0++	Type 1	63.8	55.9	7.9	72.7	63.4	9.3
	Type 2	66.8	63.0	3.9	79.3	74.0	5.3
T0 ( $\mathrm{p}=1$ )	Type 1	73.7	60.5	13.2	79.3	60.6	18.7
	Type 2	77.7	69.6	8.0	80.8	69.7	11.1
T0 (original task only)	Type 1	78.1	67.7	10.4	81.8	67.2	14.6
	Type 2	85.2	82.3	2.9	89.6	85.4	4.3
T0 (3B)	Type 1	82.3	70.1	12.2	83.6	62.9	20.7
	Type 2	83.8	76.5	7.3	85.9	75.0	10.9

Table 4: WinoBias coreference task에서의 정확도.

Streamlit으로 경량 인터페이스를 구현하여 사용자들이 다운로드하고 웹 브라우저에서 로컬로 실행한 다음, 결과를 중앙 저장소에 업로드할 수 있도록 했다.

파일럿 템플릿 작성 task에서 인터페이스의 반복 테스트를 거쳐, 우리는 인터페이스에 대한 세 가지 뷰에 도달했다. 첫째, "helicopter" 뷰는 사용자들이 템플릿을 작성할 수 있는 데이터셋과 각 데이터셋에 대해 작성된 템플릿의 수를 확인하여 사용자들의 주의를 우선순위화할 수 있도록 한다. 둘째, "sourcing" 뷰는 사용자들이 prompt를 생성할 데이터셋을 선택하고, Hugging Face datasets 라이브러리에서 제공하는 Python dictionary 형태의 해당 데이터셋 예시들을 탐색하며, 해당 데이터셋에 대한 템플릿을 입력할 수 있도록 한다. 사용자가 템플릿을 작성하고 저장할 때마다, 현재 예시에 적용된 템플릿의 출력이 편집기 옆에 표시된다. 우리는 또한 템플릿의 이름, 참고 문헌 정보 또는 템플릿에 대한 근거와 같은 메타데이터를 수집한다. 셋째, "prompted dataset" 뷰에서 사용자들은 템플릿을 선택하고 그 템플릿으로 생성된 prompt들을 탐색할 수 있다. 원본 예시(Python dictionary)는 결과 prompt와 나란히 표시되며, 템플릿에 하드코딩된 텍스트와 구별하기 위해 대체된 텍스트가 강조 표시된다. 사용자들은 많은 예시들을 빠르게 스크롤하며 템플릿의 동작을 확인하고, 변경이 필요한 경우 sourcing 뷰로 돌아갈 수 있다.

핵심 설계 결정 중 하나는 템플릿의 형식이었다. 우리는 여러 형식을 실험했으며, 표현력과 명시적 구조 사이의 trade-off를 보인다는 것을 발견했다. 한편으로, 순수 Python 코드와 같이 최대한 표현력이 풍부한 형식은 사용자들이 반구조화된 예시를 prompt로 조작하기 위한 복잡한 프로그램을 작성할 수 있게 해준다. 그러나 이러한 프로그램을 분석하여 prompt가 어떻게 생성되는지 이해하는 것은 어려워진다. 이러한 어려움은 자동 템플릿 증강과 같은 템플릿의 후속 조작 및 분석을 제한한다. 다른 한편으로, 규칙 기반 생성과 같이 최대한 구조화된 형식은 사용자들이 만들 수 있는 템플릿의 종류를 제한한다. 우리는 템플릿을 만들고자 하는 광범위한 task 및 데이터 형식에 충분한 규칙 유형을 열거하는 것이 불가능하다는 것을 발견했다.

따라서 우리는 웹 마크업 생성을 위해 원래 설계된 Jinja 템플릿 엔진이라는 두 가지 사이의 중간 지점을 선택했다. 사용자들은 If {{premise}} is true, is it also true that {{hypothesis}}? ||| {{entailed}}와 같이 플레이스홀더가 있는 prompt 형태로 템플릿을 작성한다. 구분자 |||는 조건부 텍스트와 원하는 완성(completion) 사이의 구분을 나타낸다. 플레이스홀더는 기본 예시 dictionary의 필드를 참조한다. 사용자들은 또한 문자열 및 구조화된 데이터를 조작하는 것과 같은 Jinja의 내장 함수에 접근할 수 있다. 각 템플릿에 대해 해당 데이터셋의 모든 예시에 템플릿을 적용하여 prompt가 생성된다.

우리의 도구(PromptSource라고 명명)를 개발하는 동안, 몇 가지 관용구가 특히 유용하다는 것을 발견했다. 첫째, 모든 템플릿이 데이터셋의 모든 예시에 적용 가능한 것은 아니다. 사용자들은 Jinja의 내장 조건문으로 템플릿을 감쌀 수 있으며, 빈 prompt를 생성하는 모든 예시는 단순히 건너뛴다. 둘째, 여러 개의 유효한 답변을 가진 질문과 같이 많은 예시가 여러 개의 훈련 prompt를 만드는 데 사용될 수 있다. 따라서 우리는 데이터셋 생성 중에 제어할 수 있는 방식으로 목록에서 요소를 선택하는 choice 함수를 추가했다. 예를 들어, 시드(seed)가 있는 난수 생성기를 사용하여 무작위 요소를 선택하거나 템플릿의 요소 조합마다 다른 prompt를 생성하는 방식이다. 셋째, 분류 및 이진 질문 답변과 같은 많은 task는 가능한 유효한 완성(completion) 집합이 작으며, 이러한 task에 대한 예측은 유효한 완성만 점수를 매기고 가장 높은 점수를 반환하는 방식으로 이루어지는 것이 일반적이다 (Brown et al., 2020). 따라서 사용자들은 유효한 완성을 별도의 필드에 나열하고 템플릿에서 목록으로 접근할 수 있다. 이러한 완성은 해당 prompt에 대한 예측을 평가할 때 명시적으로 사용 가능하다.

D Datasets

D. 1 Categorizing Datasets into Tasks

우리의 **task 분류 체계(Figure 2)**는 대부분 문헌에서 잘 알려진 task들을 반영하는 직관적인 결정들로 구성된다: 감성 분석(sentiment analysis), 주제 분류(topic classification), paraphrase 식별(paraphrase identification), 자연어 추론(natural language inference), 단어 의미 중의성 해소(word sense disambiguation), 공참조 해소(coreference resolution), 요약(summarization), 구조-텍스트 생성(structure-to-text generation).
주요 어려움은 많은 데이터셋이 모두 "question answering"으로 통칭되며, 이 범주를 세분화하는 데 널리 합의된 방식이 없다는 점에 있다. CrossFit과 UnifiedQA는 **형식(multiple-choice vs. extractive vs. abstractive/generative)**에 따라 분류하는 반면, Brown et al. (2020)은 **내용(reading comprehension vs. commonsense vs. closed-book QA)**에 따라 분류한다.

원칙적으로는 형식보다는 내용에 따라 분류하는 것이 더 합리적이다. 대부분의 사람들은 역사 시험과 물리 시험을 두 가지 다른 task로 간주할 것이며, 시험이 객관식인지 서술형인지는 덜 중요하게 생각할 것이다. 이러한 논리에 따르면, closed-book QA를 별개의 task로 설정하는 것은 비교적 논란의 여지가 없으며, 이는 주로 모델의 세계 지식 암기 능력을 평가한다 (Roberts et al., 2020). 그러나 commonsense와 (단순한) reading comprehension 간의 구분은 훨씬 모호하다. Section 3에서 언급했듯이, 각 데이터셋 저자들이 commonsense로 간주하는 내용에는 엄청난 차이가 있다. 지나치게 단순화하자면, 이들은 일반적으로 물리적 인지(physical cognition)와 (미국 중심의) 문화적 규범을 평가하는 질문들을 포함한다.

비교를 위해, Brown et al. (2020, p. 17)은 commonsense task를 "문장 완성, 독해, 또는 광범위한 지식 질문 답변과 구별되는 물리적 또는 과학적 추론을 포착하려는 시도"라고 정의한다. 순환 정의(circular definition)는 차치하고라도, 과학적 추론이 commonsense라는 것은 전혀 명확하지 않다. Brown et al. (2020)의 선택 중 ARC는 과학적 지식 평가가 commonsense를 훨씬 넘어설 수 있음을 보여주는 예시이다. 초등학교 과학 질문으로 구성되었음에도 불구하고, 이 논문의 저자들은 대부분의 ARC 질문이 답변하기 어렵다고 느꼈다 (그리고 OpenBookQA도 어느 정도 그러했다).
마지막으로, **NLI 및 coreference 데이터셋(특히 ANLI 및 Winogrande와 같은 최신 데이터셋)**은 실제로 모두 commonsense 지식을 요구한다. 따라서 우리는 commonsense를 독립적인 task 범주로 설정하기 어렵다고 판단하여, QA를 그 형식에 따라 분류하는 방식으로 회귀한다. 이는 ARC를 multiple-choice QA로 분류함을 의미하는데, 다른 closed-book QA는 제공된 답변 옵션 없이 답변을 생성해야 하기 때문이다.

D. 2 How Unseen are the Held-Out Tasks?

"Question answering"이 너무 광범위하게 정의되어 있기 때문에, QA 데이터셋에는 entailment 또는 coreference 질문이 포함될 수 있었고, 이는 해당 task들을 엄격하게 held-out task로 간주하기 어렵게 만든다. 예를 들어, ReCoRD는 오직 지시 대상(referent)을 식별하는 질문으로 구성된 extractive QA 데이터셋이다. 우리는 ReCoRD를 SuperGLUE의 일부로 held-out하지만, 모든 데이터셋을 검사하여 entailment 또는 coreference 질문을 포함하는 예시들을 잘라내는 것은 비실용적이다.

일반적인 우려 중 하나는 paraphrasing identification이 NLI와 너무 유사하여 held-out되어야 한다는 것이다. 우리는 두 가지 이유로 이에 동의하지 않는다. 첫째, NLI는 단방향 entailment를 테스트하는 반면, paraphrasing은 양방향 entailment를 요구한다. 한 저자가 ANLI와 RTE를 수동으로 검토한 결과, 유효한 paraphrasing이기도 한 entailment 예시는 거의 발견되지 않았다. 둘째, Pruksachatkun et al. (2020) 등의 연구에서 보여주듯이, NLI 데이터셋(RTE) 학습 전에 paraphrase 데이터셋(QQP)으로 학습하는 것은 entailment task만으로 학습하는 것보다 오히려 성능을 저하시킨다.

NLI와 너무 유사하다고 지적된 또 다른 까다로운 범주는 sentence completion이다: 문장이나 짧은 단락을 이어가거나 완성하는 가장 그럴듯한 옵션을 선택하는 task이다. SWAG는 NLI를 보완하기 위한 "commonsense inference"로 제안되었지만, 대부분의 NLI 데이터셋에서는 형식 의미론자들의 연역적 추론과 자연스러운 실용적 추론 사이의 구분이 명확하게 그려지지 않는다 (Pavlick and Kwiatkowski, 2019). 또한, coreference 및 모든 "continuation-style" prompt도 sentence completion task로 해석될 수 있다. 이러한 모호한 경계에는 명확한 답이 없다. 따라서 우리는 sentence completion task를 범주적으로 held-out한다.

BIG-bench의 평가 데이터셋은 언어 모델의 다양하고, 어렵고, 새로운 기술을 테스트하는 것을 목표로 생성되었다. 따라서 이들 데이터셋은 T0의 학습 task와 높은 중복을 가질 가능성이 낮다.

D. 3 LAMBADA

위에서 설명했듯이, 우리의 task 분류는 전반적으로 Brown et al. (2020)의 분류와 다소 유사하다. 한 가지 추가적인 예외는 LAMBADA 데이터셋 (Paperno et al., 2016)인데, Brown et al. (2020)은 이를 "sentence completion" task 그룹의 일부로 분류한다. LAMBADA는 이 그룹의 다른 task들과는 상당히 다른데, 이는 open-ended next word prediction을 요구하기 때문이다 (몇 가지 가능한 연속 중에서 선택하는 것이 아니라). 이 데이터셋은 그 형식이 표준 language modeling과 정확히 동일하도록 특별히 설계되었으며, 이를 통해 language model이 추가적인 fine-tuning이나 adaptation 없이도 평가될 수 있도록 한다. Brown et al. (2020)은 이 벤치마크에서 표준 관행과 다음과 같은 방식으로 벗어난다: 첫째, 그들은 fill-in-the-blank 스타일의 task로 변환하는 prompted form을 도입한다. 둘째, 그들은 공식 벤치마크의 토큰화(tokenization) 및 소문자화(lowercasing)를 생략한 비표준 형식의 데이터셋으로 평가한다. 셋째, GPT-3는 LAMBADA의 모든 passage의 소스로 사용된 것과 동일한 데이터셋인 Book Corpus 데이터셋으로 학습되었다. Brown et al. (2020)은 LAMBADA 테스트 세트 예시의 57%가 GPT-3의 학습 세트에 나타났다고 추정한다.

우리는 표준 LAMBADA 데이터셋을 원래의 unprompted next-word-prediction 형식으로 T5+LM에 대해 평가했으며, 그 결과 6.2%의 정확도를 달성했다. 이는 비슷한 크기의 GPT-3-13B 변형이 달성한 72.5%의 정확도보다 상당히 낮은 수치이다. T0도 크게 나아지지 않아 18.7%만을 달성했다. 따라서 우리는 GPT-3가 사용한 것과 동일한 cloze-style prompted form을 사용하여 평가했으며, 이는 T0의 정확도를 27.8%로 높였다. 만약 우리가 공식 LAMBADA 데이터셋을 GPT-3가 사용한 변형으로 교체하면, T0의 정확도는 40.5%로 더욱 증가하고 T5+LM은 10.7%를 달성한다. 우리는 T0와 GPT-3-13B의 성능 간의 추가적인 격차가 적어도 부분적으로는 GPT-3가 LAMBADA 테스트 세트의 상당 부분을 학습했기 때문이라고 추정한다. 이러한 불일치와 LAMBADA가 다른 sentence completion task들과 유사하지 않다는 사실 때문에, 우리는 LAMBADA를 평가에서 제외했다.

D. 4 Table of All Datasets

Table 5를 참조하라.

Task	Dataset	T0 Train	T0+ Train	T0++ Train	Eval
Coreference Resolution	super_glue/wsc.fixed			$\checkmark$	$\checkmark$
Coreference Resolution	winogrande/winogrande_xl				$\checkmark$
Natural Language Inference	super_glue/cb				$\checkmark$
Natural Language Inference	super_glue/rte				$\checkmark$
Natural Language Inference	anli				$\checkmark$
Paraphrase Identification	glue/mrpc	$\checkmark$	$\checkmark$	$\checkmark$
Paraphrase Identification	glue/qqp	$\checkmark$	$\checkmark$	$\checkmark$
Paraphrase Identification	paws/labeled_final	$\checkmark$	$\checkmark$	$\checkmark$
Closed-Book QA	ai2_arc/ARC_Challenge		$\checkmark$	$\checkmark$
Closed-Book QA	ai2_arc/ARC_Easy		$\checkmark$	$\checkmark$
Closed-Book QA	kilt_tasks/hotpotqa	$\checkmark$	$\checkmark$	$\checkmark$
Closed-Book QA	trivia_qa/unfiltered		$\checkmark$	$\checkmark$
Closed-Book QA	web_questions		$\checkmark$	$\checkmark$
Closed-Book QA	wiki_qa	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	adversarial_qa/dbidaf	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	adversarial_qa/dbert	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	adversarial_qa/droberta	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	duorc/SelfRC	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	duorc/ParaphraseRC	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	ropes	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	squad_v2		$\checkmark$	$\checkmark$
Extractive QA	super_glue/record			$\checkmark$
Extractive QA	quoref	$\checkmark$	$\checkmark$	$\checkmark$
Extractive QA	tydiqa	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	cos_e/v1.11	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	cosmos_qa	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	dream	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	openbookqa/main		$\checkmark$	$\checkmark$
Multiple-Choice QA	qasc	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	quail	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	quarel	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	quartz	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	race/high		$\checkmark$	$\checkmark$
Multiple-Choice QA	race/middle		$\checkmark$	$\checkmark$
Multiple-Choice QA	sciq	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	social_i_qa	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	super_glue/boolq			$\checkmark$
Multiple-Choice QA	super_glue/multirc			$\checkmark$
Multiple-Choice QA	wiki_hop/original	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	wiqa	$\checkmark$	$\checkmark$	$\checkmark$
Multiple-Choice QA	piqa		$\checkmark$	$\checkmark$
Sentiment	amazon_polarity	$\checkmark$	$\checkmark$	$\checkmark$
Sentiment	app_reviews	$\checkmark$	$\checkmark$	$\checkmark$
Sentiment	imdb	$\checkmark$	$\checkmark$	$\checkmark$
Sentiment	rotten_tomatoes	$\checkmark$	$\checkmark$	$\checkmark$
Sentiment	yelp_review_full	$\checkmark$	$\checkmark$	$\checkmark$
Sentence Completion	super_glue/copa			$\checkmark$	$\checkmark$
Sentence Completion	story_cloze/2016				$\checkmark$
Sentence Completion	hellaswag		$\checkmark$	$\checkmark$	$\checkmark$
Structure-to-Text	common_gen	$\checkmark$	$\checkmark$	$\checkmark$
Structure-to-Text	wiki_bio	$\checkmark$	$\checkmark$	$\checkmark$
Summarization	cnn_dailymail/3.0.0	$\checkmark$	$\checkmark$	$\checkmark$
Summarization	gigaword	$\checkmark$	$\checkmark$	$\checkmark$
Summarization	multi_news	$\checkmark$	$\checkmark$	$\checkmark$
Summarization	samsum	$\checkmark$	$\checkmark$	$\checkmark$
Summarization	xsum	$\checkmark$	$\checkmark$	$\checkmark$
Topic Classification	ag_news	$\checkmark$	$\checkmark$	$\checkmark$
Topic Classification	dbpedia_14	$\checkmark$	$\checkmark$	$\checkmark$
Topic Classification	trec	$\checkmark$	$\checkmark$	$\checkmark$
Word Sense Disambiguation	super_glue/wic			$\checkmark$	$\checkmark$

Table 5: 모든 학습 및 평가 데이터셋. 데이터셋은 Hugging Face datasets 식별자로 표시되어 있으며, / 뒤의 부분은 하위 데이터셋 이름이다. Hotpot QA는 긴 입력 길이로 인해 closed-book QA로 재구성되었다. 전체 인용은 Appendix G에 포함되어 있다.

E Contamination Analysis of Pretraining Corpus on Test Tasks

Zero-shot 성능 추정은 모델의 사전학습 코퍼스에 테스트 task의 텍스트가 포함되어 있을 경우, 일반화(generalization)가 아닌 암기(memorization)를 통해 성능이 향상될 수 있어 혼란을 야기할 수 있다. 이러한 영향을 통제하기 위해, 우리는 zero-shot 테스트 task의 입력 예시(prompt 형태로 제시된)와 C4 (우리 모델의 사전학습 데이터셋) 문서 간의 긴 공통 부분 문자열(long common substrings)을 검색하였다.
이를 효과적으로 수행하기 위해, 우리는 Lee et al. (2021)에서 설명하고 구현된 suffix array 방법을 사용하여 C4에 인덱스를 생성하였다. 이를 통해 코퍼스 내에서 특정 부분 문자열이 나타나는 횟수를 빠르게 계산할 수 있었다. 쿼리 수를 제한하기 위해, 우리는 문장을 16개의 토큰 그룹으로 분할하여 정확히 일치하는 쿼리를 수행하였다. 이 방식은 코퍼스 내에 **길이 32 토큰의 중복이 얼마나 많은지에 대한 과대 계산(over-counting)**을 제공한다. 이 과정에서 일치하는 예시들을 플래그(flag)한 후, 수동으로 검사하였다.
NLI 데이터셋의 경우, 전제(premises)와 가설(hypotheses)에 대한 일치 여부를 분리하였다. 이는 전제가 인터넷에서 가져온 경우가 많아 일치하는 수가 많기 때문이다. 그러나 전제와 짝을 이루는 가설이 새로운 내용이라면, 암기가 도움이 되지 않을 수 있다.

Task	CB	HellaSwag	Lambada	Story Cloze	WiC	Winogrande	WSC
Matches	$1 / 250$	$912 / 10000$	$15 / 5153$	$3 / 1871$	$20 / 1400$	$0 / 1767$	$4 / 146$
Task		ANLI premises	ANLI hypotheses	RTE premises	RTE hypotheses
Matches		$337 / 1000$	$6 / 1000$	$329 / 3000$	$156 / 3000$

예상대로, ANLI와 RTE는 전제(premises)에서 높은 비율의 일치를 보였다. 그러나 ANLI 가설(hypotheses)은 사전학습 데이터셋과 무시할 만한 수준의 중복을 보여, 사전학습 암기가 task 해결에 도움이 되지 않도록 한다. 반대로, RTE 가설은 사전학습 데이터셋에 5.2%의 확률로 포함되어 있었다. 이들은 대부분 "Paris is the capital of France"와 같은 짧고 사실적인 문장에 해당한다. 이러한 예시들은 사실적 지식이 task 해결에 도움이 된다면 사전학습 데이터셋이 유용할 수 있는 경우이다. HellaSwag은 9.12%의 일치를 보였는데, 이는 연속(continuation) task이므로 문제가 될 수 있다. 즉, 정답이 입력 시퀀스와 동일한 원본 인터넷 페이지에 포함되어 있을 수 있기 때문이다. 하지만 객관식 답변 형식은 모델이 암기를 통해 정답을 그대로 생성하는 것을 방지한다. 다른 데이터셋들은 오염(contamination)이 없는 것으로 확인되었다.

Figure 8: 사전학습된 모델 크기의 영향: T03B와 T011B의 비교.

Task	Dataset	T5+LM		T0 ( $\mathrm{p}=1$ )		T0 ( $\mathrm{p}=5.7$ )		T0 (3B)		T0		T0+		T0++
		Mean	Med.	Mean	Med.	Mean	Med.	Mean	Med.	Mean	Med.	Mean	Med.	Mean	Med.
Coref.	WSC	54.09	57.69	52.40	56.25	60.00	63.46	65.10	64.42	61.45	64.42	62.24	64.42	70.29	69.71
	Wino. (XL)	50.65	50.71	58.11	57.22	59.35	58.80	50.97	50.51	59.94	60.46	62.54	61.72	66.42	66.54
NLI	ANLI R1	32.89	32.85	39.02	40.05	41.28	43.20	33.84	33.65	43.56	44.70	43.45	45.80	47.07	49.80
	ANLI R2	33.76	32.90	36.96	38.20	37.79	38.60	33.11	33.40	38.68	39.40	39.77	41.10	42.18	44.50
	ANLI R3	33.82	33.75	38.09	39.33	38.33	38.58	33.33	33.33	41.26	42.42	40.76	41.17	44.09	46.42
	CB	34.34	33.93	48.85	50.89	54.40	64.29	45.36	50.00	70.12	78.57	59.20	71.43	75.69	83.93
	RTE	53.03	51.81	76.43	79.24	75.67	74.91	64.55	64.08	80.83	81.23	67.47	64.98	85.31	84.84
Compl.	COPA	54.88	55.00	87.66	87.50	90.85	91.69	72.40	74.92	90.02	90.79	92.24	93.88	93.71	93.75
	HellaSwag	27.00	27.73	32.79	33.27	35.20	35.20	27.29	27.51	33.58	33.65	86.13	85.79	86.11	85.65
	StoryCloze	48.16	48.85	89.57	93.00	95.45	95.88	84.03	85.09	92.40	94.71	96.43	97.17	96.49	97.33
WSD	WiC	50.30	50.24	55.03	54.94	55.00	54.94	50.69	50.39	56.58	57.21	55.02	55.49	70.02	69.98

Table 6: T5+LM 및 모든 T0 모델 변형에 대한 모든 task 결과. 회색으로 표시된 텍스트는 zero-shot이 아닌 결과에 해당한다.

Dataset	T5-LM	T0	T0+	T0++
Code Description	18.33	36.67	53.33	58.33
Conceptual	25.00	62.50	81.25	75.00
Hindu Knowledge	32.00	36.00	38.29	40.00
Known Unknowns	52.17	63.04	63.04	52.17
Language ID	16.71	20.68	20.80	22.17
Logic Grid	31.00	39.60	39.50	39.40
Logical Deduction	31.00	55.40	44.20	43.60
Misconceptions	51.60	52.51	52.97	54.79
Movie Dialog	50.19	53.83	54.05	53.97
Novel Concepts	9.38	15.62	31.25	28.12
Strategy QA	52.25	52.73	54.00	54.39
Syllogisms	50.04	51.79	50.53	50.31
Vitamin C	38.29	64.73	66.24	70.00
Winowhy	45.77	47.38	45.84	48.15

Table 7: BIG-bench task의 일부에 대한 T0 모델 변형 결과.

G List of All Prompts

다음 Appendix에서는 본 논문에서 보고된 다양한 T0 모델을 학습하고 평가하는 데 사용된 모든 prompt를 열거한다. 이 prompt들의 최신 버전은 https://github.com/ bigscience-workshop/promptsource에서 확인할 수 있다.

데이터셋은 task 분류와 Hugging Face 데이터셋의 정식 데이터셋 이름으로 나열되어 있다.

각 데이터셋에 대해 이해를 돕기 위한 데이터 예시가 제공된다. 그런 다음 각 prompt template이 서지 참조, 입력 template 및 대상 template과 함께 나열된다. 일부 prompt의 경우 답변 선택을 위한 template도 포함되어 있다. 또한, 원래 task 설명과 일치하지 않는 prompt도 표시되어 있다.