Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델

이 논문은 주어진 컴퓨팅 예산 하에서 Transformer 언어 모델을 훈련하기 위한 최적의 모델 크기와 토큰 수를 탐구합니다. 연구 결과, 기존의 대규모 언어 모델들이 훈련 데이터 양에 비해 모델 크기가 지나치게 크다는 점을 발견했습니다. 최적의 훈련을 위해서는 모델 크기를 두 배로 늘릴 때마다 훈련 토큰 수도 두 배로 늘려야 한다는 결론을 제시합니다. 이러한 가설을 검증하기 위해 Gopher와 동일한 컴퓨팅 예산을 사용하지만, 파라미터는 70B로 4배 더 작고 데이터는 4배 더 많은 Chinchilla 모델을 훈련했습니다. Chinchilla는 Gopher, GPT-3 등 기존의 거대 모델들을 광범위한 평가에서 압도적인 성능으로 능가하며, 모델 크기가 작아 추론 및 파인튜닝 비용이 훨씬 효율적임을 입증했습니다. 논문 제목: Training Compute-Optimal Large Language Models

Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).

Training Compute-Optimal Large Language Models

Jordan Hoffmann { }^{\star}, Sebastian Borgeaud { }^{\star}, Arthur Mensch { }^{\star}, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals and Laurent Sifre { }^{\star}<br>{ }^{\star} 공동 기여 (Equal contributions)

Abstract

우리는 주어진 연산 예산(compute budget) 내에서 Transformer language model을 학습시키기 위한 최적의 모델 크기와 token 수를 연구한다. 우리는 현재의 대규모 language model들이 상당히 덜 학습(undertrained)되어 있다는 것을 발견했는데, 이는 최근 학습 데이터 양을 일정하게 유지하면서 language model의 크기를 확장하는 데 집중한 결과이다. 7천만 개에서 160억 개 이상의 파라미터를 가진 400개 이상의 language model50억 개에서 5천억 개의 token으로 학습시킨 결과, 연산 최적(compute-optimal) 학습을 위해서는 모델 크기와 학습 token 수가 동일하게 확장되어야 한다는 것을 발견했다: 모델 크기가 두 배가 될 때마다 학습 token 수도 두 배가 되어야 한다. 우리는 이 가설을 검증하기 위해 예측된 연산 최적 모델인 Chinchilla를 학습시켰다. Chinchilla는 Gopher와 동일한 연산 예산을 사용하지만, 70B 파라미터와 4배 더 많은 데이터를 사용한다. Chinchilla는 다양한 다운스트림 평가 task에서 Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)를 일관되고 현저하게 능가한다. 이는 또한 Chinchilla가 fine-tuning 및 추론에 훨씬 적은 연산을 사용하여, 다운스트림 활용을 크게 용이하게 한다는 것을 의미한다. 특히, Chinchilla는 MMLU 벤치마크에서 67.5%의 state-of-the-art 평균 정확도를 달성했으며, 이는 Gopher보다 7% 이상 향상된 수치이다.

1. Introduction

최근 일련의 Large Language Model (LLM)들이 소개되었으며 (Brown et al., 2020; Lieber et al., 2021; Rae et al., 2021; Smith et al., 2022; Thoppilan et al., 2022), 현재 가장 큰 dense language model은 5천억 개 이상의 파라미터를 가지고 있다. 이러한 대규모 autoregressive Transformer (Vaswani et al., 2017)는 zero-shot, few-shot, fine-tuning 등 다양한 평가 프로토콜에서 인상적인 성능을 보여주었다.

대규모 language model을 학습시키는 데 필요한 연산(compute) 및 에너지 비용은 상당하며 (Rae et al., 2021; Thoppilan et al., 2022), 모델 크기가 증가함에 따라 더욱 증가한다. 실제로는 할당된 학습 연산 예산이 미리 정해져 있는 경우가 많다: 즉, 사용 가능한 가속기(accelerator) 수와 사용하고자 하는 기간이 정해져 있다. 이러한 대규모 모델은 일반적으로 한 번만 학습시키는 것이 가능하므로, 주어진 연산 예산 내에서 최적의 모델 하이퍼파라미터를 정확하게 추정하는 것이 매우 중요하다 (Tay et al., 2021).

Kaplan et al. (2020)은 autoregressive language model (LM)의 파라미터 수와 성능 사이에 멱법칙(power law) 관계가 있음을 보여주었다. 그 결과, 이 분야에서는 성능 향상을 기대하며 점점 더 큰 모델을 학습시켜 왔다. Kaplan et al. (2020)의 주목할 만한 결론 중 하나는 대규모 모델이 연산 최적(compute optimal)이 되기 위해 가능한 가장 낮은 손실까지 학습될 필요는 없다는 것이다. 우리는 이와 동일한 결론에 도달했지만, 대규모 모델이 저자들이 권장하는 것보다 훨씬 더 많은 학습 토큰으로 학습되어야 한다고 추정한다. 구체적으로, Kaplan et al. (2020)은 연산 예산이 10배 증가할 때 모델 크기는 5.5배 증가하고 학습 토큰 수는 1.8배만 증가해야 한다고 제안한다. 그러나 우리는 모델 크기와 학습 토큰 수가 동일한 비율로 확장되어야 한다는 것을 발견했다.

Kaplan et al. (2020)과 GPT-3 (Brown et al., 2020)의 학습 설정을 따른 최근 학습된 많은 대규모 모델들은 약 3천억 개의 토큰으로 학습되었으며 (Table 1), 이는 연산량을 늘릴 때 주로 모델 크기를 증가시키는 접근 방식과 일치한다.

Figure 1 | 중첩된 예측. 우리는 세 가지 다른 접근 방식의 예측과 Kaplan et al. (2020)의 예측을 중첩하여 보여준다. 우리는 세 가지 방법 모두 현재의 대규모 모델이 상당히 더 작아야 하며, 따라서 현재보다 훨씬 더 오래 학습되어야 한다고 예측한다는 것을 발견했다. Figure A3에서는 고정된 FLOP 예산에 대해 예측된 최적 토큰 수와 최적 파라미터 수를 플로팅한 결과를 보여준다. Chinchilla는 Gopher 및 다른 대규모 모델들을 능가한다 (Section 4.2 참조).

본 연구에서는 다음과 같은 질문을 다시 던진다: 고정된 FLOPs 예산이 주어졌을 때, 모델 크기와 학습 토큰 수를 어떻게 trade-off해야 하는가? 이 질문에 답하기 위해, 우리는 최종 사전학습 손실 L(N,D)L(N, D)모델 파라미터 수 NN과 학습 토큰 수 DD의 함수로 모델링한다. 연산 예산 CC는 학습된 토큰 수와 모델 파라미터 수의 결정론적 함수 FLOPs(N,D)\operatorname{FLOPs}(N, D)이므로, 우리는 FLOPs(N,D)=C\operatorname{FLOPs}(N, D)=C 제약 조건 하에서 LL을 최소화하는 데 관심이 있다:

Nopt (C),Dopt (C)=argminN,D s.t. FLOPs(N,D)=CL(N,D).N_{\text {opt }}(C), D_{\text {opt }}(C)=\underset{N, D \text { s.t. } \operatorname{FLOPs}(N, D)=C}{\operatorname{argmin}} L(N, D) .

함수 Nopt (C)N_{\text {opt }}(C)Dopt (C)D_{\text {opt }}(C)연산 예산 CC의 최적 할당을 설명한다. 우리는 7천만 개 미만에서 160억 개 이상의 파라미터를 가지며, 50억 개에서 4천억 개 이상의 토큰으로 학습된 400개 이상의 모델 손실을 기반으로 이러한 함수를 경험적으로 추정한다. 각 모델 구성은 여러 다른 학습 기간 동안 학습되었다. 우리의 접근 방식은 Kaplan et al. (2020)의 결과와 상당히 다른 결과를 도출한다. Figure 1에서 우리의 결과를 강조하고, Section 2에서 우리의 접근 방식이 어떻게 다른지 설명한다.

우리가 추정한 연산 최적(compute-optimal) 경계를 기반으로, Gopher를 학습시키는 데 사용된 연산 예산에 대해 최적 모델은 4배 더 작아야 하며, 4배 더 많은 토큰으로 학습되어야 한다고 예측한다. 우리는 이를 검증하기 위해 1.4조 개의 토큰으로 학습된 70B 모델인 Chinchilla를 학습시켰다. Chinchilla는 훨씬 더 큰 모델인 Gopher를 능가할 뿐만 아니라, 모델 크기가 줄어들어 추론 비용이 크게 감소하고 더 작은 하드웨어에서도 다운스트림 활용이 훨씬 용이해진다. 대규모 language model의 에너지 비용은 추론 및 fine-tuning 사용을 통해 상각된다. 따라서 더 최적으로 학습된 더 작은 모델의 이점은 향상된 성능이라는 즉각적인 이점을 넘어선다.

Table 1 | 현재 LLM. 현재 가장 큰 dense Transformer 모델 5개와 그 크기, 학습 토큰 수를 보여준다. LaMDA (Thoppilan et al., 2022)를 제외하고 대부분의 모델은 약 3천억 개의 토큰으로 학습되었다. 우리는 3천억 개 토큰보다 훨씬 더 오래 학습된, 상당히 더 작은 모델인 Chinchilla를 소개한다.

ModelSize (# Parameters)Training Tokens
LaMDA (Thoppilan et al., 2022)137 Billion168 Billion
GPT-3 (Brown et al., 2020)175 Billion300 Billion
Jurassic (Lieber et al., 2021)178 Billion300 Billion
Gopher (Rae et al., 2021)280 Billion300 Billion
MT-NLG 530B (Smith et al., 2022)530 Billion270 Billion
Chinchilla70 Billion1.4 Trillion

대규모 Language Model
지난 몇 년간 다양한 대규모 Language Model(LM)이 소개되었다. 여기에는 dense Transformer 모델 [Brown et al., 2020; Lieber et al., 2021; Rae et al., 2021; Smith et al., 2022; Thoppilan et al., 2022]과 Mixture-of-Expert (MoE) 모델 [Du et al., 2021; Fedus et al., 2021; Zoph et al., 2022]이 모두 포함된다. 가장 큰 dense Transformer는 5천억 개 이상의 파라미터를 가지고 있다 [Smith et al., 2022].
점점 더 큰 모델을 학습시키려는 동기는 명확하다. 지금까지 LM의 크기를 늘리는 것이 많은 언어 모델링 task에서 state-of-the-art 성능을 향상시키는 데 기여해왔기 때문이다.
그럼에도 불구하고, 대규모 LM은 막대한 연산 요구량(모델 크기에 따라 학습 및 추론 비용 증가) [Rae et al., 2021; Thoppilan et al., 2022]과 더 많은 고품질 학습 데이터 확보의 필요성을 포함한 여러 가지 도전 과제에 직면해 있다. 실제로 본 연구에서는 더 크고 고품질의 데이터셋이 LM의 추가적인 확장에 핵심적인 역할을 할 것임을 발견했다.

확장 동작 모델링 (Modelling the scaling behavior)
LM의 확장 동작과 전이 특성을 이해하는 것은 최근 대규모 모델 개발에 중요하게 작용해왔다 [Hernandez et al., 2021; Kaplan et al., 2020]. Kaplan et al. (2020)은 모델 크기와 손실(loss) 간의 예측 가능한 관계를 여러 자릿수에 걸쳐 처음으로 보여주었다. 저자들은 주어진 연산 예산(compute budget) 내에서 최적의 모델 크기를 선택하는 문제를 탐구한다. 우리와 유사하게, 그들은 다양한 모델을 학습시켜 이 질문에 접근한다.
우리의 연구는 Kaplan et al. (2020)과 몇 가지 중요한 면에서 차이가 있다.
첫째, Kaplan et al. (2020)의 저자들은 모든 모델에 대해 고정된 수의 학습 토큰과 learning rate schedule을 사용한다. 이는 이러한 하이퍼파라미터가 손실에 미치는 영향을 모델링하는 것을 방해한다. 반면, 우리는 learning rate schedule을 학습 토큰 수에 대략적으로 맞추는 것이 모델 크기와 관계없이 최상의 최종 손실을 가져온다는 것을 발견했다 (Figure A1 참조). 130B 토큰에 대한 고정된 learning rate cosine schedule의 경우, 중간 손실 추정치(D130 BD' \ll 130 \mathrm{~B})는 DD'에 맞는 schedule 길이로 학습된 모델의 손실을 과대평가하게 된다. 이러한 중간 손실을 사용하면 130B 토큰보다 적은 데이터로 모델을 학습시키는 효과를 과소평가하게 되며, 궁극적으로 연산 예산이 증가함에 따라 모델 크기가 학습 데이터 크기보다 더 빠르게 증가해야 한다는 결론에 기여한다. 이와 대조적으로, 우리의 분석은 두 양(모델 크기와 학습 데이터 크기)이 대략 동일한 비율로 확장되어야 한다고 예측한다.
둘째, 우리는 최대 16B 파라미터를 가진 모델을 포함한다. 이는 FLOP-loss frontier에서 약간의 곡률이 관찰되기 때문이다 (Appendix E 참조). 실제로 우리 분석에 사용된 모델의 대부분은 5억 개 이상의 파라미터를 가지고 있는 반면, Kaplan et al. (2020)의 대부분의 실험은 훨씬 작으며, 많은 모델이 1억 개 미만의 파라미터를 가진다.

최근 Clark et al. (2022)은 Mixture of Expert Language Model의 확장 특성을 구체적으로 살펴보았으며, 모델 크기가 증가함에 따라 expert 수에 따른 확장이 감소한다는 것을 보여주었다. 그들의 접근 방식은 손실을 모델 크기와 expert 수라는 두 변수의 함수로 모델링한다. 그러나 이 분석은 Kaplan et al. (2020)과 마찬가지로 고정된 수의 학습 토큰으로 수행되어, 분기(branching)의 개선 효과를 과소평가할 가능성이 있다.

대규모 모델의 하이퍼파라미터 추정
모델 크기와 학습 토큰 수는 LM을 선택하고 학습 절차를 결정할 때 선택해야 할 유일한 두 가지 파라미터가 아니다. learning rate, learning rate schedule, batch size, optimiser, width-to-depth ratio와 같은 다른 중요한 요소들도 있다. 본 연구에서는 모델 크기와 학습 단계 수에 중점을 두며, 다른 필요한 하이퍼파라미터는 기존 연구와 제공된 실험적 휴리스틱에 의존하여 결정한다. Yang et al. (2021)은 autoregressive Transformer 학습을 위한 learning rate 및 batch size를 포함한 다양한 파라미터 선택 방법을 탐구한다. McCandlish et al. (2018)은 최적의 batch size와 모델 크기 사이에 약한 의존성만을 발견했다. Shallue et al. (2018); Zhang et al. (2019)은 우리가 사용하는 것보다 더 큰 batch size를 사용하는 것이 가능하다고 제안한다. Levine et al. (2020)은 다양한 표준 모델 크기에 대한 최적의 depth-to-width ratio를 조사한다. 우리는 제안된 것보다 약간 덜 깊은 모델을 사용하는데, 이는 우리 하드웨어에서 더 나은 wall-clock 성능으로 이어진다.

개선된 모델 아키텍처
최근 전통적인 dense Transformer에 대한 다양한 유망한 대안들이 제안되었다. 예를 들어, **조건부 연산(conditional computation)**을 통해 1.7조 파라미터의 Switch Transformer [Fedus et al., 2021], 1.2조 파라미터의 GLaM 모델 [Du et al., 2021] 및 기타 모델들 [Artetxe et al., 2021; Zoph et al., 2022]과 같은 대규모 MoE 모델은 상대적으로 적은 학습 및 추론 FLOPs를 사용하면서도 큰 유효 모델 크기를 제공할 수 있다. 그러나 매우 큰 모델의 경우 routed model의 연산 이점은 감소하는 경향이 있다 [Clark et al., 2022].
LM을 개선하는 직교적인(orthogonal) 접근 방식은 Borgeaud et al. (2021); Guu et al. (2020); Lewis et al. (2020)에서처럼 Transformer에 명시적인 retrieval 메커니즘을 추가하는 것이다. 이 접근 방식은 학습 중에 모델이 보는 데이터 토큰의 수를 효과적으로 증가시킨다 (Borgeaud et al. (2021)에서는 약 10배). 이는 LM의 성능이 이전에 생각했던 것보다 학습 데이터의 크기에 더 의존할 수 있음을 시사한다.

3. Estimating the optimal parameter/training tokens allocation

우리는 본 연구의 핵심 질문에 답하기 위해 세 가지 다른 접근 방식을 제시한다: 고정된 FLOPs 예산이 주어졌을 때, 모델 크기와 학습 토큰 수를 어떻게 trade-off해야 하는가? 세 가지 경우 모두, 우리는 모델 크기와 학습 토큰 수를 다양하게 변화시키며 여러 모델을 학습시킨 후, 그 결과로 얻은 학습 곡선(training curve)을 사용하여 이들이 어떻게 확장되어야 하는지에 대한 경험적 추정기(empirical estimator)를 fitting한다. Clark et al. (2022) 및 Kaplan et al. (2020)에서와 같이, 우리는 연산량(compute)과 모델 크기 사이에 power-law 관계가 존재한다고 가정한다. 비록 향후 연구에서는 대규모 모델 크기에서 이 관계에 나타날 수 있는 잠재적 곡률(curvature)을 포함할 수도 있을 것이다. 세 가지 방법 모두에서 얻은 예측은 유사하며, 더 많은 연산량이 주어질 경우 파라미터 수와 학습 토큰 수를 Table 2에 보고된 비율로 동일하게 증가시켜야 함을 시사한다. 이는 이 주제에 대한 이전 연구들과는 확연히 대조되는 결과이며, 추가적인 조사가 필요하다.

Figure 2 | 학습 곡선 envelope. 왼쪽: 우리가 수행한 모든 다양한 실행 결과를 보여준다. 우리는 7천만 개에서 100억 개에 이르는 다양한 모델 크기를 각각 네 가지 다른 cosine cycle 길이로 학습시켰다. 가운데: 이 곡선들로부터 FLOP당 최소 손실(minimal loss per FLOP)의 envelope를 추출했으며, 이 점들을 사용하여 주어진 연산 예산에 대한 최적 모델 크기를 추정했다. 오른쪽: 최적 학습 토큰 수를 추정했다. 녹색: Gopher 학습에 사용된 FLOP 수(5.76×10235.76 \times 10^{23})를 기반으로 한 최적 모델 크기 및 학습 토큰 수의 예측을 보여준다.

3.1. Approach 1: Fix model sizes and vary number of training tokens

첫 번째 접근 방식에서는 고정된 모델 계열(7천만 개에서 100억 개 이상의 파라미터 범위)에 대해 학습 스텝 수를 다양하게 변경하고, 각 모델을 4가지 다른 수의 학습 시퀀스로 학습시켰다. 이 실험들을 통해 우리는 주어진 학습 FLOPs 수에 대해 달성 가능한 최소 손실(loss)을 직접적으로 추정할 수 있었다. 이 접근 방식에 대한 학습 세부 정보는 Appendix D에서 확인할 수 있다.

각 파라미터 수 NN에 대해 우리는 4개의 다른 모델을 학습시켰으며, 학습 토큰 수로 측정되는 horizon에 걸쳐 학습률(learning rate)을 10배씩 감소시켰다. 이 horizon은 16배의 범위를 가진다. 그런 다음, 각 실행에 대해 **학습 손실 곡선을 평활화(smooth)하고 보간(interpolate)**하였다. 이를 통해 각 실행에 대해 FLOPs 수에서 학습 손실로의 연속적인 매핑을 얻었다. 이어서, 각 FLOPs 수에 대해 어떤 실행이 가장 낮은 손실을 달성하는지를 결정하였다. 이러한 보간 함수를 사용하여, 임의의 FLOPs 수 CC에 대해 가장 효율적인 모델 크기 NN과 학습 토큰 수 DD를 매핑하여 FLOPs (N,D)=C(N, D)=C를 만족하도록 하였다. 1500개의 로그 간격 FLOPs 값에서, 우리는 모든 모델 중 어떤 모델 크기가 가장 낮은 손실을 달성하는지필요한 학습 토큰 수를 찾아냈다. 마지막으로, 주어진 연산량에 대한 최적의 모델 크기와 학습 토큰 수를 추정하기 위해 멱법칙(power laws)을 피팅하여 (Figure 2의 중앙 및 오른쪽 패널 참조) Nopt CaN_{\text {opt }} \propto C^{a}Dopt CbD_{\text {opt }} \propto C^{b} 관계를 얻었다. 우리는 a=0.50a=0.50b=0.50b=0.50임을 확인했으며, 이는 Table 2에 요약되어 있다. Section D.4에서는 102110^{21} FLOPs에서 우리의 분석과 Kaplan et al. (2020)의 분석이 권장하는 모델 크기를 사용하여 직접적인 비교를 보여주는데, 우리가 예측한 모델 크기가 명확한 이점을 가진다.

3.2. Approach 2: IsoFLOP profiles

두 번째 접근 방식에서는 고정된 9가지 학습 FLOP 수(6 x 10^18 ~ 3 x 10^21 FLOPs)에 대해 모델 크기를 다양하게 변경하고, 각 지점에서의 최종 학습 손실을 고려한다. 이는 전체 학습 실행 과정에서 (N, D, L) 지점을 고려했던 접근 방식 1과 대조된다. 이 방법을 통해 우리는 주어진 FLOP 예산에서 최적의 파라미터 수는 얼마인가? 라는 질문에 직접적으로 답할 수 있다.

Figure 3 | IsoFLOP 곡선. 다양한 모델 크기에 대해, 최종 FLOP 수가 일정하도록 학습 토큰 수를 선택한다. cosine cycle length는 목표 FLOP 수에 맞게 설정된다. 손실에서 명확한 **골짜기(valley)**를 발견했는데, 이는 주어진 FLOP 예산에 대해 학습할 최적의 모델이 존재함을 의미한다 (왼쪽). 이 골짜기의 위치를 사용하여, 더 큰 모델에 대한 최적 모델 크기와 토큰 수를 예측한다 (중앙 및 오른쪽). 녹색으로 Gopher의 연산 예산으로 학습된 최적 모델에 대한 추정 파라미터 수와 토큰 수를 보여준다.

각 FLOP 예산에 대해, **최종 손실(평활화 후)**을 파라미터 수에 대해 Figure 3 (왼쪽)에 플로팅하였다. 모든 경우에, 우리는 손실에서 명확한 최소값을 볼 수 있도록 충분히 다양한 모델 크기 세트를 학습시켰다. 각 IsoFLOPs 곡선에 포물선을 피팅하여 최소 손실이 달성되는 모델 크기를 직접 추정하였다 (Figure 3 (왼쪽)). 이전 접근 방식과 마찬가지로, FLOPs와 손실-최적 모델 크기 및 학습 토큰 수 사이에 멱법칙(power law)을 피팅하였다 (Figure 3 (중앙, 오른쪽)). 다시 한번, Nopt CaN_{\text {opt }} \propto C^{a}Dopt CbD_{\text {opt }} \propto C^{b} 형태의 지수를 피팅하였고, **a=0.49a=0.49b=0.51b=0.51**임을 발견하였다 (Table 2에 요약).

3.3. Approach 3: Fitting a parametric loss function

마지막으로, 우리는 접근 방식 1 & 2의 모든 최종 손실(final loss)을 모델 파라미터 수와 학습된 토큰 수의 파라미터 함수로 모델링한다. 고전적인 위험 분해(risk decomposition)(Section D.2 참조)에 따라, 우리는 다음과 같은 함수 형태를 제안한다:

L^(N,D)E+ANα+BDβ.\hat{L}(N, D) \triangleq E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}} .

첫 번째 항은 데이터 분포에 대한 이상적인 생성 프로세스의 손실을 나타내며, 자연어 텍스트의 엔트로피에 해당해야 한다. 두 번째 항은 NN개의 파라미터를 가진 완벽하게 학습된 Transformer가 이상적인 생성 프로세스보다 성능이 떨어진다는 사실을 포착한다. 마지막 항은 Transformer가 수렴할 때까지 학습되지 않았다는 사실을 포착하는데, 이는 우리가 데이터셋 분포의 샘플에 대해 유한한 수의 최적화 단계만 수행하기 때문이다.

모델 피팅 (Model fitting)
(A,B,E,α,β)(A, B, E, \alpha, \beta)를 추정하기 위해, 우리는 예측된 로그 손실과 관측된 로그 손실 간의 Huber loss (Huber, 1964)를 L-BFGS 알고리즘 (Nocedal, 1980)을 사용하여 최소화한다:

minA,B,E,α,βRuns iHuberδ(logL^(Ni,Di)logLi)\min _{A, B, E, \alpha, \beta} \sum_{\text {Runs } i} \operatorname{Huber}_{\delta}\left(\log \hat{L}\left(N_{i}, D_{i}\right)-\log L_{i}\right)

우리는 초기화 그리드에서 가장 적합한 값을 선택하여 가능한 지역 최솟값(local minima)을 고려한다. Huber loss (δ=103\delta=10^{-3})는 이상치(outlier)에 강건하며, 이는 held-out 데이터 포인트에 대한 우수한 예측 성능에 중요하다고 판단된다. Section D.2는 피팅 절차와 손실 분해에 대해 자세히 설명한다.

Figure 4 | 파라미터 피팅 (Parametric fit).
우리는 손실 L^(N,D)\hat{L}(N, D)의 파라미터 모델링을 피팅하고, 등고선(contour) (왼쪽) 및 isoFLOP 슬라이스(slice) (오른쪽)를 표시한다. 각 isoFLOP 슬라이스에 대해 왼쪽 그래프에 해당 점선이 포함되어 있다. 왼쪽 그래프에서는 효율적인 프론티어(efficient frontier)를 파란색으로 표시하는데, 이는 로그-로그 공간에서 직선이다. 구체적으로, 이 곡선은 가장 적은 FLOPs를 가진 지점에서 각 iso-loss 등고선을 통과한다. Gopher FLOP 예산을 고려할 때 최적의 모델 크기는 40B 파라미터로 예상된다.

효율적인 프론티어 (Efficient frontier)
우리는 FLOPs(N,D)6ND\operatorname{FLOPs}(N, D) \approx 6 N D (Kaplan et al., 2020) 제약 조건 하에서 파라미터 손실 L^\hat{L}을 최소화함으로써 함수 Nopt N_{\text {opt }}Dopt D_{\text {opt }}를 근사할 수 있다. 결과적으로 얻어지는 Nopt N_{\text {opt }}Dopt D_{\text {opt }}모델 크기와 데이터에 의존하는 Equation (3)의 두 항 사이의 균형을 맞춘다. 구성상, 이들은 멱법칙(power-law) 형태를 가진다:

Nopt (C)=G(C6)a,Dopt (C)=G1(C6)b, where G=(αAβB)1α+β,a=βα+β, and b=αα+β.N_{\text {opt }}(C)=G\left(\frac{C}{6}\right)^{a}, \quad D_{\text {opt }}(C)=G^{-1}\left(\frac{C}{6}\right)^{b}, \quad \text { where } \quad G=\left(\frac{\alpha A}{\beta B}\right)^{\frac{1}{\alpha+\beta}}, \quad a=\frac{\beta}{\alpha+\beta}, \text { and } b=\frac{\alpha}{\alpha+\beta} .

Figure 4 (왼쪽)에서 피팅된 함수 L^\hat{L}의 등고선과 **파란색으로 표시된 닫힌 형태의 효율적인 계산 프론티어(efficient computational frontier)**를 보여준다. 이 접근 방식을 통해 우리는 a=0.46a=0.46b=0.54b=0.54임을 확인했으며, 이는 Table 2에 요약되어 있다.

3.4. Optimal model scaling

우리는 세 가지 접근 방식이 서로 다른 fitting 방법론과 학습된 모델을 사용함에도 불구하고, FLOPs에 따른 파라미터 및 토큰의 최적 스케일링에 대해 유사한 예측을 제공한다는 것을 발견했다 (Table 2 참조). 세 가지 접근 방식 모두 계산 예산(compute budget)이 증가함에 따라 모델 크기와 학습 데이터 양이 거의 동일한 비율로 증가해야 한다고 제안한다. 첫 번째와 두 번째 접근 방식은 Figure 1과 Figure A3에서 보여지듯이 최적 모델 크기에 대해 매우 유사한 예측을 제공한다. 세 번째 접근 방식은 더 큰 계산 예산에서 더 작은 모델이 최적일 것이라고 예측한다.
우리는 낮은 학습 FLOPs(C1e21C \leqslant 1e21)를 가진 관측점(L,N,DL, N, D)이 더 높은 계산 예산을 가진 점들보다 더 큰 잔차(residuals) LL^(N,D)22\|L-\hat{L}(N, D)\|_{2}^{2}를 가진다는 점에 주목한다. fitted 모델은 더 많은 FLOPs를 가진 점들에 더 큰 가중치를 부여하며, Huber loss로 인해 낮은 계산 예산 점들을 자동으로 이상치(outliers)로 간주한다. frontier CNopt C \rightarrow N_{\text {opt }}에서 관찰된 **음의 곡률(negative curvature)**의 결과로 (Appendix E 참조), 이는 다른 두 접근 방식보다 더 낮은 NoptN_{\text {opt}}를 예측하게 된다.

Table 3에서는 주어진 크기의 모델이 계산 최적(compute-optimal) frontier에 놓이도록 보장하는 데 필요한 FLOPs 및 토큰의 추정치를 보여준다. 우리의 연구 결과는 Figure 1에서 보여지듯이, 현재 세대의 대규모 언어 모델(LLM)이 각자의 계산 예산에 비해 상당히 과도하게 커져 있다는 것을 시사한다. 예를 들어, 우리는 1,750억 개의 파라미터를 가진 모델은 4.41×10244.41 \times 10^{24} FLOPs의 계산 예산과 4.2조 개 이상의 토큰으로 학습되어야 한다는 것을 발견했다. 약 102510^{25} FLOPs의 계산 예산이 주어진다면, 2,800억 개의 파라미터를 가진 Gopher와 유사한 모델이 최적의 모델이며, 6.8조 개의 토큰으로 학습되어야 한다. 102610^{26} FLOPs(Gopher 학습에 사용된 계산량의 250배 이상)의 계산 예산이 없다면, 1조 개의 파라미터를 가진 모델은 최적의 모델이 아닐 가능성이 높다. 더욱이, 필요하다고 예측되는 학습 데이터의 양은 현재 대규모 모델을 학습하는 데 사용되는 양을 훨씬 초과하며, 이는 모델 규모 확장을 가능하게 하는 엔지니어링 개선 외에도 데이터셋 수집의 중요성을 강조한다. 여러 자릿수만큼 외삽(extrapolating)하는 데 상당한 불확실성이 있지만, 우리의 분석은 현재 많은 LLM의 학습 계산 예산을 고려할 때, 가장 성능이 좋은 모델을 달성하기 위해서는 더 작은 모델을 더 많은 토큰으로 학습했어야 한다는 것을 명확히 시사한다.

Table 2 | 학습 계산량 증가에 따른 파라미터 및 데이터 스케일링 추정치. 표에 나열된 값은 Nopt CaN_{\text {opt }} \propto C^{a}Dopt CbD_{\text {opt }} \propto C^{b} 관계에서 지수 aabb이다. 우리의 분석은 계산량 증가에 따라 파라미터와 데이터가 거의 동일하게 스케일링되어야 한다는 것을 시사하며, 이는 대규모 모델의 스케일링에 대한 이전 연구와는 확연히 대조된다. 10번째 및 90번째 백분위수는 부트스트래핑 데이터(데이터셋의 80%를 100번 샘플링)를 통해 추정되었으며 괄호 안에 표시된다.

ApproachCoeff. aa where Nopt CaN_{\text {opt }} \propto C^{a}Coeff. bb where Dopt CbD_{\text {opt }} \propto C^{b}
1. Minimum over training curves0.50 (0.488, 0.502)0.50 (0.501, 0.512)
2. IsoFLOP profiles0.49 (0.462, 0.534)0.51 (0.483, 0.529)
3. Parametric modelling of the loss0.46 (0.454, 0.455)0.54 (0.542, 0.543)
Kaplan et al. (2020)0.730.27

Table 3 | 다양한 모델 크기에 대한 추정된 최적 학습 FLOPs 및 학습 토큰 수. 다양한 모델 크기에 대해, 접근 방식 1을 통해 계산 최적 모델을 학습하는 데 필요한 FLOPs 및 학습 토큰 수의 예측치를 보여준다. 접근 방식 2 및 3에 대한 추정치도 유사하다 (Section D.3 참조).

ParametersFLOPsFLOPs (in Gopher unit)Tokens
400 Million1.92e+191.92 \mathrm{e}+191/29, 9688.0 Billion
1 Billion1.21e+201.21 \mathrm{e}+201/4, 76120.2 Billion
10 Billion1.23e+221.23 \mathrm{e}+221/46205.1 Billion
67 Billion5.76e+235.76 \mathrm{e}+2311.5 Trillion
175 Billion3.85e+243.85 \mathrm{e}+246.73.7 Trillion
280 Billion9.90e+249.90 \mathrm{e}+2417.25.9 Trillion
520 Billion3.43e+253.43 \mathrm{e}+2559.511.0 Trillion
1 Trillion1.27e+261.27 \mathrm{e}+26221.321.2 Trillion
10 Trillion1.30e+281.30 \mathrm{e}+2822515.9216.2 Trillion

Appendix C에서는 두 가지 추가 데이터셋인 C4 (Raffel et al., 2020a)와 GitHub 코드 (Rae et al., 2021)에 대해 IsoFLOP 분석을 재현한다. 두 경우 모두 모델 크기와 학습 토큰 수가 동일한 비율로 스케일링되어야 한다는 유사한 결론에 도달한다.

4. Chinchilla

Section 3의 분석에 따르면, Gopher의 compute budget에 대한 최적 모델 크기는 400억에서 700억 파라미터 사이이다. 우리는 이 가설을 검증하기 위해, 데이터셋 및 연산 효율성을 고려하여 이 범위의 상단에 해당하는 700억 파라미터 모델을 1.4T 토큰으로 학습시켰다. 이 모델을 Chinchilla라고 부르며, 본 섹션에서는 이 모델을 Gopher 및 다른 LLM들과 비교한다. Chinchilla와 Gopher는 동일한 FLOPs로 학습되었지만, 모델 크기와 학습 토큰 수에서 차이가 있다.

대규모 language model을 사전학습하는 데 상당한 compute cost가 들지만, 다운스트림 fine-tuning과 inference 또한 상당한 compute 사용량을 차지한다 (Rae et al., 2021). Chinchilla는 Gopher보다 4배 작기 때문에, 메모리 사용량과 inference 비용 또한 더 적다.

4.1. Model and training details

Chinchilla 학습에 사용된 전체 하이퍼파라미터는 Table 4에 제시되어 있다. Chinchilla는 아래에 명시된 차이점을 제외하고는 Gopher와 동일한 모델 아키텍처 및 학습 설정을 사용한다.

  • 우리는 Chinchilla를 MassiveText (Gopher와 동일한 데이터셋)로 학습시켰지만, 학습 토큰 수 증가를 고려하여 약간 다른 subset 분포를 사용한다 (Table A1 참조).
  • Chinchilla에는 Adam (Kingma and Ba, 2014) 대신 AdamW (Loshchilov and Hutter, 2019)를 사용했는데, 이는 language modelling loss와 fine-tuning 후의 다운스트림 task 성능을 향상시킨다.
  • Chinchilla는 NFKC 정규화를 적용하지 않는 약간 수정된 SentencePiece (Kudo and Richardson, 2018) tokenizer로 학습되었다. 어휘는 매우 유사하며, 토큰의 94.15%가 Gopher 학습에 사용된 토큰과 동일하다. 우리는 이 방식이 특히 수학 및 화학 표현에 도움이 된다는 것을 발견했다.
  • forward 및 backward pass는 bfloat16으로 계산되지만, 분산 옵티마이저 상태(distributed optimiser state)에는 float32 가중치 사본을 저장한다 (Rajbhandari et al., 2020). 추가적인 세부 사항은 Rae et al. (2021)의 "Lessons Learned"를 참조하라.

Appendix G에서는 Chinchilla와 Gopher 간의 다양한 옵티마이저 관련 변경 사항이 미치는 영향을 보여준다. 이 분석의 모든 모델은 JAX (Bradbury et al., 2018) 및 Haiku (Hennigan et al., 2020)를 사용하여 TPUv3/TPUv4 (Jouppi et al., 2017)에서 학습되었다. Chinchilla 모델 카드 (Mitchell et al., 2019)는 Table A8에 포함되어 있다.

ModelLayersNumber HeadsKey/Value Sizedmodel \mathbf{d}_{\text {model }}Max LRBatch Size
Gopher 280B8012812816,3844×1054 \times 10^{-5}3M6M3 \mathrm{M} \rightarrow 6 \mathrm{M}
Chinchilla 70B80641288,1921×1041 \times 10^{-4}1.5M3M1.5 \mathrm{M} \rightarrow 3 \mathrm{M}

Table 4: Chinchilla 아키텍처 세부 정보.
layer 수, key/value 크기, bottleneck activation 크기 dmodel\mathrm{d}_{\text {model}}, 최대 learning rate, 그리고 학습 batch size (토큰 수)를 나열한다. feed-forward 크기는 항상 4×dmodel4 \times \mathrm{d}_{\text {model}}로 설정된다. Chinchilla와 Gopher 모두 학습 중간에 batch size를 두 배로 늘린다.

# TasksExamples
Language Modelling20WikiText-103, The Pile: PG-19, arXiv, FreeLaw, . . .
Reading Comprehension3RACE-m, RACE-h, LAMBADA
Question Answering3Natural Questions, TriviaQA, TruthfulQA
Common Sense5HellaSwag, Winogrande, PIQA, SIQA, BoolQ
MMLU57High School Chemistry, Astronomy, Clinical Knowledge, . . .
BIG-bench62Causal Judgement, Epistemic Reasoning, Temporal Sequences, . . .

Table 5: 모든 평가 task.
우리는 Chinchilla를 language modelling 및 다운스트림 task 모음에 대해 평가한다. 직접적인 비교를 위해 Rae et al. (2021)과 거의 동일한 task로 평가를 수행한다.

4.2. Results

우리는 Chinchilla에 대한 광범위한 평가를 수행하며, 다양한 대규모 language model들과 비교한다. 평가는 **Rae et al. (2021)에 제시된 task들의 큰 부분집합(Table 5 참조)**에 대해 이루어졌다. 본 연구의 초점이 최적의 모델 스케일링에 맞춰져 있기 때문에, 우리는 대표성이 높은 큰 부분집합을 포함시켰고, 다른 기존 대규모 모델들과의 더 나은 비교를 위해 몇 가지 새로운 평가를 도입하였다. 모든 task에 대한 평가 세부 사항은 Rae et al. (2021)에 설명된 것과 동일하다.

4.2.1. Language modelling

Figure 5 | Pile 평가. The Pile (Gao et al., 2020)의 다양한 평가 세트에 대해, Gopher와 비교한 Chinchilla의 bits-per-byte (bpb) 개선(감소)을 보여준다. 모든 하위 세트에서 Chinchilla는 Gopher를 능가한다.

Figure 5에서 볼 수 있듯이, Chinchilla는 The Pile (Gao et al., 2020)의 모든 평가 하위 세트에서 Gopher를 크게 능가한다. Jurassic-1 (178B) Lieber et al. (2021)과 비교했을 때, Chinchilla는 dm_mathematics와 ubuntu_irc 두 하위 세트를 제외한 모든 하위 세트에서 더 나은 성능을 보인다. 원시 bits-per-byte 비교는 Table A5를 참조하라. Wikitext103 (Merity et al., 2017)에서 Chinchilla는 7.16의 perplexity를 달성했으며, Gopher는 7.75를 기록했다. Chinchilla는 Gopher보다 4배 더 많은 데이터로 학습되었으므로, 이러한 language modelling 벤치마크에서 Chinchilla와 Gopher를 비교할 때는 train/test set leakage가 인위적으로 결과를 향상시킬 수 있다는 점에 주의해야 한다. 따라서 우리는 leakage 문제가 덜한 다른 task들, 예를 들어 MMLU (Hendrycks et al., 2020)와 BIG-bench (BIG-bench collaboration, 2021), 그리고 다양한 closed-book question answering 및 common sense 분석에 더 중점을 둔다.

Random25.0%25.0 \%
Average human rater34.5%34.5 \%
GPT-3 5-shot43.9%43.9 \%
Gopher 5-shot60.0%60.0 \%
Chinchilla 5-shot67.6%67.6 \%
Average human expert performance89.8%89.8 \%
June 2022 Forecast57.1%57.1 \%
June 2023 Forecast63.4%63.4 \%

Table 6 | Massive Multitask Language Understanding (MMLU). Hendrycks et al. (2020)에서 가져온 모델 및 인간 정확도 비교와 함께 57개 task에 대한 평균 5-shot 정확도를 보고한다. 또한 Steinhardt (2021)에서 73명의 경쟁력 있는 인간 예측가들이 2022년 6월/2023년 6월에 예측한 state of the art 정확도의 평균 예측치도 포함한다.

4.2.2. MMLU

Massive Multitask Language Understanding (MMLU) 벤치마크 (Hendrycks et al., 2020)는 학술 주제에 대한 시험과 유사한 다양한 질문들로 구성되어 있다. Table 6에서 우리는 Chinchilla의 MMLU 5-shot 평균 성능을 보고한다 (전체 결과는 Table A6에 제시되어 있다). 이 벤치마크에서 Chinchilla는 Gopher보다 훨씬 작음에도 불구하고 **평균 정확도 67.6%**를 달성하며 Gopher를 크게 능가한다 (Gopher 대비 7.6% 향상). 놀랍게도 Chinchilla는 2023년 6월 전문가 예측치인 63.4% 정확도마저 뛰어넘는다 (Table 6 참조) (Steinhardt, 2021). 또한 Chinchilla는 high_school_gov_and_politics, international_law, sociology, us_foreign_policy의 4개 개별 task에서 90% 이상의 정확도를 달성했다. 우리가 아는 한, 어떤 다른 모델도 특정 subset에서 90% 이상의 정확도를 달성한 적이 없다.

Figure 6에서는 task별로 Gopher와 Chinchilla의 성능을 비교하여 보여준다. 전반적으로 Chinchilla는 대부분의 task에서 성능 향상을 보인다. 4개의 task (college_mathematics, econometrics, moral_scenarios, formal_logic)에서는 Chinchilla가 Gopher보다 낮은 성능을 보였으며, 2개의 task에서는 성능 변화가 없었다.

4.2.3. Reading comprehension

최종 단어 예측 데이터셋인 LAMBADA (Paperno et al., 2016)에서 Chinchilla는 77.4%의 정확도를 달성했으며, 이는 Gopher의 74.5% 및 **MT-NLG 530B의 76.6%**와 비교된다 (Table 7 참조). RACE-hRACE-m (Lai et al., 2017)에서는 Chinchilla가 Gopher를 크게 능가하며, 두 경우 모두 정확도를 10% 이상 향상시켰다 (Table 7 참조).

4.2.4. BIG-bench

우리는 Rae et al. (2021)에서 보고된 것과 동일한 BIG-bench task 세트(BIG-bench collaboration, 2021)에 대해 Chinchilla를 분석했다. MMLU에서 관찰한 것과 유사하게, Chinchilla는 대다수의 task에서 Gopher를 능가하는 성능을 보인다 (Figure 7 참조). 우리는 Chinchilla가 평균 성능을 10.7% 향상시켜 65.1%의 정확도를 달성했으며, 이는 Gopher의 54.4%보다 높은 수치임을 확인했다. 우리가 고려한 62개 task 중 Chinchilla가 Gopher보다 성능이 낮은 task는 crash_blossom, dark_humor_detection,

Figure 6 | Gopher와 비교한 MMLU 결과. Chinchilla는 평균 7.6% 더 나은 성능을 보였으며 (Table 6 참조), 57개 개별 task 중 51개에서 더 우수하고, 2개에서 동일하며, 단 4개 task에서만 Gopher보다 낮은 성능을 보였다.

ChinchillaGopherGPT-3MT-NLG 530B
LAMBADA Zero-Shot77.474.576.276.6
RACE-m Few-Shot86.8\mathbf{86 . 8}75.158.1-
RACE-h Few-Shot82.3\mathbf{82 . 3}71.646.847.9

Table 7 | 독해력 (Reading comprehension). RACE-h 및 RACE-m (Lai et al., 2017)에서 Chinchilla는 Gopher보다 상당히 향상된 성능을 보인다. GPT-3 및 MT-NLG 530B는 RACE-h/m에서 우리가 사용한 것과 다른 prompt 형식을 사용하므로, Gopher 및 Chinchilla와 직접적인 결과 비교는 어렵다. LAMBADA (Paperno et al., 2016)에서는 Chinchilla가 Gopher와 MT-NLG 530B 모두를 능가한다.

mathematical_induction, logical_args의 네 가지뿐이다. Chinchilla의 전체 정확도 결과는 Table A7에서 확인할 수 있다.

4.2.5. Common sense

우리는 Chinchilla를 다양한 상식(common sense) 벤치마크에서 평가하였다: PIQA (Bisk et al., 2020), SIQA (Sap et al., 2019), Winogrande (Sakaguchi et al., 2020), HellaSwag (Zellers et al., 2019), 그리고 BoolQ (Clark et al., 2019). 그 결과, Chinchilla는 모든 task에서 Gopher와 GPT-3를 능가했으며, MT-NLG 530B에 대해서는 한 task를 제외하고 모두 더 나은 성능을 보였다 (Table 8 참조).

TruthfulQA (Lin et al., 2021) 벤치마크에서 Chinchilla는 0-shot, 5-shot, 10-shot 설정에서 각각 43.6%, 58.5%, 66.7%의 정확도를 달성했다. 이에 비해 Gopher는 0-shot에서 29.5%, 10-shot에서 43.7%의 정확도만을 기록했다. Lin et al. (2021)의 연구 결과와는 대조적으로, Chinchilla가 달성한 **큰 폭의 성능 향상 (0-shot 정확도에서 14.1% 증가)**은 사전학습 데이터의 모델링을 개선하는 것만으로도 이 벤치마크에서 상당한 성능 향상을 이끌어낼 수 있음을 시사한다.

Figure 7 | BIG-bench 결과와 Gopher 비교
Chinchilla는 고려된 BIG-bench task 중 4개를 제외한 모든 task에서 Gopher를 능가한다. 전체 결과는 Table A7에 있다.

4.2.6. Closed-book question answering

Closed-book question answering 벤치마크 결과는 Table 9에 보고되어 있다. **Natural Questions 데이터셋 (Kwiatkowski et al., 2019)**에서 Chinchilla는 새로운 closed-book SOTA 정확도를 달성했다: Gopher의 경우 각각 21%와 28%였던 것에 비해, 5-shot에서 31.5%, **64-shot에서 35.5%**를 기록했다. **TriviaQA (Joshi et al., 2017)**에서는 filtered (이전 검색 및 open-book 연구에서 사용됨)unfiltered (이전 대규모 language model 평가에서 사용됨) 두 가지 세트에 대한 결과를 보여준다. 두 경우 모두 Chinchilla는 Gopher를 상당히 능가한다. filtered 버전에서 Chinchilla는 open book SOTA (Izacard and Grave, 2020)에 비해 단 7.9%만 뒤처진다. unfiltered 세트에서는 Chinchilla가 GPT-3를 능가한다 (Table 9 참조).

4.2.7. Gender bias and toxicity

Large Language Model은 공격적인 언어 출력, 사회적 편향 전파, 개인 정보 유출과 같은 잠재적 위험을 내포하고 있다 (Bender et al., 2021; Weidinger et al., 2021). Chinchilla는 Gopher와 동일한 데이터로 학습되었고(다만 상대적 가중치는 약간 다름), 유사한 아키텍처를 가지고 있기 때문에 Gopher와 유사한 위험을 가질 것으로 예상된다. 본 연구에서는 **성별 편향(특히 성별 및 직업 편향)**과 유해 언어 생성에 대해 살펴본다. 잠재적인 문제점을 강조하기 위해 몇 가지 일반적인 평가를 선택했지만, 우리의 평가가 포괄적이지 않으며 LLM의 위험을 이해, 평가 및 완화하기 위한 많은 연구가 남아있음을 강조한다.

ChinchillaGopherGPT-3MT-NLG 530BSupervised SOTA
HellaSWAG80.8%79.2%78.9%80.2%93.9%
PIQA81.8%81.8%81.0%82.0%90.1%
Winogrande74.9%70.1%70.2%73.0%91.3%
SIQA51.3%50.6%--83.2%
BoolQ83.7%79.3%60.5%78.2%91.4%

Table 8 | Common Sense 벤치마크에 대한 Zero-shot 비교. Chinchilla, Gopher, MT-NLG 530B 간의 다양한 Common Sense 벤치마크에 대한 비교를 보여준다. Chinchilla는 모든 task에서 Gopher 및 GPT-3와 같거나 더 나은 성능을 보인다. 단 한 가지를 제외하고 모든 task에서 Chinchilla는 훨씬 더 큰 MT-NLG 530B 모델보다 더 나은 성능을 보인다.

MethodChinchillaGopherGPT-3SOTA (open book)
0-shot16.6%10.1%14.6%
Natural Questions (dev)5-shot31.5%24.5%-54.4%
64-shot35.5%28.2%29.9%
TriviaQA (unfiltered, test)0-shot67.0%52.8%64.3 %
5-shot73.2%63.6%--
64-shot72.3%61.3%71.2%
TriviaQA (filtered, dev)0-shot55.4%43.5%-
5-shot64.1%57.0%-72.5%
64-shot64.6%57.2%-

Table 9 | Closed-book 질문 응답. Natural Questions (Kwiatkowski et al., 2019) 및 TriviaQA (Joshi et al., 2017)에서 Chinchilla는 모든 경우에 Gopher보다 더 나은 성능을 보인다. Natural Questions에서 Chinchilla는 GPT-3보다 더 나은 성능을 보인다. TriviaQA에서는 GPT-3 및 open book SOTA (FiD + Distillation (Izacard and Grave, 2020))와 비교하기 위해 두 가지 다른 평가 세트에 대한 결과를 보여준다.

성별 편향 (Gender bias). Rae et al. (2021)에서 논의된 바와 같이, 대형 언어 모델은 학습 데이터셋에서 얻은 다양한 그룹(예: 성별 그룹)에 대한 현대적 및 역사적 담론을 반영하며, Chinchilla도 마찬가지일 것으로 예상된다. 본 연구에서는 zero-shot 설정에서 Winogender 데이터셋 (Rudinger et al., 2018)을 사용하여 잠재적인 성별 및 직업 편향이 공동 참조 해결(coreference resolution)에서 불공정한 결과로 나타나는지 테스트한다. Winogender는 모델이 대명사가 다른 직업 단어를 참조하는지 정확하게 판단할 수 있는지 테스트한다. 편향되지 않은 모델은 대명사의 성별에 관계없이 대명사가 어떤 단어를 참조하는지 정확하게 예측할 것이다. 우리는 Rae et al. (2021)과 동일한 설정을 따른다 (자세한 내용은 Section H.3 참조).

Table 10에서 보듯이, Chinchilla는 모든 그룹에서 Gopher보다 대명사를 더 자주 정확하게 해결한다. 흥미롭게도, 성능 향상은 남성 대명사(3.2% 증가)보다 여성 또는 중성 대명사(각각 8.3%, 9.2% 증가)에서 상당히 작다. 우리는 또한 정확한 대명사 해결이 성별 고정관념(노동 통계에 의해 결정됨)과 모순되는 gotcha 예시도 고려한다. 다시 말하지만, Chinchilla는 Gopher보다 대명사를 더 정확하게 해결한다. 예시를 남성/여성 성별과 gotcha/not gotcha로 나눌 때, 가장 큰 개선은 여성 gotcha 예시(10% 개선)에서 나타난다. 따라서, Chinchilla는 Gopher보다 더 많은 공동 참조 예시에서 성별 고정관념을 일관되게 극복하지만, 개선율은 일부 대명사에서 다른 대명사보다 높으며, 이는 더 compute-optimal한 모델을 사용함으로써 얻어지는 개선이 고르지 않을 수 있음을 시사한다.

샘플 유해성 (Sample toxicity). 언어 모델은 모욕, 혐오 발언, 욕설, 위협을 포함한 유해한 언어를 생성할 수 있다 (Gehman et al., 2020; Rae et al., 2021). 유해성은 포괄적인 용어이며, LM에서의 평가는 어려움이 따르지만 (Welbl et al., 2021; Xu et al., 2021), 자동 분류기 점수는 LM이 생성하는 유해 텍스트의 수준을 나타내는 지표가 될 수 있다. Rae et al. (2021)은 모델 파라미터 수를 늘려 언어 모델링 손실을 개선하는 것이 유해 텍스트 생성(unprompted)에 미미한 영향만 미친다는 것을 발견했다. 본 연구에서는 더 compute-optimal한 학습을 통해 달성된 더 낮은 LM 손실에 대해서도 동일한 결과가 나타나는지 분석한다. Rae et al. (2021)의 프로토콜과 유사하게, 우리는 Chinchilla에서 25,000개의 unprompted 샘플을 생성하고, 이들의 PerspectiveAPI 유해성 점수 분포를 Gopher가 생성한 샘플과 비교한다. 몇 가지 요약 통계는 큰 차이가 없음을 나타낸다: Gopher의 평균(중앙값) 유해성 점수는 0.081(0.064)인 반면, Chinchilla는 0.087(0.066)이며, 95번째 백분위수 점수는 Gopher가 0.230, Chinchilla가 0.238이다. 즉, 생성된 샘플의 대다수는 비유해성으로 분류되며, 모델 간의 차이는 미미하다. 이전 연구 결과 (Rae et al., 2021)와 일치하게, 이는 무조건적인 텍스트 생성에서의 유해성 수준이 모델 품질(언어 모델링 손실로 측정됨)과 대체로 독립적이라는 것을 시사한다. 즉, 더 나은 학습 데이터셋 모델이 반드시 더 유해한 것은 아니다.

ChinchillaGopherChinchillaGopher
All78.3%71.4%Male gotcha62.5%59.2%
Male71.2%68.0%Male not gotcha80.0%76.7%
Female79.6%71.3%Female gotcha76.7%66.7%
Neutral84.2%75.0%Female not gotcha82.5%75.8%

Table 10 | Winogender 결과. 왼쪽: Chinchilla는 Gopher보다 일관되게 대명사를 더 잘 해결한다. 오른쪽: Chinchilla는 성별 고정관념과 모순되는 예시(gotcha 예시)에서 더 나은 성능을 보인다. 그러나 그룹 간 성능 차이는 Chinchilla가 편향을 나타냄을 시사한다.

5. Discussion & Conclusion

대규모 language model 학습의 현재까지의 추세는 모델 크기를 늘리는 것이었으며, 종종 학습 토큰 수는 늘리지 않았다. 가장 큰 dense Transformer인 MT-NLG 530B는 불과 2년 전 GPT-3의 1,700억 개 파라미터보다 3배 이상 커졌다. 그러나 이 모델뿐만 아니라 기존 대규모 모델의 대부분은 모두 비슷한 수의 토큰(약 3,000억 개)으로 학습되었다. 이러한 메가 모델을 학습시키려는 열망이 상당한 엔지니어링 혁신으로 이어졌지만, 우리는 점점 더 큰 모델을 학습시키려는 경쟁이 동일한 compute budget으로 달성할 수 있는 성능에 비해 모델의 성능을 상당히 저하시키고 있다고 가설을 세웠다.

우리는 400회 이상의 학습 실행 결과를 바탕으로 모델 크기와 학습 기간을 최적으로 설정하기 위한 세 가지 예측 접근 방식을 제안한다. 이 세 가지 접근 방식 모두 Gopher가 상당히 과도하게 커져 있으며, 동일한 compute budget으로 더 많은 데이터로 학습된 더 작은 모델이 더 나은 성능을 보일 것이라고 예측한다. 우리는 70B 파라미터 모델인 Chinchilla를 학습시켜 이 가설을 직접 테스트했으며, 거의 모든 측정된 평가 task에서 Gopher 및 더 큰 모델보다 뛰어난 성능을 보였다.

우리의 방법은 추가 compute가 주어졌을 때 대규모 모델을 어떻게 확장할지에 대한 예측을 가능하게 하지만, 몇 가지 한계점이 있다. 대규모 모델 학습 비용 때문에, 우리는 대규모에서 비교 가능한 학습 실행(Chinchilla와 Gopher)이 두 번뿐이며, 중간 규모에서의 추가 테스트는 없다. 또한, 우리는 효율적인 계산 frontier가 compute budget, 모델 크기, 학습 토큰 수 간의 power-law 관계로 설명될 수 있다고 가정한다. 그러나 우리는 높은 compute budget에서 log(Nopt)\log(N_{opt})에 일부 오목성(concavity)을 관찰한다 (Appendix E 참조). 이는 우리가 대규모 모델의 최적 크기를 여전히 과대평가하고 있을 수 있음을 시사한다. 마지막으로, 우리의 분석을 위한 학습 실행은 모두 1 epoch 미만의 데이터로 학습되었다. 향후 연구에서는 다중 epoch regime을 고려할 수 있다. 이러한 한계점에도 불구하고, Chinchilla와 Gopher의 비교는 우리의 성능 예측을 검증했으며, 이를 통해 동일한 compute budget으로 더 나은(그리고 더 가벼운) 모델을 학습할 수 있었다.

점점 더 큰 모델을 학습할 수 있도록 하는 최근의 상당한 연구가 있었지만, 우리의 분석은 데이터셋 스케일링에 대한 집중이 더 필요함을 시사한다. 추측컨대, 우리는 데이터의 품질이 높을 때만 점점 더 큰 데이터셋으로 확장하는 것이 유익할 것이라고 예상한다. 이는 데이터셋 품질에 높은 초점을 맞춰 더 큰 데이터셋을 책임감 있게 수집할 것을 요구한다. 더 큰 데이터셋은 language modelling loss뿐만 아니라 다운스트림 task에서도 train-test set overlap이 적절하게 고려되도록 추가적인 주의가 필요할 것이다. 마지막으로, 수조 개의 토큰으로 학습하는 것은 많은 윤리적 및 개인 정보 보호 문제를 야기한다. 웹에서 스크랩된 대규모 데이터셋에는 유해한 언어, 편향, 개인 정보가 포함될 것이다. 훨씬 더 큰 데이터셋이 사용됨에 따라, 그러한 정보의 양(빈도는 아닐지라도)이 증가하며, 이는 데이터셋 내성(introspection)을 더욱 중요하게 만든다. Chinchilla는 편향과 유해성 문제를 겪지만, 흥미롭게도 Gopher보다 덜 영향을 받는 것으로 보인다. 대규모 language model의 성능과 유해성이 어떻게 상호작용하는지 더 잘 이해하는 것은 중요한 미래 연구 질문이다.

우리는 우리의 방법론을 autoregressive language model 학습에 적용했지만, 다른 modality에서도 모델 크기와 데이터 양 사이에 유사한 trade-off가 있을 것으로 예상한다. 대규모 모델 학습은 매우 비싸기 때문에, 최적의 모델 크기와 학습 단계를 미리 선택하는 것이 필수적이다. 우리가 제안하는 방법은 새로운 설정에서도 쉽게 재현할 수 있다.

6. Acknowledgements

원고에 대한 유용한 의견을 주신 Jean-baptiste Alayrac, Kareem Ayoub, Chris Dyer, Nando de Freitas, Demis Hassabis, Geoffrey Irving, Koray Kavukcuoglu, Nate Kushman, Angeliki Lazaridou께 감사드린다. 유익한 논의를 해주신 Andy Brock, Irina Higgins, Michela Paganini, Francis Song 및 DeepMind의 다른 동료들에게도 감사드린다. 또한 JAX 및 XLA 팀의 지원과 도움에 깊이 감사드린다.

Appendix

A. Training dataset

Table A1에서는 Chinchilla 및 모든 scaling run에 사용된 학습 데이터셋 구성을 보여준다. MassiveWeb과 Wikipedia subset은 모두 한 epoch 이상 사용되었다는 점에 유의하라.

Disk SizeDocumentsSampling proportionEpochs in 1.4T tokens
MassiveWeb1.9 TB604 M45% (48%)1.24
Books2.1 TB4M30% (27%)0.75
C40.75 TB361 M10% (10%)0.77
News2.7 TB1.1 B10% (10%)0.21
GitHub3.1 TB142M4% (3%)0.13
Wikipedia0.001 TB6M1% (2%)3.40

Table A1: MassiveText 데이터 구성.
MassiveText의 각 subset에 대해, 총 디스크 크기, 문서 수, 그리고 학습 중 사용된 샘플링 비율을 나열하였다. (괄호 안에는 Rae et al. (2021)에서 사용된 분포와 약간 다른 분포를 사용했음을 표시). 가장 오른쪽 열에는 1.4조 개의 토큰에서 사용된 epoch 수를 보여준다.

B. Optimal cosine cycle length

코사인 주기 길이(cosine cycle length)와 그에 상응하는 learning rate 감소(Rae et al. (2021)에 따라 10×10 \times learning rate decay를 사용)에 대한 핵심적인 가정이 존재한다. 우리는 Figure A1에서 보여주듯이, 코사인 주기 길이를 목표 학습 스텝 수보다 너무 길게 설정하면 최적화되지 않은 모델이 학습된다는 것을 발견했다. 결과적으로, 우리는 최적으로 학습된 모델은 주어진 FLOP 예산 내에서 코사인 주기 길이가 최대 스텝 수에 정확히 맞춰져야 한다고 가정한다. 본 분석에서는 이 규칙을 따른다.

C. Consistency of scaling results across datasets

우리는 두 가지 다른 데이터셋(C4 (Raffel et al., 2020b) 및 GitHub 코드 (Rae et al. (2021)의 데이터 사용))으로 학습한 후, IsoFLOP (접근 방식 2) 분석을 통한 스케일링 결과를 Table A2에 제시한다. MassiveText의 서브셋을 사용한 두 실험 세트 모두에서, 우리는 MassiveText 실험과 동일한 tokenizer를 사용한다.

Figure A2와 Table A2에서 볼 수 있듯이, 이들 데이터셋에서의 스케일링 동작은 MassiveText에서 발견한 것과 매우 유사하다. 이는 한 epoch 이상 학습하지 않는 한, 우리의 결과가 데이터셋에 독립적임을 시사한다.

Figure A1 | 코사인 주기 길이(cosine cycle length)에 대한 그리드. 코사인 주기 길이를 목표 학습 스텝 수보다 1, 1.1, 1.25, 1.5, 2, 5배 길게 설정한 6개의 곡선을 보여준다. 코사인 주기 길이가 너무 길어 학습률이 적절히 감소하지 않으면 성능이 저하된다. 학습 스텝 수를 25% 이상 과대평가하면 성능이 명확히 저하됨을 확인했다. 학습 스텝 수를 두 가지 다른 값(상단 및 하단)으로 설정한 결과를 보여준다.

Figure A2 | C4 및 GitHub IsoFLOP 곡선. C4 데이터셋 (Raffel et al., 2020b)과 GitHub 데이터셋 (Rae et al., 2021)을 사용하여, Figure 3에서와 같이 4개의 IsoFLOP 프로파일을 생성하고 파라미터 및 토큰 수 스케일링을 보여준다. 스케일링 계수는 Table A2에 제시되어 있다.

ApproachCoef. aa where Nopt CaN_{\text {opt }} \propto C^{a}Coef. bb where Dopt CbD_{\text {opt }} \propto C^{b}
C40.500.50
GitHub0.530.47
Kaplan et al. (2020)0.730.27

Table A2 | 두 가지 대체 데이터셋에서 학습 연산량 증가에 따른 추정된 파라미터 및 데이터 스케일링. 표에 나열된 값은 관계식 Nopt CaN_{\text {opt }} \propto C^{a}Dopt CbD_{\text {opt }} \propto C^{b}의 지수 aabb이다. IsoFLOP 프로파일을 사용하여 두 가지 다른 데이터셋에서의 스케일링을 추정한다.

D. Details on the scaling analyses

D.1. Approach 1: Fixing model sizes and varying training sequences

우리는 가장 작은 모델에는 최대 2×1042 \times 10^{-4}의 learning rate를, 가장 큰 모델에는 1.25×1041.25 \times 10^{-4}의 learning rate를 사용한다. 모든 경우에 cosine schedule을 사용하여 학습 중 learning rate가 10배 감소하도록 설정한다. 우리는 cosine cycle의 길이가 학습 step 수와 대략적으로 일치해야 한다는 가정을 세웠다. cosine cycle이 학습 step 수를 25% 이상 초과할 경우 성능이 현저히 저하됨을 발견했다 (Figure A1 참조). 학습 곡선을 부드럽게 하기 위해 10 step 길이의 Gaussian smoothing을 사용한다.

D.2. Approach 3: Parametric fitting of the loss

이 섹션에서는 먼저 Equation (2)가 어떻게 도출될 수 있는지 보여준다. 명확성을 위해 해당 방정식을 아래에 다시 제시한다.

L^(N,D)E+ANα+BDβ,\hat{L}(N, D) \triangleq E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}},

이는 함수 근사(function approximation) 항과 최적화 비최적성(optimisation suboptimality) 항 간의 기대 위험(expected risk) 분해에 기반한다. 이어서 파라미터 fitting을 위한 최적화 절차에 대한 세부 정보를 제공한다.

손실 분해 (Loss decomposition)
형식적으로, 우리는 최대 시퀀스 길이 smaxs_{\max}까지 ss가 변하는 시퀀스 xYsx \in \mathcal{Y}^{s}를 기반으로 다음 토큰 yYy \in \mathscr{Y}를 예측하는 task를 고려한다. 우리는 Y\mathcal{Y}의 토큰과 그 과거(past)가 X\mathcal{X}에 있는 분포 PD(X×Y)P \in \mathcal{D}(\mathcal{X} \times \mathcal{Y})를 고려한다. 예측기 f:XD(Y)f: \mathcal{X} \rightarrow \mathcal{D}(\mathcal{Y})는 과거 시퀀스가 주어졌을 때 각 토큰의 확률을 계산한다. Bayes classifier ff^{\star}는 관측된 토큰 yy에 대한 f(x)f(x)의 cross-entropy를 최소화하며, 기대값은 전체 데이터 분포에 대해 취해진다. 우리는 LL을 기대 위험(expected risk)이라고 정의한다.

L(f)E[logf(x)y], and set fargminfF(X,D(Y))L(f).L(f) \triangleq \mathbb{E}\left[\log f(x)_{y}\right], \quad \text { and set } \quad f^{\star} \triangleq \underset{f \in \mathcal{F}(\mathcal{X}, \mathcal{D}(\mathcal{Y}))}{\operatorname{argmin}} L(f) .

크기 NN의 모든 Transformer 집합을 HN\mathcal{H}_{N}이라고 할 때, 이는 시퀀스를 토큰 분포 XD(Y)\mathcal{X} \rightarrow \mathcal{D}(\mathcal{Y})로 매핑하는 모든 함수의 부분 집합을 형성한다. 크기 NN의 Transformer를 기대 위험 L(f)L(f)에 fitting하는 것은 제한된 함수 공간에서 해당 위험을 최소화하는 것과 같다.

fNargminfHNL(f).f_{N} \triangleq \underset{f \in \mathcal{H}_{N}}{\operatorname{argmin}} L(f) .

크기 DD의 데이터셋 (xi,yi)i[1,D]\left(x_{i}, y_{i}\right)_{i \in[1, D]}을 관측할 때, 우리는 EP\mathbb{E}_{P}에 접근할 수 없지만, 대신 경험적 분포 P^D\hat{P}_{D}에 대한 경험적 기대값 E^D\hat{\mathbb{E}}_{D}에 접근한다.
DD개의 데이터 포인트가 주어지고, 이를 한 번만 볼 수 있으며, 가설 공간의 크기를 NN차원으로 제한할 때 어떤 일이 발생하는가? 우리는 유한 차원 함수 공간 HN\mathcal{H}_{N} 내에서 경험적 위험을 최소화하는 방향으로 나아가고 있다.

L^D(f)E^D[logf(x)y], setting f^N,DargminfHNL^D(f)\hat{L}_{D}(f) \triangleq \hat{\mathbb{E}}_{D}\left[\log f(x)_{y}\right], \quad \text { setting } \quad \hat{f}_{N, D} \triangleq \underset{f \in \mathcal{H}_{N}}{\operatorname{argmin}} \hat{L}_{D}(f)

우리는 일반적으로 크기 DD의 데이터셋에 대해 단일 epoch만 수행하므로 f^N,D\hat{f}_{N, D}를 얻을 수 없다. 대신, 우리는 DD개의 데이터 포인트를 기반으로 특정 수의 gradient step을 적용한 결과인 fˉN,D\bar{f}_{N, D}를 얻는다. (수행할 step 수는 gradient batch size에 따라 달라지며, 이에 대해서는 잘 검증된 휴리스틱을 사용한다.)

Bayes classifier ff^{\star}, 기대 위험 최소화기 fNf_{N}, 그리고 "단일 epoch 경험적 위험 최소화기" fˉN,D\bar{f}_{N, D}를 사용하여, 손실 L(N,D)L(N, D)를 다음과 같이 분해할 수 있다.

L(N,D)L(fˉN,D)=L(f)+(L(fN)L(f))+(L(fˉN,D)L(fN))L(N, D) \triangleq L\left(\bar{f}_{N, D}\right)=L\left(f^{\star}\right)+\left(L\left(f_{N}\right)-L\left(f^{\star}\right)\right)+\left(L\left(\bar{f}_{N, D}\right)-L\left(f_{N}\right)\right)

이 손실은 세 가지 항으로 구성된다:

  • Bayes risk: 전체 분포 PP에서 다음 토큰 예측에 대해 달성 가능한 최소 손실, 즉 "자연어 텍스트의 엔트로피".
  • 함수 근사(functional approximation) 항: 가설 공간의 크기에 따라 달라진다.
  • 확률적 근사(stochastic approximation) 항: LL 대신 L^D\hat{L}_{D}를 최소화하고, 주어진 데이터셋에 대해 단일 epoch만 수행함으로써 발생하는 비최적성을 포착한다.

손실 항의 예상 형태 (Expected forms of the loss terms)
분해 (9)에서 두 번째 항은 함수 근사 공간의 크기를 정의하는 파라미터 수 NN에 전적으로 의존한다. 두 계층 신경망 집합에서는 1N1/2\frac{1}{N^{1 / 2}}에 비례할 것으로 예상된다 (Siegel and Xu, 2020). 마지막으로, 확률적 1차 방법에서 조기 종료(early stopping)에 해당한다는 점을 고려할 때, 세 번째 항은 이러한 방법의 수렴 속도에 비례해야 하며, 이는 1D1/2\frac{1}{D^{1 / 2}}로 하한이 정해진다 (Robbins and Monro, 1951) (그리고 이 하한에 도달할 수도 있다). 이 수렴 속도는 차원 독립적일 것으로 예상되며 (예: Bubeck, 2015 참조), 손실의 부드러움(smoothness)에만 의존한다. 따라서 우리는 두 번째 항이 (2)에서 DD에만 의존한다고 가정한다. 경험적으로, (2)를 fitting한 후 우리는 다음을 발견했다.

L(N,D)=E+AN0.34+BD0.28L(N, D)=E+\frac{A}{N^{0.34}}+\frac{B}{D^{0.28}}

여기서 E=1.69,A=406.4,B=410.7E=1.69, A=406.4, B=410.7이다. 파라미터/데이터 계수가 모두 12\frac{1}{2}보다 낮다는 점에 주목한다. 이는 데이터 효율성 계수에서는 예상되지만 (알려진 하한과는 거리가 멀다), 향후 모델 및 학습 접근 방식은 이러한 계수를 높이기 위해 노력해야 한다.

데이터에 대한 분해 fitting (Fitting the decomposition to data)
우리는 다음 문제를 효과적으로 최소화한다.

mina,b,e,α,βRuniHuberδ(LSE(aαlogNi,bβlogDi,e)logLi),\min _{a, b, e, \alpha, \beta} \sum_{\operatorname{Run} i} \operatorname{Huber}_{\delta}\left(\operatorname{LSE}\left(a-\alpha \log N_{i}, b-\beta \log D_{i}, e\right)-\log L_{i}\right),

여기서 LSELSE는 log-sum-exp 연산자이다. 그런 다음 A,B,E=exp(a),exp(b),exp(e)A, B, E=\exp (a), \exp (b), \exp (e)로 설정한다.
우리는 위 목적 함수의 지역 최솟값을 찾기 위해 LBFGS 알고리즘을 사용했으며, 초기화는 다음 그리드에서 시작했다: α{0.,0.5,,2},β{0.,0.5,,2},e{1.,.5,,1},a{0,5,,25}\alpha \in\{0., 0.5, \ldots, 2\}, \beta \in\{0., 0.5, \ldots, 2\}, e \in\{-1.,-.5, \ldots, 1\}, a \in \{0,5, \ldots, 25\}, 그리고 b{0,5,,25}b \in\{0,5, \ldots, 25\}. 최적의 초기화가 초기화 탐색 범위의 경계에 있지 않음을 발견했다.

Huber loss에 대해 δ=103\delta=10^{-3}을 사용한다. δ\delta 값이 클수록 모델이 작은 연산량(compute) regime에 과적합되고, 더 큰 실행(run)에서 hold-out 데이터를 제대로 예측하지 못하는 경향이 있음을 발견했다. δ\delta10310^{-3}보다 작을 때는 결과 예측에 영향을 미치지 않았다.

D.3. Predicted compute optimal frontier for all three methods

접근 방식 2와 3에 대해, 우리는 다양한 연산 예산(compute budget)에 따른 모델 크기 및 학습 토큰 수 추정치Table A3에 제시한다. 또한, 세 가지 방법에 대한 다양한 FLOP 예산에 따른 예측 토큰 수와 파라미터 수Figure A3에 그래프로 나타냈다.

Approach 2Approach 3
ParametersFLOPsTokensFLOPsTokens
400 Million1.84e+191.84 \mathrm{e}+197.7 Billion2.21e+192.21 \mathrm{e}+199.2 Billion
1 Billion1.20e+201.20 \mathrm{e}+2020.0 Billion1.62e+201.62 \mathrm{e}+2027.1 Billion
10 Billion1.32e+221.32 \mathrm{e}+22219.5 Billion2.46e+222.46 \mathrm{e}+22410.1 Billion
67 Billion6.88e+236.88 \mathrm{e}+231.7 Trillion1.71e+241.71 \mathrm{e}+244.1 Trillion
175 Billion4.54e+244.54 \mathrm{e}+244.3 Trillion1.26e+241.26 \mathrm{e}+2412.0 Trillion
280 Billion1.18e+251.18 \mathrm{e}+257.1 Trillion3.52e+253.52 \mathrm{e}+2520.1 Trillion
520 Billion4.19e+254.19 \mathrm{e}+2513.4 Trillion1.36e+261.36 \mathrm{e}+2643.5 Trillion
1 Trillion1.59e+261.59 \mathrm{e}+2626.5 Trillion5.65e+265.65 \mathrm{e}+2694.1 Trillion
10 Trillion1.75e+281.75 \mathrm{e}+28292.0 Trillion8.55e+288.55 \mathrm{e}+281425.5 Trillion

Table A3 | 다양한 모델 크기에 대한 최적 학습 FLOPs 및 학습 토큰 수 추정치. Table 3와 유사하게, 다양한 연산 예산에 대한 접근 방식 2와 3의 모델 크기/토큰 수 예측치를 보여준다.

Figure A3 | 학습 FLOP 예산에 대한 최적 토큰 수 및 파라미터 수. 고정된 FLOP 예산에 대해, 접근 방식 1, 2, 3이 예측하는 최적 토큰 수와 파라미터 수를 보여준다. 다른 표현 방식은 Figure 1을 참조하라.

D.4. Small-scale comparison to Kaplan et al. (2020)

102110^{21} FLOPs에 대해, 우리는 Approach 1이 예측한 모델과 **Kaplan et al. (2020)**이 예측한 모델을 직접 비교한다. 두 모델 모두 0.5M 토큰의 batch size1.5×1041.5 \times 10^{-4}의 최대 learning rate를 사용하며, learning rate는 10배 감소한다.
**Kaplan et al. (2020)**에 따르면, 최적 모델 크기는 46.8억 개의 파라미터여야 한다. 반면, 우리의 Approach 1에 따르면 28.6억 개의 파라미터 모델이 최적일 것으로 추정된다.
이 가설을 검증하기 위해, 우리는 47.4억 개의 파라미터와 28.0억 개의 파라미터를 가진 Transformer를 학습시켰으며, 가능한 한 많은 교란 요인을 피하기 위해 동일한 depth-to-width ratio를 사용했다.
그 결과, Figure A4에서 볼 수 있듯이, 우리가 예측한 모델이 Kaplan et al. (2020)이 예측한 모델보다 더 우수한 성능을 보였다.

Figure A4 | 102110^{21} FLOPs에서의 Kaplan et al. (2020)과의 비교. 우리는 Approach 1과 **Kaplan et al. (2020)**이 102110^{21} FLOPs에 대해 최적이라고 예측한 28.0억 및 47.4억 파라미터 Transformer를 학습시켰다. 그 결과, 우리의 예측 모델이 학습 종료 시점에 더 나은 성능을 보임을 확인했다.

E. Curvature of the FLOP-loss frontier

모델의 크기가 증가함에 따라 FLOP-minimal loss frontier에 곡률이 나타나는 것을 관찰할 수 있다. 이는 매우 작은 모델에서 예측한 결과가 더 큰 모델에서 예측한 결과와 다를 수 있음을 의미한다. Figure A5에서는 frontier-point의 첫 번째, 중간, 마지막 1/3 지점을 사용하여 선형 적합(linear fit)을 보여준다. 본 연구에서는 이러한 점을 고려하지 않았으며, 이는 더 작은 모델이 대규모 FLOP 예산에 최적일 수 있음을 시사하므로 흥미로운 향후 연구 과제로 남겨둔다.

F. FLOPs computation

우리는 분석에 embedding matrix에 의해 발생하는 FLOP을 포함한 모든 학습 FLOP을 포함한다. 또한, embedding matrix도 전체 파라미터 수에 포함시킨다. 대규모 모델의 경우, embedding matrix의 FLOP 및 파라미터 기여도는 작다. 우리는 곱셈-누적(multiply accumulate) 비용을 설명하기 위해 2의 계수를 사용한다. Forward pass의 경우, 다음 요소들의 기여를 고려한다:

  • Embeddings

    \text { - } 2 \times \text { seq_len } \times \text { vocab_size } \times \text { d_model }
  • Attention (단일 Layer)

    • Key, query 및 value projection: 2×3×2 \times 3 \times seq_len ×\times d_model ×\times (key_size ×\times num_heads)

Figure A5 | 학습 곡선 envelope. 우리는 손실 frontier를 따라 모든 지점의 첫 1/3 (주황색), 중간 1/3 (녹색), 마지막 1/3 (파란색)에 곡선을 맞춘다. 지점의 일부만 표시한다.

*   Key @ Query logits: $2 \times$ seq_len $\times$ seq_len $\times$ (key_size $\times$ num_heads)
*   Softmax: $3 \times$ num_heads $\times$ seq_len $\times$ seq_len
*   Softmax @ query reduction: $2 \times$ seq_len $\times$ seq_len $\times($ key_size $\times$ num_heads)
*   Final Linear: $2 \times$ seq_len $\times$ (key_size $\times$ num_heads) $\times$ d_model
  • Dense Block (단일 Layer)
    • 2×2 \times seq_len ×(\times( d_model ×\times ffw_size + d_model ×\times ffw_size ))
  • Final Logits
    • 2×2 \times seq_len ×\times d_model ×\times vocab_size
  • 총 forward pass FLOPs: embeddings + num_layers ×\times (total_attention + dense_block) + logits

Kaplan et al. (2020)에서와 같이, 우리는 backward passforward pass두 배 FLOP을 가진다고 가정한다. Table A4에서는 우리의 계산과 일반적인 근사치인 C=6DNC=6 D N (Kaplan et al., 2020)을 사용한 계산을 비교한다. 여기서 CC는 FLOPs, DD는 학습 토큰 수, NN은 파라미터 수이다. 우리는 FLOP 계산의 차이가 매우 작으며, 이는 우리의 분석에 영향을 미치지 않음을 발견했다. Rae et al. (2021)에서 제시된 결과와 비교했을 때, 우리는 약간 더

Parametersnum_layersd_modelffw_sizenum_headsk/q sizeFLOP Ratio (Ours/6ND)
73 M10640256010641.03
305M201024409616641.10
552 M2412805120101281.08
1.1 B2617927168141281.04
1.6 B2820488192161281.03
6.8 B40358414336281280.99

Table A4 | FLOP 비교. 다양한 모델 크기에 대해, 우리가 시퀀스당 계산한 FLOP과 6 ND 근사치를 사용한 FLOP의 비율을 보여준다.

정확한 계산을 사용하여 약간 다른 값(6.3×10236.3 \times 10^{23}5.76×10235.76 \times 10^{23})을 얻었다.

G. Other differences between Chinchilla and Gopher

모델 크기 및 학습 토큰 수의 차이 외에도, Chinchilla와 Gopher 사이에는 몇 가지 사소한 추가적인 차이점이 있다. 구체적으로, Gopher는 Adam [Kingma and Ba, 2014]으로 학습된 반면, Chinchilla는 AdamW [Loshchilov and Hutter, 2019]로 학습되었다. 또한, Rae et al. [2021]의 "Lessons Learned"에서 논의된 바와 같이, Chinchilla는 sharded optimizer state에 더 높은 정밀도의 가중치 복사본을 저장했다.

우리는 Adam과 AdamW로 학습된 모델들의 비교를 Figure A6와 Figure A7에서 보여준다. 우리는 learning rate schedule과 무관하게 AdamW로 학습된 모델이 Adam으로 학습된 모델보다 더 나은 성능을 보인다는 것을 발견했다. Figure A6에서는 6억 8천만 개의 파라미터를 가진 모델을 대상으로, 더 높은 정밀도의 가중치 복사본을 사용한 경우와 사용하지 않은 경우, 그리고 Adam/AdamW를 비교하여 보여준다.

Figure A6 | 다른 차이점들의 비교. 6억 8천만 개의 파라미터를 가진 모델을 사용하여, Gopher와 Chinchilla 학습에 사용된 설정(optimizer 변경 및 optimizer state에 더 높은 정밀도의 가중치 복사본 사용) 간의 비교를 보여준다. Chinchilla에 사용된 설정(주황색)이 Gopher 학습에 사용된 설정(녹색)보다 명확히 우수한 성능을 보인다.

Figure A7 | Adam vs AdamW. 4억 1천 7백만(파란색) 및 14억(녹색) 파라미터 모델에 대해, AdamW로 학습하는 것이 Adam으로 학습하는 것보다 성능을 향상시킨다는 것을 발견했다.

H. Results

H.1. The Pile

Table A5에서 우리는 Chinchilla, Gopher, Jurassic-1 모델의 The Pile (Gao et al., 2020) 데이터셋에 대한 bits-per-byte (bpb) 값을 보여준다. Chinchilla는 모든 subset에서 Gopher보다 우수한 성능을 보인다. Jurassic-1은 dm_mathematicsubuntu_irc 두 subset에서 Chinchilla보다 우수한 성능을 보인다.

SubsetChinchilla (70B)Gopher (280B)Jurassic-1 (170B)
pile_cc0.6670.6910.669
pubmed_abstracts0.5590.5780.587
stackexchange0.6140.6410.655
github0.3370.3770.358
openwebtext20.6470.677-
arxiv0.6270.6620.680
uspto_backgrounds0.5260.5460.537
freelaw0.4760.5130.514
pubmed_central0.5040.5250.579
dm_mathematics1.1111.1421.037
hackernews0.8590.8900.869
nih_exporter0.5720.5900.590
opensubtitles0.8710.9000.879
europarl0.8330.938-
books30.6750.7120.835
philpapers0.6560.6950.742
gutenberg_pg_190.5480.6560.890
bookcorpus20.7140.741-
ubuntu_irc1.0261.0900.857

Table A5: The Pile 데이터셋에 대한 Bits-per-Byte (bpb). Chinchilla와 Gopher, Jurassic-1의 The Pile 데이터셋에 대한 bpb를 비교하여 보여준다.

H.2. MMLU

Table A6에서는 MMLU의 각 subset에 대한 Chinchilla와 Gopher의 성능을 보여준다.

H.3. Winogender Setup

우리는 Rae et al. (2021)과 동일한 설정을 따른다. Chinchilla의 coreference resolution 능력을 테스트하기 위해, 우리는 **대명사 참조(pronoun reference)**를 포함하는 문장을 입력한다 (예: "The librarian helped the child pick out a book because {pronoun} liked to encourage reading."). 그런 다음, 모델이 "{Pronoun}’ refers to the" 문장을 다양한 문장 역할(이 예시에서는 "librarian"과 "child")로 완성할 확률을 측정한다. 각 예시는 올바른 대명사 해상도(이 예시에서는 대명사가 사서에 해당함)로 주석 처리되어 있다. 각 문장은 여성, 남성, 그리고 성 중립 대명사로 테스트된다. 편향되지 않은 모델이라면 대명사의 성별과 관계없이 대명사가 어떤 단어를 참조하는지 정확하게 예측할 것이다.

H.4. BIG-bench

Table A7에서는 우리가 고려한 BIG-bench의 각 subset에 대한 Chinchilla와 Gopher의 성능을 보여준다.

I. Model Card

Mitchell et al. (2019)이 제시한 프레임워크에 따라 Chinchilla 모델 카드를 Table A8에 제시한다.

TaskChinchillaGopherTaskChinchillaGopher
abstract_algebra31.025.0anatomy70.456.3
astronomy73.065.8business_ethics72.070.0
clinical_knowledge75.167.2college_biology79.970.8
college_chemistry51.045.0college_computer_science51.049.0
college_mathematics32.037.0college_medicine66.560.1
college_physics46.134.3computer_security76.065.0
conceptual_physics67.249.4econometrics38.643.0
electrical_engineering62.160.0elementary_mathematics41.533.6
formal_logic33.335.7global_facts39.038.0
high_school_biology80.371.3high_school_chemistry58.147.8
high_school_computer_science58.054.0high_school_european_history78.872.1
high_school_geography86.476.8high_school_gov_and_politics91.283.9
high_school_macroeconomics70.565.1high_school_mathematics31.923.7
high_school_microeconomics77.766.4high_school_physics36.433.8
high_school_psychology86.681.8high_school_statistics58.850.0
high_school_us_history83.378.9high_school_world_history85.275.1
human_aging77.666.4human_sexuality86.367.2
international_law90.977.7jurisprudence79.671.3
logical_fallacies80.472.4machine_learning41.141.1
management82.577.7marketing89.783.3
medical_genetics69.069.0miscellaneous84.575.7
moral_disputes77.566.8moral_scenarios36.540.2
nutrition77.169.9philosophy79.468.8
prehistory81.267.6professional_accounting52.144.3
professional_law56.544.5professional_medicine75.464.0
professional_psychology75.768.1public_relations73.671.8
security_studies75.964.9sociology91.084.1
us_foreign_policy92.081.0virology53.647.0
world_religions87.784.2

Table A6 | Chinchilla MMLU 결과. MMLU (Hendrycks et al., 2020)의 각 하위 세트에 대해 Chinchilla의 정확도를 Gopher와 비교하여 보여준다.

Model Details
Organization Developing the ModelDeepMind
Model Date2022년 3월
Model TypeAutoregressive Transformer Language Model (자세한 내용은 Section 4.1 참조)
Feedback on the Model{jordanhoffmann, sborgeaud, amensch,sifre}@deepmind.com
Intended Uses
Primary Intended Uses주요 용도는 언어 모델 연구이며, 다음을 포함한다: Rae et al. (2021)에 나열된 언어 모델의 스케일링 동작에 대한 연구.
Primary Intended UsersDeepMind 연구원. 이 모델은 공개적으로 제공되지 않을 것이다.
Out-of-Scope Uses유해하거나 기만적인 환경에서 언어 생성을 위한 언어 모델 사용. 더 일반적으로, 추가적인 안전 및 공정성 완화 조치 없이 다운스트림 애플리케이션에 모델을 사용해서는 안 된다.
Factors
Card Prompts - Relevant Factor관련 요인에는 사용되는 언어가 포함된다. 우리 모델은 영어 데이터로 학습되었다. 또한, Rae et al. (2021)에서 동일한 코퍼스로 학습된 모델 분석에서, 일부 방언(예: 아프리카계 미국인 영어)을 모델링할 때 불균등한 성능을 보였다. 우리 모델은 연구용으로 설계되었다. 제안된 다운스트림 애플리케이션의 요인에 대한 추가 분석 없이 다운스트림 애플리케이션에 모델을 사용해서는 안 된다.
Card Prompts - Evaluation Factors동일한 텍스트 코퍼스로 학습된 모델을 분석한 Rae et al. (2021)의 결과를 참조하라.
Metrics
Model Performance Measures- 언어 모델링 데이터셋에 대한 Perplexity 및 bits per byte <br> - 완성(completion) task, 독해(reading comprehension), MMLU, BIG-bench 및 사실 확인(fact checking)에 대한 정확도 <br> - 질문 답변(question answering)에 대한 Exact match 정확도 <br> - Real Toxicity Prompts (RTP)를 통한 생성 독성(toxicity) 및 독성 분류 정확도 <br> - 성별 및 직업 편향. 테스트에는 다른 성별 용어 생성 확률 비교 및 Winogender coreference resolution task가 포함된다. <br> 우리는 주로 텍스트 likelihood 예측에서 Gopher와 비교한 Chinchilla의 성능에 중점을 둔다.
Decision thresholds해당 없음 (N/A)
Approaches to Uncertainty and Variability대규모 언어 모델 학습 비용으로 인해 Chinchilla를 여러 번 학습시키지 않았다. 그러나 다양한 task 유형에 대한 광범위한 평가는 모델의 전반적인 성능에 대한 합리적인 추정치를 제공한다. 또한, 동일한 데이터셋으로 학습된 다른 대규모 모델(Gopher)의 존재는 명확한 비교 기준을 제공한다.
Evaluation Data
Datasets- LAMBADA, Wikitext103 (Merity et al., 2017), C4 (Raffel et al., 2020a), PG-19 (Rae et al., 2020) 및 Pile (Gao et al., 2020)에 대한 언어 모델링. <br> - Massive Multitask Language Understanding (MMLU) 벤치마크 (Hendrycks et al., 2020) 및 "Beyond the Imitation Game Benchmark" (BIG-bench) (BIG-bench collaboration, 2021)에 대한 언어 이해, 실제 세계 지식, 수학 및 논리적 추론. <br> - Natural Questions (Kwiatkowski et al., 2019) 및 TriviaQA (Joshi et al., 2017)에 대한 질문 답변 (closed book). <br> - RACE (Lai et al., 2017)에 대한 독해. <br> - HellaSwag (Zellers et al., 2019), PIQA (Bisk et al., 2020), Winogrande (Sakaguchi et al., 2020), SIQA (Sap et al., 2019), BoolQ (Clark et al., 2019) 및 TruthfulQA (Lin et al., 2021)에 대한 상식 이해.
MotivationGopher와 가장 직접적으로 비교하기 위해 Rae et al. (2021)의 평가를 선택했다.
Preprocessing입력 텍스트는 32,000개의 어휘를 가진 SentencePiece tokenizer를 사용하여 토큰화된다. Gopher에 사용된 tokenizer와 달리, Chinchilla에 사용된 tokenizer는 NFKC 정규화를 수행하지 않는다.
Training Data
Rae et al. (2021)과 동일한 데이터셋이 사용된다. 샘플링의 차이는 Table A1에 나와 있다.
Quantitative Analyses
Unitary ResultsSection 4.2는 우리의 분석에 대한 자세한 설명을 제공한다. 주요 내용은 다음과 같다: <br> - 우리 모델은 PerspectiveAPI로 측정된 독성 언어를 출력할 수 있다. 이는 모델이 독성 prompt로 주어졌을 때 특히 그렇다. <br> - 성별: 우리 모델은 데이터셋에서 발견된 고정관념을 모방하며, "영양사" 및 "접수원"과 같은 직업은 여성과 더 관련이 있고 "목수" 및 "보안관"은 남성과 더 관련이 있다. <br> - 인종/종교/국가 감정: 우리 모델이 일부 그룹에 대해 논의하도록 prompt를 주면 감정이 낮거나 높은 문장이 생성되며, 이는 데이터셋의 텍스트를 반영할 가능성이 높다.
Intersectional Results교차 편향은 조사하지 않았다.
Ethical Considerations
Data데이터는 Rae et al. (2021)에 설명된 것과 동일하다.
Human Life이 모델은 인간의 삶이나 번영에 중요한 문제에 대한 결정을 내리는 데 사용될 의도가 없다.
Mitigations우리는 독성 콘텐츠를 제거하기 위해 데이터셋을 필터링하는 것을 고려했지만, Welbl et al. (2021)의 연구에서 알 수 있듯이 이것이 새로운 편향을 도입할 수 있다는 관찰 때문에 그렇게 하지 않기로 결정했다. 독성 콘텐츠 및 Weidinger et al. (2021)에서 논의된 것과 같은 언어 모델과 관련된 다른 유형의 위험에 대한 완화 접근 방식에 대한 더 많은 연구가 필요하다.
Risks and Harms데이터는 인터넷에서 수집되었으므로, 우리 학습 데이터셋에는 의심할 여지 없이 독성/편향된 콘텐츠가 포함되어 있다. 또한, 개인 정보도 우리 모델 학습에 사용된 데이터셋에 포함되어 있을 가능성이 높다. Weidinger et al. (2021)의 더 자세한 논의를 참조하라.
Use Cases특히 문제가 되는 사용 사례에는 의도적으로 잘못된 정보를 생성하여 배포하거나, 모델을 사용하여 인종차별적, 성차별적 또는 기타 유해한 텍스트를 악의적인 의도로 생성하는 경우가 포함된다. 해를 끼칠 수 있는 더 많은 사용 사례가 존재한다. 이러한 악의적인 사용에 대한 적용은 Weidinger et al. (2021)에서 자세히 논의된다.

Table A8 | Chinchilla 모델 카드. Mitchell et al. (2019)이 제시한 프레임워크를 따른다.

J. List of trained models

Table A9에서는 본 연구에서 사용된 모든 모델의 크기와 구성을 나열한다. 많은 모델들이 다양한 학습 단계(training steps)에 따라 여러 번 학습되었다.

TaskChinchillaGopherTaskChinchillaGopher
hyperbaton54.251.7movie_dialog_same_or_diff54.550.7
causal_judgment57.450.8winowhy62.556.7
formal_fallacies_syllogisms_neg52.150.7movie_recommendation75.650.5
crash_blossom47.663.6moral_permissibility57.355.1
discourse_marker_prediction13.111.7strategyqa68.361.0
general_knowledge_json94.393.9nonsense_words_grammar78.061.4
sports_understanding71.054.9metaphor_boolean93.159.3
implicit_relations49.436.4navigate52.651.1
penguins_in_a_table48.740.6presuppositions_as_nli49.934.0
intent_recognition92.888.7temporal_sequences32.019.0
reasoning_about_colored_objects59.749.2question_selection52.641.4
logic_grid_puzzle44.035.1logical_fallacy_detection72.158.9
timedial68.850.9physical_intuition79.059.7
epistemic_reasoning60.656.4physics_mc65.550.9
ruin_names47.138.6identify_odd_metaphor68.838.6
hindu_knowledge91.480.0understanding_fables60.339.6
misconceptions65.361.7logical_sequence64.136.4
implicatures75.062.0mathematical_induction47.357.6
disambiguation_q54.745.5fantasy_reasoning69.064.1
known_unknowns65.263.6SNARKS58.648.3
dark_humor_detection66.283.1crass_ai75.056.8
analogical_similarity38.117.2entailed_polarity94.089.5
sentence_ambiguity71.769.1irony_identification73.069.7
riddle_sense85.768.2evaluating_info_essentiality17.616.7
date_understanding52.344.1phrase_relatedness94.081.8
analytic_entailment67.153.0novel_concepts65.659.1
odd_one_out70.932.5empirical_judgments67.752.5
logical_args56.259.1figure_of_speech_detection63.352.7
alignment_questionnaire91.379.2english_proverbs82.457.6
similarities_abstraction87.081.8Human_organs_senses_mcc85.784.8
anachronisms69.156.4gre_reading_comprehension53.127.3

Table A7 | Chinchilla BIG-bench 결과. BIG-bench의 각 하위 세트(BIG-bench collaboration, 2021)에 대한 Chinchilla와 Gopher의 정확도를 보여준다.

Parameters (million)d_modelffw_sizekv_sizen_headsn_layers
4451220486488
5757623046499
746402560641010
906402560641013
1066402560641016
1177683072641212
1407683072641215
1637683072641218
1758963584641414
1968963584641416
2178963584641418
25110244096641616
27810244096641618
30610244096641620
425128051201281018
489128051201281021
509140856321281118
552128051201281024
587140856321281121
632153661441281219
664140856321281124
724153661441281222
816153661441281225
893179271681281420
1,018179271681281423
1,143179271681281426
1,266204881921281622
1,424217687041281722
1,429204881921281625
1,593204881921281628
1,609217687041281725
1,731230492161281824
1,794217687041281728
2,007230492161281828
2,283230492161281832
2,2982560102401282026
2,6392560102401282030
2,9802560102401282034
3,5302688107521282236
3,8022816112641282236
4,0842944117761282236
4,5163072122881282436
6,7963584143361282840
9,2934096163841283242
11,4524352174081283247
12,2954608184321283644
12,5694608184321283247
13,7354864194561283247
14,9404992199681283249
16,1835120204801284047

Table A9 | 모든 모델. 본 연구의 일부로 학습된 모든 모델의 하이퍼파라미터와 크기를 나열한다. 표시된 많은 모델들은 여러 학습률 스케줄/학습 토큰 수로 학습되었다.