Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).

Training Compute-Optimal Large Language Models

Jordan Hoffmann ${ }^{\star}$ , Sebastian Borgeaud ${ }^{\star}$ , Arthur Mensch ${ }^{\star}$ , Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals and Laurent Sifre ${ }^{\star}$ <br> ${ }^{\star}$ 공동 기여 (Equal contributions)

Abstract

우리는 주어진 연산 예산(compute budget) 내에서 Transformer language model을 학습시키기 위한 최적의 모델 크기와 token 수를 연구한다. 우리는 현재의 대규모 language model들이 상당히 덜 학습(undertrained)되어 있다는 것을 발견했는데, 이는 최근 학습 데이터 양을 일정하게 유지하면서 language model의 크기를 확장하는 데 집중한 결과이다. 7천만 개에서 160억 개 이상의 파라미터를 가진 400개 이상의 language model을 50억 개에서 5천억 개의 token으로 학습시킨 결과, 연산 최적(compute-optimal) 학습을 위해서는 모델 크기와 학습 token 수가 동일하게 확장되어야 한다는 것을 발견했다: 모델 크기가 두 배가 될 때마다 학습 token 수도 두 배가 되어야 한다. 우리는 이 가설을 검증하기 위해 예측된 연산 최적 모델인 Chinchilla를 학습시켰다. Chinchilla는 Gopher와 동일한 연산 예산을 사용하지만, 70B 파라미터와 4배 더 많은 데이터를 사용한다. Chinchilla는 다양한 다운스트림 평가 task에서 Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)를 일관되고 현저하게 능가한다. 이는 또한 Chinchilla가 fine-tuning 및 추론에 훨씬 적은 연산을 사용하여, 다운스트림 활용을 크게 용이하게 한다는 것을 의미한다. 특히, Chinchilla는 MMLU 벤치마크에서 67.5%의 state-of-the-art 평균 정확도를 달성했으며, 이는 Gopher보다 7% 이상 향상된 수치이다.

1. Introduction

최근 일련의 Large Language Model (LLM)들이 소개되었으며 (Brown et al., 2020; Lieber et al., 2021; Rae et al., 2021; Smith et al., 2022; Thoppilan et al., 2022), 현재 가장 큰 dense language model은 5천억 개 이상의 파라미터를 가지고 있다. 이러한 대규모 autoregressive Transformer (Vaswani et al., 2017)는 zero-shot, few-shot, fine-tuning 등 다양한 평가 프로토콜에서 인상적인 성능을 보여주었다.

대규모 language model을 학습시키는 데 필요한 연산(compute) 및 에너지 비용은 상당하며 (Rae et al., 2021; Thoppilan et al., 2022), 모델 크기가 증가함에 따라 더욱 증가한다. 실제로는 할당된 학습 연산 예산이 미리 정해져 있는 경우가 많다: 즉, 사용 가능한 가속기(accelerator) 수와 사용하고자 하는 기간이 정해져 있다. 이러한 대규모 모델은 일반적으로 한 번만 학습시키는 것이 가능하므로, 주어진 연산 예산 내에서 최적의 모델 하이퍼파라미터를 정확하게 추정하는 것이 매우 중요하다 (Tay et al., 2021).

Kaplan et al. (2020)은 autoregressive language model (LM)의 파라미터 수와 성능 사이에 멱법칙(power law) 관계가 있음을 보여주었다. 그 결과, 이 분야에서는 성능 향상을 기대하며 점점 더 큰 모델을 학습시켜 왔다. Kaplan et al. (2020)의 주목할 만한 결론 중 하나는 대규모 모델이 연산 최적(compute optimal)이 되기 위해 가능한 가장 낮은 손실까지 학습될 필요는 없다는 것이다. 우리는 이와 동일한 결론에 도달했지만, 대규모 모델이 저자들이 권장하는 것보다 훨씬 더 많은 학습 토큰으로 학습되어야 한다고 추정한다. 구체적으로, Kaplan et al. (2020)은 연산 예산이 10배 증가할 때 모델 크기는 5.5배 증가하고 학습 토큰 수는 1.8배만 증가해야 한다고 제안한다. 그러나 우리는 모델 크기와 학습 토큰 수가 동일한 비율로 확장되어야 한다는 것을 발견했다.

Kaplan et al. (2020)과 GPT-3 (Brown et al., 2020)의 학습 설정을 따른 최근 학습된 많은 대규모 모델들은 약 3천억 개의 토큰으로 학습되었으며 (Table 1), 이는 연산량을 늘릴 때 주로 모델 크기를 증가시키는 접근 방식과 일치한다.

Figure 1 | 중첩된 예측. 우리는 세 가지 다른 접근 방식의 예측과 Kaplan et al. (2020)의 예측을 중첩하여 보여준다. 우리는 세 가지 방법 모두 현재의 대규모 모델이 상당히 더 작아야 하며, 따라서 현재보다 훨씬 더 오래 학습되어야 한다고 예측한다는 것을 발견했다. Figure A3에서는 고정된 FLOP 예산에 대해 예측된 최적 토큰 수와 최적 파라미터 수를 플로팅한 결과를 보여준다. Chinchilla는 Gopher 및 다른 대규모 모델들을 능가한다 (Section 4.2 참조).

본 연구에서는 다음과 같은 질문을 다시 던진다: 고정된 FLOPs 예산이 주어졌을 때, 모델 크기와 학습 토큰 수를 어떻게 trade-off해야 하는가? 이 질문에 답하기 위해, 우리는 최종 사전학습 손실 $L(N, D)$ 를 모델 파라미터 수 $N$ 과 학습 토큰 수 $D$ 의 함수로 모델링한다. 연산 예산 $C$ 는 학습된 토큰 수와 모델 파라미터 수의 결정론적 함수 $\operatorname{FLOPs}(N, D)$ 이므로, 우리는 $\operatorname{FLOPs}(N, D)=C$ 제약 조건 하에서 $L$ 을 최소화하는 데 관심이 있다:

N_{\text {opt }}(C), D_{\text {opt }}(C)=\underset{N, D \text { s.t. } \operatorname{FLOPs}(N, D)=C}{\operatorname{argmin}} L(N, D) .

함수 $N_{\text {opt }}(C)$ 와 $D_{\text {opt }}(C)$ 는 연산 예산 $C$ 의 최적 할당을 설명한다. 우리는 7천만 개 미만에서 160억 개 이상의 파라미터를 가지며, 50억 개에서 4천억 개 이상의 토큰으로 학습된 400개 이상의 모델 손실을 기반으로 이러한 함수를 경험적으로 추정한다. 각 모델 구성은 여러 다른 학습 기간 동안 학습되었다. 우리의 접근 방식은 Kaplan et al. (2020)의 결과와 상당히 다른 결과를 도출한다. Figure 1에서 우리의 결과를 강조하고, Section 2에서 우리의 접근 방식이 어떻게 다른지 설명한다.

우리가 추정한 연산 최적(compute-optimal) 경계를 기반으로, Gopher를 학습시키는 데 사용된 연산 예산에 대해 최적 모델은 4배 더 작아야 하며, 4배 더 많은 토큰으로 학습되어야 한다고 예측한다. 우리는 이를 검증하기 위해 1.4조 개의 토큰으로 학습된 70B 모델인 Chinchilla를 학습시켰다. Chinchilla는 훨씬 더 큰 모델인 Gopher를 능가할 뿐만 아니라, 모델 크기가 줄어들어 추론 비용이 크게 감소하고 더 작은 하드웨어에서도 다운스트림 활용이 훨씬 용이해진다. 대규모 language model의 에너지 비용은 추론 및 fine-tuning 사용을 통해 상각된다. 따라서 더 최적으로 학습된 더 작은 모델의 이점은 향상된 성능이라는 즉각적인 이점을 넘어선다.

Table 1 | 현재 LLM. 현재 가장 큰 dense Transformer 모델 5개와 그 크기, 학습 토큰 수를 보여준다. LaMDA (Thoppilan et al., 2022)를 제외하고 대부분의 모델은 약 3천억 개의 토큰으로 학습되었다. 우리는 3천억 개 토큰보다 훨씬 더 오래 학습된, 상당히 더 작은 모델인 Chinchilla를 소개한다.

Model	Size (# Parameters)	Training Tokens
LaMDA (Thoppilan et al., 2022)	137 Billion	168 Billion
GPT-3 (Brown et al., 2020)	175 Billion	300 Billion
Jurassic (Lieber et al., 2021)	178 Billion	300 Billion
Gopher (Rae et al., 2021)	280 Billion	300 Billion
MT-NLG 530B (Smith et al., 2022)	530 Billion	270 Billion
Chinchilla	70 Billion	1.4 Trillion

대규모 Language Model
지난 몇 년간 다양한 대규모 Language Model(LM)이 소개되었다. 여기에는 dense Transformer 모델 [Brown et al., 2020; Lieber et al., 2021; Rae et al., 2021; Smith et al., 2022; Thoppilan et al., 2022]과 Mixture-of-Expert (MoE) 모델 [Du et al., 2021; Fedus et al., 2021; Zoph et al., 2022]이 모두 포함된다. 가장 큰 dense Transformer는 5천억 개 이상의 파라미터를 가지고 있다 [Smith et al., 2022].
점점 더 큰 모델을 학습시키려는 동기는 명확하다. 지금까지 LM의 크기를 늘리는 것이 많은 언어 모델링 task에서 state-of-the-art 성능을 향상시키는 데 기여해왔기 때문이다.
그럼에도 불구하고, 대규모 LM은 막대한 연산 요구량(모델 크기에 따라 학습 및 추론 비용 증가) [Rae et al., 2021; Thoppilan et al., 2022]과 더 많은 고품질 학습 데이터 확보의 필요성을 포함한 여러 가지 도전 과제에 직면해 있다. 실제로 본 연구에서는 더 크고 고품질의 데이터셋이 LM의 추가적인 확장에 핵심적인 역할을 할 것임을 발견했다.

확장 동작 모델링 (Modelling the scaling behavior)
LM의 확장 동작과 전이 특성을 이해하는 것은 최근 대규모 모델 개발에 중요하게 작용해왔다 [Hernandez et al., 2021; Kaplan et al., 2020]. Kaplan et al. (2020)은 모델 크기와 손실(loss) 간의 예측 가능한 관계를 여러 자릿수에 걸쳐 처음으로 보여주었다. 저자들은 주어진 연산 예산(compute budget) 내에서 최적의 모델 크기를 선택하는 문제를 탐구한다. 우리와 유사하게, 그들은 다양한 모델을 학습시켜 이 질문에 접근한다.
우리의 연구는 Kaplan et al. (2020)과 몇 가지 중요한 면에서 차이가 있다.
첫째, Kaplan et al. (2020)의 저자들은 모든 모델에 대해 고정된 수의 학습 토큰과 learning rate schedule을 사용한다. 이는 이러한 하이퍼파라미터가 손실에 미치는 영향을 모델링하는 것을 방해한다. 반면, 우리는 learning rate schedule을 학습 토큰 수에 대략적으로 맞추는 것이 모델 크기와 관계없이 최상의 최종 손실을 가져온다는 것을 발견했다 (Figure A1 참조). 130B 토큰에 대한 고정된 learning rate cosine schedule의 경우, 중간 손실 추정치( $D' \ll 130 \mathrm{~B}$ )는 $D'$ 에 맞는 schedule 길이로 학습된 모델의 손실을 과대평가하게 된다. 이러한 중간 손실을 사용하면 130B 토큰보다 적은 데이터로 모델을 학습시키는 효과를 과소평가하게 되며, 궁극적으로 연산 예산이 증가함에 따라 모델 크기가 학습 데이터 크기보다 더 빠르게 증가해야 한다는 결론에 기여한다. 이와 대조적으로, 우리의 분석은 두 양(모델 크기와 학습 데이터 크기)이 대략 동일한 비율로 확장되어야 한다고 예측한다.
둘째, 우리는 최대 16B 파라미터를 가진 모델을 포함한다. 이는 FLOP-loss frontier에서 약간의 곡률이 관찰되기 때문이다 (Appendix E 참조). 실제로 우리 분석에 사용된 모델의 대부분은 5억 개 이상의 파라미터를 가지고 있는 반면, Kaplan et al. (2020)의 대부분의 실험은 훨씬 작으며, 많은 모델이 1억 개 미만의 파라미터를 가진다.

최근 Clark et al. (2022)은 Mixture of Expert Language Model의 확장 특성을 구체적으로 살펴보았으며, 모델 크기가 증가함에 따라 expert 수에 따른 확장이 감소한다는 것을 보여주었다. 그들의 접근 방식은 손실을 모델 크기와 expert 수라는 두 변수의 함수로 모델링한다. 그러나 이 분석은 Kaplan et al. (2020)과 마찬가지로 고정된 수의 학습 토큰으로 수행되어, 분기(branching)의 개선 효과를 과소평가할 가능성이 있다.

대규모 모델의 하이퍼파라미터 추정
모델 크기와 학습 토큰 수는 LM을 선택하고 학습 절차를 결정할 때 선택해야 할 유일한 두 가지 파라미터가 아니다. learning rate, learning rate schedule, batch size, optimiser, width-to-depth ratio와 같은 다른 중요한 요소들도 있다. 본 연구에서는 모델 크기와 학습 단계 수에 중점을 두며, 다른 필요한 하이퍼파라미터는 기존 연구와 제공된 실험적 휴리스틱에 의존하여 결정한다. Yang et al. (2021)은 autoregressive Transformer 학습을 위한 learning rate 및 batch size를 포함한 다양한 파라미터 선택 방법을 탐구한다. McCandlish et al. (2018)은 최적의 batch size와 모델 크기 사이에 약한 의존성만을 발견했다. Shallue et al. (2018); Zhang et al. (2019)은 우리가 사용하는 것보다 더 큰 batch size를 사용하는 것이 가능하다고 제안한다. Levine et al. (2020)은 다양한 표준 모델 크기에 대한 최적의 depth-to-width ratio를 조사한다. 우리는 제안된 것보다 약간 덜 깊은 모델을 사용하는데, 이는 우리 하드웨어에서 더 나은 wall-clock 성능으로 이어진다.

개선된 모델 아키텍처
최근 전통적인 dense Transformer에 대한 다양한 유망한 대안들이 제안되었다. 예를 들어, **조건부 연산(conditional computation)**을 통해 1.7조 파라미터의 Switch Transformer [Fedus et al., 2021], 1.2조 파라미터의 GLaM 모델 [Du et al., 2021] 및 기타 모델들 [Artetxe et al., 2021; Zoph et al., 2022]과 같은 대규모 MoE 모델은 상대적으로 적은 학습 및 추론 FLOPs를 사용하면서도 큰 유효 모델 크기를 제공할 수 있다. 그러나 매우 큰 모델의 경우 routed model의 연산 이점은 감소하는 경향이 있다 [Clark et al., 2022].
LM을 개선하는 직교적인(orthogonal) 접근 방식은 Borgeaud et al. (2021); Guu et al. (2020); Lewis et al. (2020)에서처럼 Transformer에 명시적인 retrieval 메커니즘을 추가하는 것이다. 이 접근 방식은 학습 중에 모델이 보는 데이터 토큰의 수를 효과적으로 증가시킨다 (Borgeaud et al. (2021)에서는 약 10배). 이는 LM의 성능이 이전에 생각했던 것보다 학습 데이터의 크기에 더 의존할 수 있음을 시사한다.

3. Estimating the optimal parameter/training tokens allocation

우리는 본 연구의 핵심 질문에 답하기 위해 세 가지 다른 접근 방식을 제시한다: 고정된 FLOPs 예산이 주어졌을 때, 모델 크기와 학습 토큰 수를 어떻게 trade-off해야 하는가? 세 가지 경우 모두, 우리는 모델 크기와 학습 토큰 수를 다양하게 변화시키며 여러 모델을 학습시킨 후, 그 결과로 얻은 학습 곡선(training curve)을 사용하여 이들이 어떻게 확장되어야 하는지에 대한 경험적 추정기(empirical estimator)를 fitting한다. Clark et al. (2022) 및 Kaplan et al. (2020)에서와 같이, 우리는 연산량(compute)과 모델 크기 사이에 power-law 관계가 존재한다고 가정한다. 비록 향후 연구에서는 대규모 모델 크기에서 이 관계에 나타날 수 있는 잠재적 곡률(curvature)을 포함할 수도 있을 것이다. 세 가지 방법 모두에서 얻은 예측은 유사하며, 더 많은 연산량이 주어질 경우 파라미터 수와 학습 토큰 수를 Table 2에 보고된 비율로 동일하게 증가시켜야 함을 시사한다. 이는 이 주제에 대한 이전 연구들과는 확연히 대조되는 결과이며, 추가적인 조사가 필요하다.

Figure 2 | 학습 곡선 envelope. 왼쪽: 우리가 수행한 모든 다양한 실행 결과를 보여준다. 우리는 7천만 개에서 100억 개에 이르는 다양한 모델 크기를 각각 네 가지 다른 cosine cycle 길이로 학습시켰다. 가운데: 이 곡선들로부터 FLOP당 최소 손실(minimal loss per FLOP)의 envelope를 추출했으며, 이 점들을 사용하여 주어진 연산 예산에 대한 최적 모델 크기를 추정했다. 오른쪽: 최적 학습 토큰 수를 추정했다. 녹색: Gopher 학습에 사용된 FLOP 수( $5.76 \times 10^{23}$ )를 기반으로 한 최적 모델 크기 및 학습 토큰 수의 예측을 보여준다.

3.1. Approach 1: Fix model sizes and vary number of training tokens

첫 번째 접근 방식에서는 고정된 모델 계열(7천만 개에서 100억 개 이상의 파라미터 범위)에 대해 학습 스텝 수를 다양하게 변경하고, 각 모델을 4가지 다른 수의 학습 시퀀스로 학습시켰다. 이 실험들을 통해 우리는 주어진 학습 FLOPs 수에 대해 달성 가능한 최소 손실(loss)을 직접적으로 추정할 수 있었다. 이 접근 방식에 대한 학습 세부 정보는 Appendix D에서 확인할 수 있다.

각 파라미터 수 $N$ 에 대해 우리는 4개의 다른 모델을 학습시켰으며, 학습 토큰 수로 측정되는 horizon에 걸쳐 학습률(learning rate)을 10배씩 감소시켰다. 이 horizon은 16배의 범위를 가진다. 그런 다음, 각 실행에 대해 **학습 손실 곡선을 평활화(smooth)하고 보간(interpolate)**하였다. 이를 통해 각 실행에 대해 FLOPs 수에서 학습 손실로의 연속적인 매핑을 얻었다. 이어서, 각 FLOPs 수에 대해 어떤 실행이 가장 낮은 손실을 달성하는지를 결정하였다. 이러한 보간 함수를 사용하여, 임의의 FLOPs 수 $C$ 에 대해 가장 효율적인 모델 크기 $N$ 과 학습 토큰 수 $D$ 를 매핑하여 FLOPs $(N, D)=C$ 를 만족하도록 하였다. 1500개의 로그 간격 FLOPs 값에서, 우리는 모든 모델 중 어떤 모델 크기가 가장 낮은 손실을 달성하는지와 필요한 학습 토큰 수를 찾아냈다. 마지막으로, 주어진 연산량에 대한 최적의 모델 크기와 학습 토큰 수를 추정하기 위해 멱법칙(power laws)을 피팅하여 (Figure 2의 중앙 및 오른쪽 패널 참조) $N_{\text {opt }} \propto C^{a}$ 및 $D_{\text {opt }} \propto C^{b}$ 관계를 얻었다. 우리는 $a=0.50$ 및 $b=0.50$ 임을 확인했으며, 이는 Table 2에 요약되어 있다. Section D.4에서는 $10^{21}$ FLOPs에서 우리의 분석과 Kaplan et al. (2020)의 분석이 권장하는 모델 크기를 사용하여 직접적인 비교를 보여주는데, 우리가 예측한 모델 크기가 명확한 이점을 가진다.

3.2. Approach 2: IsoFLOP profiles

두 번째 접근 방식에서는 고정된 9가지 학습 FLOP 수(6 x 10^18 ~ 3 x 10^21 FLOPs)에 대해 모델 크기를 다양하게 변경하고, 각 지점에서의 최종 학습 손실을 고려한다. 이는 전체 학습 실행 과정에서 (N, D, L) 지점을 고려했던 접근 방식 1과 대조된다. 이 방법을 통해 우리는 주어진 FLOP 예산에서 최적의 파라미터 수는 얼마인가? 라는 질문에 직접적으로 답할 수 있다.

Figure 3 | IsoFLOP 곡선. 다양한 모델 크기에 대해, 최종 FLOP 수가 일정하도록 학습 토큰 수를 선택한다. cosine cycle length는 목표 FLOP 수에 맞게 설정된다. 손실에서 명확한 **골짜기(valley)**를 발견했는데, 이는 주어진 FLOP 예산에 대해 학습할 최적의 모델이 존재함을 의미한다 (왼쪽). 이 골짜기의 위치를 사용하여, 더 큰 모델에 대한 최적 모델 크기와 토큰 수를 예측한다 (중앙 및 오른쪽). 녹색으로 Gopher의 연산 예산으로 학습된 최적 모델에 대한 추정 파라미터 수와 토큰 수를 보여준다.

각 FLOP 예산에 대해, **최종 손실(평활화 후)**을 파라미터 수에 대해 Figure 3 (왼쪽)에 플로팅하였다. 모든 경우에, 우리는 손실에서 명확한 최소값을 볼 수 있도록 충분히 다양한 모델 크기 세트를 학습시켰다. 각 IsoFLOPs 곡선에 포물선을 피팅하여 최소 손실이 달성되는 모델 크기를 직접 추정하였다 (Figure 3 (왼쪽)). 이전 접근 방식과 마찬가지로, FLOPs와 손실-최적 모델 크기 및 학습 토큰 수 사이에 멱법칙(power law)을 피팅하였다 (Figure 3 (중앙, 오른쪽)). 다시 한번, $N_{\text {opt }} \propto C^{a}$ 및 $D_{\text {opt }} \propto C^{b}$ 형태의 지수를 피팅하였고, ** $a=0.49$ 및 $b=0.51$ **임을 발견하였다 (Table 2에 요약).

3.3. Approach 3: Fitting a parametric loss function

마지막으로, 우리는 접근 방식 1 & 2의 모든 최종 손실(final loss)을 모델 파라미터 수와 학습된 토큰 수의 파라미터 함수로 모델링한다. 고전적인 위험 분해(risk decomposition)(Section D.2 참조)에 따라, 우리는 다음과 같은 함수 형태를 제안한다:

\hat{L}(N, D) \triangleq E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}} .

첫 번째 항은 데이터 분포에 대한 이상적인 생성 프로세스의 손실을 나타내며, 자연어 텍스트의 엔트로피에 해당해야 한다. 두 번째 항은 $N$ 개의 파라미터를 가진 완벽하게 학습된 Transformer가 이상적인 생성 프로세스보다 성능이 떨어진다는 사실을 포착한다. 마지막 항은 Transformer가 수렴할 때까지 학습되지 않았다는 사실을 포착하는데, 이는 우리가 데이터셋 분포의 샘플에 대해 유한한 수의 최적화 단계만 수행하기 때문이다.

모델 피팅 (Model fitting)
$(A, B, E, \alpha, \beta)$ 를 추정하기 위해, 우리는 예측된 로그 손실과 관측된 로그 손실 간의 Huber loss (Huber, 1964)를 L-BFGS 알고리즘 (Nocedal, 1980)을 사용하여 최소화한다:

\min _{A, B, E, \alpha, \beta} \sum_{\text {Runs } i} \operatorname{Huber}_{\delta}\left(\log \hat{L}\left(N_{i}, D_{i}\right)-\log L_{i}\right)

우리는 초기화 그리드에서 가장 적합한 값을 선택하여 가능한 지역 최솟값(local minima)을 고려한다. Huber loss ( $\delta=10^{-3}$ )는 이상치(outlier)에 강건하며, 이는 held-out 데이터 포인트에 대한 우수한 예측 성능에 중요하다고 판단된다. Section D.2는 피팅 절차와 손실 분해에 대해 자세히 설명한다.

Figure 4 | 파라미터 피팅 (Parametric fit).
우리는 손실 $\hat{L}(N, D)$ 의 파라미터 모델링을 피팅하고, 등고선(contour) (왼쪽) 및 isoFLOP 슬라이스(slice) (오른쪽)를 표시한다. 각 isoFLOP 슬라이스에 대해 왼쪽 그래프에 해당 점선이 포함되어 있다. 왼쪽 그래프에서는 효율적인 프론티어(efficient frontier)를 파란색으로 표시하는데, 이는 로그-로그 공간에서 직선이다. 구체적으로, 이 곡선은 가장 적은 FLOPs를 가진 지점에서 각 iso-loss 등고선을 통과한다. Gopher FLOP 예산을 고려할 때 최적의 모델 크기는 40B 파라미터로 예상된다.

효율적인 프론티어 (Efficient frontier)
우리는 $\operatorname{FLOPs}(N, D) \approx 6 N D$ (Kaplan et al., 2020) 제약 조건 하에서 파라미터 손실 $\hat{L}$ 을 최소화함으로써 함수 $N_{\text {opt }}$ 와 $D_{\text {opt }}$ 를 근사할 수 있다. 결과적으로 얻어지는 $N_{\text {opt }}$ 와 $D_{\text {opt }}$ 는 모델 크기와 데이터에 의존하는 Equation (3)의 두 항 사이의 균형을 맞춘다. 구성상, 이들은 멱법칙(power-law) 형태를 가진다:

N_{\text {opt }}(C)=G\left(\frac{C}{6}\right)^{a}, \quad D_{\text {opt }}(C)=G^{-1}\left(\frac{C}{6}\right)^{b}, \quad \text { where } \quad G=\left(\frac{\alpha A}{\beta B}\right)^{\frac{1}{\alpha+\beta}}, \quad a=\frac{\beta}{\alpha+\beta}, \text { and } b=\frac{\alpha}{\alpha+\beta} .

Figure 4 (왼쪽)에서 피팅된 함수 $\hat{L}$ 의 등고선과 **파란색으로 표시된 닫힌 형태의 효율적인 계산 프론티어(efficient computational frontier)**를 보여준다. 이 접근 방식을 통해 우리는 $a=0.46$ 및 $b=0.54$ 임을 확인했으며, 이는 Table 2에 요약되어 있다.

3.4. Optimal model scaling

우리는 세 가지 접근 방식이 서로 다른 fitting 방법론과 학습된 모델을 사용함에도 불구하고, FLOPs에 따른 파라미터 및 토큰의 최적 스케일링에 대해 유사한 예측을 제공한다는 것을 발견했다 (Table 2 참조). 세 가지 접근 방식 모두 계산 예산(compute budget)이 증가함에 따라 모델 크기와 학습 데이터 양이 거의 동일한 비율로 증가해야 한다고 제안한다. 첫 번째와 두 번째 접근 방식은 Figure 1과 Figure A3에서 보여지듯이 최적 모델 크기에 대해 매우 유사한 예측을 제공한다. 세 번째 접근 방식은 더 큰 계산 예산에서 더 작은 모델이 최적일 것이라고 예측한다.
우리는 낮은 학습 FLOPs( $C \leqslant 1e21$ )를 가진 관측점( $L, N, D$ )이 더 높은 계산 예산을 가진 점들보다 더 큰 잔차(residuals) $\|L-\hat{L}(N, D)\|_{2}^{2}$ 를 가진다는 점에 주목한다. fitted 모델은 더 많은 FLOPs를 가진 점들에 더 큰 가중치를 부여하며, Huber loss로 인해 낮은 계산 예산 점들을 자동으로 이상치(outliers)로 간주한다. frontier $C \rightarrow N_{\text {opt }}$ 에서 관찰된 **음의 곡률(negative curvature)**의 결과로 (Appendix E 참조), 이는 다른 두 접근 방식보다 더 낮은 $N_{\text {opt}}$ 를 예측하게 된다.

Table 3에서는 주어진 크기의 모델이 계산 최적(compute-optimal) frontier에 놓이도록 보장하는 데 필요한 FLOPs 및 토큰의 추정치를 보여준다. 우리의 연구 결과는 Figure 1에서 보여지듯이, 현재 세대의 대규모 언어 모델(LLM)이 각자의 계산 예산에 비해 상당히 과도하게 커져 있다는 것을 시사한다. 예를 들어, 우리는 1,750억 개의 파라미터를 가진 모델은 $4.41 \times 10^{24}$ FLOPs의 계산 예산과 4.2조 개 이상의 토큰으로 학습되어야 한다는 것을 발견했다. 약 $10^{25}$ FLOPs의 계산 예산이 주어진다면, 2,800억 개의 파라미터를 가진 Gopher와 유사한 모델이 최적의 모델이며, 6.8조 개의 토큰으로 학습되어야 한다. $10^{26}$ FLOPs(Gopher 학습에 사용된 계산량의 250배 이상)의 계산 예산이 없다면, 1조 개의 파라미터를 가진 모델은 최적의 모델이 아닐 가능성이 높다. 더욱이, 필요하다고 예측되는 학습 데이터의 양은 현재 대규모 모델을 학습하는 데 사용되는 양을 훨씬 초과하며, 이는 모델 규모 확장을 가능하게 하는 엔지니어링 개선 외에도 데이터셋 수집의 중요성을 강조한다. 여러 자릿수만큼 외삽(extrapolating)하는 데 상당한 불확실성이 있지만, 우리의 분석은 현재 많은 LLM의 학습 계산 예산을 고려할 때, 가장 성능이 좋은 모델을 달성하기 위해서는 더 작은 모델을 더 많은 토큰으로 학습했어야 한다는 것을 명확히 시사한다.

Table 2 | 학습 계산량 증가에 따른 파라미터 및 데이터 스케일링 추정치. 표에 나열된 값은 $N_{\text {opt }} \propto C^{a}$ 및 $D_{\text {opt }} \propto C^{b}$ 관계에서 지수 $a$ 와 $b$ 이다. 우리의 분석은 계산량 증가에 따라 파라미터와 데이터가 거의 동일하게 스케일링되어야 한다는 것을 시사하며, 이는 대규모 모델의 스케일링에 대한 이전 연구와는 확연히 대조된다. 10번째 및 90번째 백분위수는 부트스트래핑 데이터(데이터셋의 80%를 100번 샘플링)를 통해 추정되었으며 괄호 안에 표시된다.

Approach	Coeff. $a$ where $N_{\text {opt }} \propto C^{a}$	Coeff. $b$ where $D_{\text {opt }} \propto C^{b}$
1. Minimum over training curves	0.50 (0.488, 0.502)	0.50 (0.501, 0.512)
2. IsoFLOP profiles	0.49 (0.462, 0.534)	0.51 (0.483, 0.529)
3. Parametric modelling of the loss	0.46 (0.454, 0.455)	0.54 (0.542, 0.543)
Kaplan et al. (2020)	0.73	0.27

Table 3 | 다양한 모델 크기에 대한 추정된 최적 학습 FLOPs 및 학습 토큰 수. 다양한 모델 크기에 대해, 접근 방식 1을 통해 계산 최적 모델을 학습하는 데 필요한 FLOPs 및 학습 토큰 수의 예측치를 보여준다. 접근 방식 2 및 3에 대한 추정치도 유사하다 (Section D.3 참조).

Parameters	FLOPs	FLOPs (in Gopher unit)	Tokens
400 Million	$1.92 \mathrm{e}+19$	1/29, 968	8.0 Billion
1 Billion	$1.21 \mathrm{e}+20$	1/4, 761	20.2 Billion
10 Billion	$1.23 \mathrm{e}+22$	1/46	205.1 Billion
67 Billion	$5.76 \mathrm{e}+23$	1	1.5 Trillion
175 Billion	$3.85 \mathrm{e}+24$	6.7	3.7 Trillion
280 Billion	$9.90 \mathrm{e}+24$	17.2	5.9 Trillion
520 Billion	$3.43 \mathrm{e}+25$	59.5	11.0 Trillion
1 Trillion	$1.27 \mathrm{e}+26$	221.3	21.2 Trillion
10 Trillion	$1.30 \mathrm{e}+28$	22515.9	216.2 Trillion

Appendix C에서는 두 가지 추가 데이터셋인 C4 (Raffel et al., 2020a)와 GitHub 코드 (Rae et al., 2021)에 대해 IsoFLOP 분석을 재현한다. 두 경우 모두 모델 크기와 학습 토큰 수가 동일한 비율로 스케일링되어야 한다는 유사한 결론에 도달한다.

4. Chinchilla

Section 3의 분석에 따르면, Gopher의 compute budget에 대한 최적 모델 크기는 400억에서 700억 파라미터 사이이다. 우리는 이 가설을 검증하기 위해, 데이터셋 및 연산 효율성을 고려하여 이 범위의 상단에 해당하는 700억 파라미터 모델을 1.4T 토큰으로 학습시켰다. 이 모델을 Chinchilla라고 부르며, 본 섹션에서는 이 모델을 Gopher 및 다른 LLM들과 비교한다. Chinchilla와 Gopher는 동일한 FLOPs로 학습되었지만, 모델 크기와 학습 토큰 수에서 차이가 있다.

대규모 language model을 사전학습하는 데 상당한 compute cost가 들지만, 다운스트림 fine-tuning과 inference 또한 상당한 compute 사용량을 차지한다 (Rae et al., 2021). Chinchilla는 Gopher보다 4배 작기 때문에, 메모리 사용량과 inference 비용 또한 더 적다.

4.1. Model and training details

Chinchilla 학습에 사용된 전체 하이퍼파라미터는 Table 4에 제시되어 있다. Chinchilla는 아래에 명시된 차이점을 제외하고는 Gopher와 동일한 모델 아키텍처 및 학습 설정을 사용한다.

우리는 Chinchilla를 MassiveText (Gopher와 동일한 데이터셋)로 학습시켰지만, 학습 토큰 수 증가를 고려하여 약간 다른 subset 분포를 사용한다 (Table A1 참조).
Chinchilla에는 Adam (Kingma and Ba, 2014) 대신 AdamW (Loshchilov and Hutter, 2019)를 사용했는데, 이는 language modelling loss와 fine-tuning 후의 다운스트림 task 성능을 향상시킨다.
Chinchilla는 NFKC 정규화를 적용하지 않는 약간 수정된 SentencePiece (Kudo and Richardson, 2018) tokenizer로 학습되었다. 어휘는 매우 유사하며, 토큰의 94.15%가 Gopher 학습에 사용된 토큰과 동일하다. 우리는 이 방식이 특히 수학 및 화학 표현에 도움이 된다는 것을 발견했다.
forward 및 backward pass는 bfloat16으로 계산되지만, 분산 옵티마이저 상태(distributed optimiser state)에는 float32 가중치 사본을 저장한다 (Rajbhandari et al., 2020). 추가적인 세부 사항은 Rae et al. (2021)의 "Lessons Learned"를 참조하라.

Appendix G에서는 Chinchilla와 Gopher 간의 다양한 옵티마이저 관련 변경 사항이 미치는 영향을 보여준다. 이 분석의 모든 모델은 JAX (Bradbury et al., 2018) 및 Haiku (Hennigan et al., 2020)를 사용하여 TPUv3/TPUv4 (Jouppi et al., 2017)에서 학습되었다. Chinchilla 모델 카드 (Mitchell et al., 2019)는 Table A8에 포함되어 있다.

Model	Layers	Number Heads	Key/Value Size	$\mathbf{d}_{\text {model }}$	Max LR	Batch Size
Gopher 280B	80	128	128	16,384	$4 \times 10^{-5}$	$3 \mathrm{M} \rightarrow 6 \mathrm{M}$
Chinchilla 70B	80	64	128	8,192	$1 \times 10^{-4}$	$1.5 \mathrm{M} \rightarrow 3 \mathrm{M}$

Table 4: Chinchilla 아키텍처 세부 정보.
layer 수, key/value 크기, bottleneck activation 크기 $\mathrm{d}_{\text {model}}$ , 최대 learning rate, 그리고 학습 batch size (토큰 수)를 나열한다. feed-forward 크기는 항상 $4 \times \mathrm{d}_{\text {model}}$ 로 설정된다. Chinchilla와 Gopher 모두 학습 중간에 batch size를 두 배로 늘린다.

	# Tasks	Examples
Language Modelling	20	WikiText-103, The Pile: PG-19, arXiv, FreeLaw, . . .
Reading Comprehension	3	RACE-m, RACE-h, LAMBADA
Question Answering	3	Natural Questions, TriviaQA, TruthfulQA
Common Sense	5	HellaSwag, Winogrande, PIQA, SIQA, BoolQ
MMLU	57	High School Chemistry, Astronomy, Clinical Knowledge, . . .
BIG-bench	62	Causal Judgement, Epistemic Reasoning, Temporal Sequences, . . .

Table 5: 모든 평가 task.
우리는 Chinchilla를 language modelling 및 다운스트림 task 모음에 대해 평가한다. 직접적인 비교를 위해 Rae et al. (2021)과 거의 동일한 task로 평가를 수행한다.

4.2. Results

우리는 Chinchilla에 대한 광범위한 평가를 수행하며, 다양한 대규모 language model들과 비교한다. 평가는 **Rae et al. (2021)에 제시된 task들의 큰 부분집합(Table 5 참조)**에 대해 이루어졌다. 본 연구의 초점이 최적의 모델 스케일링에 맞춰져 있기 때문에, 우리는 대표성이 높은 큰 부분집합을 포함시켰고, 다른 기존 대규모 모델들과의 더 나은 비교를 위해 몇 가지 새로운 평가를 도입하였다. 모든 task에 대한 평가 세부 사항은 Rae et al. (2021)에 설명된 것과 동일하다.

4.2.1. Language modelling

Figure 5 | Pile 평가. The Pile (Gao et al., 2020)의 다양한 평가 세트에 대해, Gopher와 비교한 Chinchilla의 bits-per-byte (bpb) 개선(감소)을 보여준다. 모든 하위 세트에서 Chinchilla는 Gopher를 능가한다.

Figure 5에서 볼 수 있듯이, Chinchilla는 The Pile (Gao et al., 2020)의 모든 평가 하위 세트에서 Gopher를 크게 능가한다. Jurassic-1 (178B) Lieber et al. (2021)과 비교했을 때, Chinchilla는 dm_mathematics와 ubuntu_irc 두 하위 세트를 제외한 모든 하위 세트에서 더 나은 성능을 보인다. 원시 bits-per-byte 비교는 Table A5를 참조하라. Wikitext103 (Merity et al., 2017)에서 Chinchilla는 7.16의 perplexity를 달성했으며, Gopher는 7.75를 기록했다. Chinchilla는 Gopher보다 4배 더 많은 데이터로 학습되었으므로, 이러한 language modelling 벤치마크에서 Chinchilla와 Gopher를 비교할 때는 train/test set leakage가 인위적으로 결과를 향상시킬 수 있다는 점에 주의해야 한다. 따라서 우리는 leakage 문제가 덜한 다른 task들, 예를 들어 MMLU (Hendrycks et al., 2020)와 BIG-bench (BIG-bench collaboration, 2021), 그리고 다양한 closed-book question answering 및 common sense 분석에 더 중점을 둔다.

Random	$25.0 \%$
Average human rater	$34.5 \%$
GPT-3 5-shot	$43.9 \%$
Gopher 5-shot	$60.0 \%$
Chinchilla 5-shot	$67.6 \%$
Average human expert performance	$89.8 \%$
June 2022 Forecast	$57.1 \%$
June 2023 Forecast	$63.4 \%$

Table 6 | Massive Multitask Language Understanding (MMLU). Hendrycks et al. (2020)에서 가져온 모델 및 인간 정확도 비교와 함께 57개 task에 대한 평균 5-shot 정확도를 보고한다. 또한 Steinhardt (2021)에서 73명의 경쟁력 있는 인간 예측가들이 2022년 6월/2023년 6월에 예측한 state of the art 정확도의 평균 예측치도 포함한다.

4.2.2. MMLU

Massive Multitask Language Understanding (MMLU) 벤치마크 (Hendrycks et al., 2020)는 학술 주제에 대한 시험과 유사한 다양한 질문들로 구성되어 있다. Table 6에서 우리는 Chinchilla의 MMLU 5-shot 평균 성능을 보고한다 (전체 결과는 Table A6에 제시되어 있다). 이 벤치마크에서 Chinchilla는 Gopher보다 훨씬 작음에도 불구하고 **평균 정확도 67.6%**를 달성하며 Gopher를 크게 능가한다 (Gopher 대비 7.6% 향상). 놀랍게도 Chinchilla는 2023년 6월 전문가 예측치인 63.4% 정확도마저 뛰어넘는다 (Table 6 참조) (Steinhardt, 2021). 또한 Chinchilla는 high_school_gov_and_politics, international_law, sociology, us_foreign_policy의 4개 개별 task에서 90% 이상의 정확도를 달성했다. 우리가 아는 한, 어떤 다른 모델도 특정 subset에서 90% 이상의 정확도를 달성한 적이 없다.

Figure 6에서는 task별로 Gopher와 Chinchilla의 성능을 비교하여 보여준다. 전반적으로 Chinchilla는 대부분의 task에서 성능 향상을 보인다. 4개의 task (college_mathematics, econometrics, moral_scenarios, formal_logic)에서는 Chinchilla가 Gopher보다 낮은 성능을 보였으며, 2개의 task에서는 성능 변화가 없었다.

4.2.3. Reading comprehension

최종 단어 예측 데이터셋인 LAMBADA (Paperno et al., 2016)에서 Chinchilla는 77.4%의 정확도를 달성했으며, 이는 Gopher의 74.5% 및 **MT-NLG 530B의 76.6%**와 비교된다 (Table 7 참조). RACE-h 및 RACE-m (Lai et al., 2017)에서는 Chinchilla가 Gopher를 크게 능가하며, 두 경우 모두 정확도를 10% 이상 향상시켰다 (Table 7 참조).

4.2.4. BIG-bench

우리는 Rae et al. (2021)에서 보고된 것과 동일한 BIG-bench task 세트(BIG-bench collaboration, 2021)에 대해 Chinchilla를 분석했다. MMLU에서 관찰한 것과 유사하게, Chinchilla는 대다수의 task에서 Gopher를 능가하는 성능을 보인다 (Figure 7 참조). 우리는 Chinchilla가 평균 성능을 10.7% 향상시켜 65.1%의 정확도를 달성했으며, 이는 Gopher의 54.4%보다 높은 수치임을 확인했다. 우리가 고려한 62개 task 중 Chinchilla가 Gopher보다 성능이 낮은 task는 crash_blossom, dark_humor_detection,

Figure 6 | Gopher와 비교한 MMLU 결과. Chinchilla는 평균 7.6% 더 나은 성능을 보였으며 (Table 6 참조), 57개 개별 task 중 51개에서 더 우수하고, 2개에서 동일하며, 단 4개 task에서만 Gopher보다 낮은 성능을 보였다.

	Chinchilla	Gopher	GPT-3	MT-NLG 530B
LAMBADA Zero-Shot	77.4	74.5	76.2	76.6
RACE-m Few-Shot	$\mathbf{86 . 8}$	75.1	58.1	-
RACE-h Few-Shot	$\mathbf{82 . 3}$	71.6	46.8	47.9

Table 7 | 독해력 (Reading comprehension). RACE-h 및 RACE-m (Lai et al., 2017)에서 Chinchilla는 Gopher보다 상당히 향상된 성능을 보인다. GPT-3 및 MT-NLG 530B는 RACE-h/m에서 우리가 사용한 것과 다른 prompt 형식을 사용하므로, Gopher 및 Chinchilla와 직접적인 결과 비교는 어렵다. LAMBADA (Paperno et al., 2016)에서는 Chinchilla가 Gopher와 MT-NLG 530B 모두를 능가한다.

mathematical_induction, logical_args의 네 가지뿐이다. Chinchilla의 전체 정확도 결과는 Table A7에서 확인할 수 있다.

4.2.5. Common sense

우리는 Chinchilla를 다양한 상식(common sense) 벤치마크에서 평가하였다: PIQA (Bisk et al., 2020), SIQA (Sap et al., 2019), Winogrande (Sakaguchi et al., 2020), HellaSwag (Zellers et al., 2019), 그리고 BoolQ (Clark et al., 2019). 그 결과, Chinchilla는 모든 task에서 Gopher와 GPT-3를 능가했으며, MT-NLG 530B에 대해서는 한 task를 제외하고 모두 더 나은 성능을 보였다 (Table 8 참조).

TruthfulQA (Lin et al., 2021) 벤치마크에서 Chinchilla는 0-shot, 5-shot, 10-shot 설정에서 각각 43.6%, 58.5%, 66.7%의 정확도를 달성했다. 이에 비해 Gopher는 0-shot에서 29.5%, 10-shot에서 43.7%의 정확도만을 기록했다. Lin et al. (2021)의 연구 결과와는 대조적으로, Chinchilla가 달성한 **큰 폭의 성능 향상 (0-shot 정확도에서 14.1% 증가)**은 사전학습 데이터의 모델링을 개선하는 것만으로도 이 벤치마크에서 상당한 성능 향상을 이끌어낼 수 있음을 시사한다.

Figure 7 | BIG-bench 결과와 Gopher 비교
Chinchilla는 고려된 BIG-bench task 중 4개를 제외한 모든 task에서 Gopher를 능가한다. 전체 결과는 Table A7에 있다.

4.2.6. Closed-book question answering

Closed-book question answering 벤치마크 결과는 Table 9에 보고되어 있다. **Natural Questions 데이터셋 (Kwiatkowski et al., 2019)**에서 Chinchilla는 새로운 closed-book SOTA 정확도를 달성했다: Gopher의 경우 각각 21%와 28%였던 것에 비해, 5-shot에서 31.5%, **64-shot에서 35.5%**를 기록했다. **TriviaQA (Joshi et al., 2017)**에서는 filtered (이전 검색 및 open-book 연구에서 사용됨) 및 unfiltered (이전 대규모 language model 평가에서 사용됨) 두 가지 세트에 대한 결과를 보여준다. 두 경우 모두 Chinchilla는 Gopher를 상당히 능가한다. filtered 버전에서 Chinchilla는 open book SOTA (Izacard and Grave, 2020)에 비해 단 7.9%만 뒤처진다. unfiltered 세트에서는 Chinchilla가 GPT-3를 능가한다 (Table 9 참조).

4.2.7. Gender bias and toxicity

Large Language Model은 공격적인 언어 출력, 사회적 편향 전파, 개인 정보 유출과 같은 잠재적 위험을 내포하고 있다 (Bender et al., 2021; Weidinger et al., 2021). Chinchilla는 Gopher와 동일한 데이터로 학습되었고(다만 상대적 가중치는 약간 다름), 유사한 아키텍처를 가지고 있기 때문에 Gopher와 유사한 위험을 가질 것으로 예상된다. 본 연구에서는 **성별 편향(특히 성별 및 직업 편향)**과 유해 언어 생성에 대해 살펴본다. 잠재적인 문제점을 강조하기 위해 몇 가지 일반적인 평가를 선택했지만, 우리의 평가가 포괄적이지 않으며 LLM의 위험을 이해, 평가 및 완화하기 위한 많은 연구가 남아있음을 강조한다.

	Chinchilla	Gopher	GPT-3	MT-NLG 530B	Supervised SOTA
HellaSWAG	80.8%	79.2%	78.9%	80.2%	93.9%
PIQA	81.8%	81.8%	81.0%	82.0%	90.1%
Winogrande	74.9%	70.1%	70.2%	73.0%	91.3%
SIQA	51.3%	50.6%	-	-	83.2%
BoolQ	83.7%	79.3%	60.5%	78.2%	91.4%

Table 8 | Common Sense 벤치마크에 대한 Zero-shot 비교. Chinchilla, Gopher, MT-NLG 530B 간의 다양한 Common Sense 벤치마크에 대한 비교를 보여준다. Chinchilla는 모든 task에서 Gopher 및 GPT-3와 같거나 더 나은 성능을 보인다. 단 한 가지를 제외하고 모든 task에서 Chinchilla는 훨씬 더 큰 MT-NLG 530B 모델보다 더 나은 성능을 보인다.

	Method	Chinchilla	Gopher	GPT-3	SOTA (open book)
	0-shot	16.6%	10.1%	14.6%
Natural Questions (dev)	5-shot	31.5%	24.5%	-	54.4%
	64-shot	35.5%	28.2%	29.9%
TriviaQA (unfiltered, test)	0-shot	67.0%	52.8%	64.3 %
	5-shot	73.2%	63.6%	-	-
	64-shot	72.3%	61.3%	71.2%
TriviaQA (filtered, dev)	0-shot	55.4%	43.5%	-
	5-shot	64.1%	57.0%	-	72.5%
	64-shot	64.6%	57.2%	-

Table 9 | Closed-book 질문 응답. Natural Questions (Kwiatkowski et al., 2019) 및 TriviaQA (Joshi et al., 2017)에서 Chinchilla는 모든 경우에 Gopher보다 더 나은 성능을 보인다. Natural Questions에서 Chinchilla는 GPT-3보다 더 나은 성능을 보인다. TriviaQA에서는 GPT-3 및 open book SOTA (FiD + Distillation (Izacard and Grave, 2020))와 비교하기 위해 두 가지 다른 평가 세트에 대한 결과를 보여준다.

성별 편향 (Gender bias). Rae et al. (2021)에서 논의된 바와 같이, 대형 언어 모델은 학습 데이터셋에서 얻은 다양한 그룹(예: 성별 그룹)에 대한 현대적 및 역사적 담론을 반영하며, Chinchilla도 마찬가지일 것으로 예상된다. 본 연구에서는 zero-shot 설정에서 Winogender 데이터셋 (Rudinger et al., 2018)을 사용하여 잠재적인 성별 및 직업 편향이 공동 참조 해결(coreference resolution)에서 불공정한 결과로 나타나는지 테스트한다. Winogender는 모델이 대명사가 다른 직업 단어를 참조하는지 정확하게 판단할 수 있는지 테스트한다. 편향되지 않은 모델은 대명사의 성별에 관계없이 대명사가 어떤 단어를 참조하는지 정확하게 예측할 것이다. 우리는 Rae et al. (2021)과 동일한 설정을 따른다 (자세한 내용은 Section H.3 참조).

Table 10에서 보듯이, Chinchilla는 모든 그룹에서 Gopher보다 대명사를 더 자주 정확하게 해결한다. 흥미롭게도, 성능 향상은 남성 대명사(3.2% 증가)보다 여성 또는 중성 대명사(각각 8.3%, 9.2% 증가)에서 상당히 작다. 우리는 또한 정확한 대명사 해결이 성별 고정관념(노동 통계에 의해 결정됨)과 모순되는 gotcha 예시도 고려한다. 다시 말하지만, Chinchilla는 Gopher보다 대명사를 더 정확하게 해결한다. 예시를 남성/여성 성별과 gotcha/not gotcha로 나눌 때, 가장 큰 개선은 여성 gotcha 예시(10% 개선)에서 나타난다. 따라서, Chinchilla는 Gopher보다 더 많은 공동 참조 예시에서 성별 고정관념을 일관되게 극복하지만, 개선율은 일부 대명사에서 다른 대명사보다 높으며, 이는 더 compute-optimal한 모델을 사용함으로써 얻어지는 개선이 고르지 않을 수 있음을 시사한다.

샘플 유해성 (Sample toxicity). 언어 모델은 모욕, 혐오 발언, 욕설, 위협을 포함한 유해한 언어를 생성할 수 있다 (Gehman et al., 2020; Rae et al., 2021). 유해성은 포괄적인 용어이며, LM에서의 평가는 어려움이 따르지만 (Welbl et al., 2021; Xu et al., 2021), 자동 분류기 점수는 LM이 생성하는 유해 텍스트의 수준을 나타내는 지표가 될 수 있다. Rae et al. (2021)은 모델 파라미터 수를 늘려 언어 모델링 손실을 개선하는 것이 유해 텍스트 생성(unprompted)에 미미한 영향만 미친다는 것을 발견했다. 본 연구에서는 더 compute-optimal한 학습을 통해 달성된 더 낮은 LM 손실에 대해서도 동일한 결과가 나타나는지 분석한다. Rae et al. (2021)의 프로토콜과 유사하게, 우리는 Chinchilla에서 25,000개의 unprompted 샘플을 생성하고, 이들의 PerspectiveAPI 유해성 점수 분포를 Gopher가 생성한 샘플과 비교한다. 몇 가지 요약 통계는 큰 차이가 없음을 나타낸다: Gopher의 평균(중앙값) 유해성 점수는 0.081(0.064)인 반면, Chinchilla는 0.087(0.066)이며, 95번째 백분위수 점수는 Gopher가 0.230, Chinchilla가 0.238이다. 즉, 생성된 샘플의 대다수는 비유해성으로 분류되며, 모델 간의 차이는 미미하다. 이전 연구 결과 (Rae et al., 2021)와 일치하게, 이는 무조건적인 텍스트 생성에서의 유해성 수준이 모델 품질(언어 모델링 손실로 측정됨)과 대체로 독립적이라는 것을 시사한다. 즉, 더 나은 학습 데이터셋 모델이 반드시 더 유해한 것은 아니다.

	Chinchilla	Gopher		Chinchilla	Gopher
All	78.3%	71.4%	Male gotcha	62.5%	59.2%
Male	71.2%	68.0%	Male not gotcha	80.0%	76.7%
Female	79.6%	71.3%	Female gotcha	76.7%	66.7%
Neutral	84.2%	75.0%	Female not gotcha	82.5%	75.8%

Table 10 | Winogender 결과. 왼쪽: Chinchilla는 Gopher보다 일관되게 대명사를 더 잘 해결한다. 오른쪽: Chinchilla는 성별 고정관념과 모순되는 예시(gotcha 예시)에서 더 나은 성능을 보인다. 그러나 그룹 간 성능 차이는 Chinchilla가 편향을 나타냄을 시사한다.

5. Discussion & Conclusion

대규모 language model 학습의 현재까지의 추세는 모델 크기를 늘리는 것이었으며, 종종 학습 토큰 수는 늘리지 않았다. 가장 큰 dense Transformer인 MT-NLG 530B는 불과 2년 전 GPT-3의 1,700억 개 파라미터보다 3배 이상 커졌다. 그러나 이 모델뿐만 아니라 기존 대규모 모델의 대부분은 모두 비슷한 수의 토큰(약 3,000억 개)으로 학습되었다. 이러한 메가 모델을 학습시키려는 열망이 상당한 엔지니어링 혁신으로 이어졌지만, 우리는 점점 더 큰 모델을 학습시키려는 경쟁이 동일한 compute budget으로 달성할 수 있는 성능에 비해 모델의 성능을 상당히 저하시키고 있다고 가설을 세웠다.

우리는 400회 이상의 학습 실행 결과를 바탕으로 모델 크기와 학습 기간을 최적으로 설정하기 위한 세 가지 예측 접근 방식을 제안한다. 이 세 가지 접근 방식 모두 Gopher가 상당히 과도하게 커져 있으며, 동일한 compute budget으로 더 많은 데이터로 학습된 더 작은 모델이 더 나은 성능을 보일 것이라고 예측한다. 우리는 70B 파라미터 모델인 Chinchilla를 학습시켜 이 가설을 직접 테스트했으며, 거의 모든 측정된 평가 task에서 Gopher 및 더 큰 모델보다 뛰어난 성능을 보였다.

우리의 방법은 추가 compute가 주어졌을 때 대규모 모델을 어떻게 확장할지에 대한 예측을 가능하게 하지만, 몇 가지 한계점이 있다. 대규모 모델 학습 비용 때문에, 우리는 대규모에서 비교 가능한 학습 실행(Chinchilla와 Gopher)이 두 번뿐이며, 중간 규모에서의 추가 테스트는 없다. 또한, 우리는 효율적인 계산 frontier가 compute budget, 모델 크기, 학습 토큰 수 간의 power-law 관계로 설명될 수 있다고 가정한다. 그러나 우리는 높은 compute budget에서 $\log(N_{opt})$ 에 일부 오목성(concavity)을 관찰한다 (Appendix E 참조). 이는 우리가 대규모 모델의 최적 크기를 여전히 과대평가하고 있을 수 있음을 시사한다. 마지막으로, 우리의 분석을 위한 학습 실행은 모두 1 epoch 미만의 데이터로 학습되었다. 향후 연구에서는 다중 epoch regime을 고려할 수 있다. 이러한 한계점에도 불구하고, Chinchilla와 Gopher의 비교는 우리의 성능 예측을 검증했으며, 이를 통해 동일한 compute budget으로 더 나은(그리고 더 가벼운) 모델을 학습할 수 있었다.

점점 더 큰 모델을 학습할 수 있도록 하는 최근의 상당한 연구가 있었지만, 우리의 분석은 데이터셋 스케일링에 대한 집중이 더 필요함을 시사한다. 추측컨대, 우리는 데이터의 품질이 높을 때만 점점 더 큰 데이터셋으로 확장하는 것이 유익할 것이라고 예상한다. 이는 데이터셋 품질에 높은 초점을 맞춰 더 큰 데이터셋을 책임감 있게 수집할 것을 요구한다. 더 큰 데이터셋은 language modelling loss뿐만 아니라 다운스트림 task에서도 train-test set overlap이 적절하게 고려되도록 추가적인 주의가 필요할 것이다. 마지막으로, 수조 개의 토큰으로 학습하는 것은 많은 윤리적 및 개인 정보 보호 문제를 야기한다. 웹에서 스크랩된 대규모 데이터셋에는 유해한 언어, 편향, 개인 정보가 포함될 것이다. 훨씬 더 큰 데이터셋이 사용됨에 따라, 그러한 정보의 양(빈도는 아닐지라도)이 증가하며, 이는 데이터셋 내성(introspection)을 더욱 중요하게 만든다. Chinchilla는 편향과 유해성 문제를 겪지만, 흥미롭게도 Gopher보다 덜 영향을 받는 것으로 보인다. 대규모 language model의 성능과 유해성이 어떻게 상호작용하는지 더 잘 이해하는 것은 중요한 미래 연구 질문이다.

우리는 우리의 방법론을 autoregressive language model 학습에 적용했지만, 다른 modality에서도 모델 크기와 데이터 양 사이에 유사한 trade-off가 있을 것으로 예상한다. 대규모 모델 학습은 매우 비싸기 때문에, 최적의 모델 크기와 학습 단계를 미리 선택하는 것이 필수적이다. 우리가 제안하는 방법은 새로운 설정에서도 쉽게 재현할 수 있다.

6. Acknowledgements

원고에 대한 유용한 의견을 주신 Jean-baptiste Alayrac, Kareem Ayoub, Chris Dyer, Nando de Freitas, Demis Hassabis, Geoffrey Irving, Koray Kavukcuoglu, Nate Kushman, Angeliki Lazaridou께 감사드린다. 유익한 논의를 해주신 Andy Brock, Irina Higgins, Michela Paganini, Francis Song 및 DeepMind의 다른 동료들에게도 감사드린다. 또한 JAX 및 XLA 팀의 지원과 도움에 깊이 감사드린다.

Appendix

A. Training dataset

Table A1에서는 Chinchilla 및 모든 scaling run에 사용된 학습 데이터셋 구성을 보여준다. MassiveWeb과 Wikipedia subset은 모두 한 epoch 이상 사용되었다는 점에 유의하라.

	Disk Size	Documents	Sampling proportion	Epochs in 1.4T tokens
MassiveWeb	1.9 TB	604 M	45% (48%)	1.24
Books	2.1 TB	4M	30% (27%)	0.75
C4	0.75 TB	361 M	10% (10%)	0.77
News	2.7 TB	1.1 B	10% (10%)	0.21
GitHub	3.1 TB	142M	4% (3%)	0.13
Wikipedia	0.001 TB	6M	1% (2%)	3.40

Table A1: MassiveText 데이터 구성.
MassiveText의 각 subset에 대해, 총 디스크 크기, 문서 수, 그리고 학습 중 사용된 샘플링 비율을 나열하였다. (괄호 안에는 Rae et al. (2021)에서 사용된 분포와 약간 다른 분포를 사용했음을 표시). 가장 오른쪽 열에는 1.4조 개의 토큰에서 사용된 epoch 수를 보여준다.

B. Optimal cosine cycle length

코사인 주기 길이(cosine cycle length)와 그에 상응하는 learning rate 감소(Rae et al. (2021)에 따라 $10 \times$ learning rate decay를 사용)에 대한 핵심적인 가정이 존재한다. 우리는 Figure A1에서 보여주듯이, 코사인 주기 길이를 목표 학습 스텝 수보다 너무 길게 설정하면 최적화되지 않은 모델이 학습된다는 것을 발견했다. 결과적으로, 우리는 최적으로 학습된 모델은 주어진 FLOP 예산 내에서 코사인 주기 길이가 최대 스텝 수에 정확히 맞춰져야 한다고 가정한다. 본 분석에서는 이 규칙을 따른다.

C. Consistency of scaling results across datasets

우리는 두 가지 다른 데이터셋(C4 (Raffel et al., 2020b) 및 GitHub 코드 (Rae et al. (2021)의 데이터 사용))으로 학습한 후, IsoFLOP (접근 방식 2) 분석을 통한 스케일링 결과를 Table A2에 제시한다. MassiveText의 서브셋을 사용한 두 실험 세트 모두에서, 우리는 MassiveText 실험과 동일한 tokenizer를 사용한다.

Figure A2와 Table A2에서 볼 수 있듯이, 이들 데이터셋에서의 스케일링 동작은 MassiveText에서 발견한 것과 매우 유사하다. 이는 한 epoch 이상 학습하지 않는 한, 우리의 결과가 데이터셋에 독립적임을 시사한다.

Figure A1 | 코사인 주기 길이(cosine cycle length)에 대한 그리드. 코사인 주기 길이를 목표 학습 스텝 수보다 1, 1.1, 1.25, 1.5, 2, 5배 길게 설정한 6개의 곡선을 보여준다. 코사인 주기 길이가 너무 길어 학습률이 적절히 감소하지 않으면 성능이 저하된다. 학습 스텝 수를 25% 이상 과대평가하면 성능이 명확히 저하됨을 확인했다. 학습 스텝 수를 두 가지 다른 값(상단 및 하단)으로 설정한 결과를 보여준다.

Figure A2 | C4 및 GitHub IsoFLOP 곡선. C4 데이터셋 (Raffel et al., 2020b)과 GitHub 데이터셋 (Rae et al., 2021)을 사용하여, Figure 3에서와 같이 4개의 IsoFLOP 프로파일을 생성하고 파라미터 및 토큰 수 스케일링을 보여준다. 스케일링 계수는 Table A2에 제시되어 있다.

Approach	Coef. $a$ where $N_{\text {opt }} \propto C^{a}$	Coef. $b$ where $D_{\text {opt }} \propto C^{b}$
C4	0.50	0.50
GitHub	0.53	0.47
Kaplan et al. (2020)	0.73	0.27

Table A2 | 두 가지 대체 데이터셋에서 학습 연산량 증가에 따른 추정된 파라미터 및 데이터 스케일링. 표에 나열된 값은 관계식 $N_{\text {opt }} \propto C^{a}$ 및 $D_{\text {opt }} \propto C^{b}$ 의 지수 $a$ 와 $b$ 이다. IsoFLOP 프로파일을 사용하여 두 가지 다른 데이터셋에서의 스케일링을 추정한다.

D. Details on the scaling analyses

D.1. Approach 1: Fixing model sizes and varying training sequences

우리는 가장 작은 모델에는 최대 $2 \times 10^{-4}$ 의 learning rate를, 가장 큰 모델에는 $1.25 \times 10^{-4}$ 의 learning rate를 사용한다. 모든 경우에 cosine schedule을 사용하여 학습 중 learning rate가 10배 감소하도록 설정한다. 우리는 cosine cycle의 길이가 학습 step 수와 대략적으로 일치해야 한다는 가정을 세웠다. cosine cycle이 학습 step 수를 25% 이상 초과할 경우 성능이 현저히 저하됨을 발견했다 (Figure A1 참조). 학습 곡선을 부드럽게 하기 위해 10 step 길이의 Gaussian smoothing을 사용한다.

D.2. Approach 3: Parametric fitting of the loss

이 섹션에서는 먼저 Equation (2)가 어떻게 도출될 수 있는지 보여준다. 명확성을 위해 해당 방정식을 아래에 다시 제시한다.

\hat{L}(N, D) \triangleq E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}},

이는 함수 근사(function approximation) 항과 최적화 비최적성(optimisation suboptimality) 항 간의 기대 위험(expected risk) 분해에 기반한다. 이어서 파라미터 fitting을 위한 최적화 절차에 대한 세부 정보를 제공한다.

손실 분해 (Loss decomposition)
형식적으로, 우리는 최대 시퀀스 길이 $s_{\max}$ 까지 $s$ 가 변하는 시퀀스 $x \in \mathcal{Y}^{s}$ 를 기반으로 다음 토큰 $y \in \mathscr{Y}$ 를 예측하는 task를 고려한다. 우리는 $\mathcal{Y}$ 의 토큰과 그 과거(past)가 $\mathcal{X}$ 에 있는 분포 $P \in \mathcal{D}(\mathcal{X} \times \mathcal{Y})$ 를 고려한다. 예측기 $f: \mathcal{X} \rightarrow \mathcal{D}(\mathcal{Y})$ 는 과거 시퀀스가 주어졌을 때 각 토큰의 확률을 계산한다. Bayes classifier $f^{\star}$ 는 관측된 토큰 $y$ 에 대한 $f(x)$ 의 cross-entropy를 최소화하며, 기대값은 전체 데이터 분포에 대해 취해진다. 우리는 $L$ 을 기대 위험(expected risk)이라고 정의한다.

L(f) \triangleq \mathbb{E}\left[\log f(x)_{y}\right], \quad \text { and set } \quad f^{\star} \triangleq \underset{f \in \mathcal{F}(\mathcal{X}, \mathcal{D}(\mathcal{Y}))}{\operatorname{argmin}} L(f) .

크기 $N$ 의 모든 Transformer 집합을 $\mathcal{H}_{N}$ 이라고 할 때, 이는 시퀀스를 토큰 분포 $\mathcal{X} \rightarrow \mathcal{D}(\mathcal{Y})$ 로 매핑하는 모든 함수의 부분 집합을 형성한다. 크기 $N$ 의 Transformer를 기대 위험 $L(f)$ 에 fitting하는 것은 제한된 함수 공간에서 해당 위험을 최소화하는 것과 같다.

f_{N} \triangleq \underset{f \in \mathcal{H}_{N}}{\operatorname{argmin}} L(f) .

크기 $D$ 의 데이터셋 $\left(x_{i}, y_{i}\right)_{i \in[1, D]}$ 을 관측할 때, 우리는 $\mathbb{E}_{P}$ 에 접근할 수 없지만, 대신 경험적 분포 $\hat{P}_{D}$ 에 대한 경험적 기대값 $\hat{\mathbb{E}}_{D}$ 에 접근한다.
$D$ 개의 데이터 포인트가 주어지고, 이를 한 번만 볼 수 있으며, 가설 공간의 크기를 $N$ 차원으로 제한할 때 어떤 일이 발생하는가? 우리는 유한 차원 함수 공간 $\mathcal{H}_{N}$ 내에서 경험적 위험을 최소화하는 방향으로 나아가고 있다.

\hat{L}_{D}(f) \triangleq \hat{\mathbb{E}}_{D}\left[\log f(x)_{y}\right], \quad \text { setting } \quad \hat{f}_{N, D} \triangleq \underset{f \in \mathcal{H}_{N}}{\operatorname{argmin}} \hat{L}_{D}(f)

우리는 일반적으로 크기 $D$ 의 데이터셋에 대해 단일 epoch만 수행하므로 $\hat{f}_{N, D}$ 를 얻을 수 없다. 대신, 우리는 $D$ 개의 데이터 포인트를 기반으로 특정 수의 gradient step을 적용한 결과인 $\bar{f}_{N, D}$ 를 얻는다. (수행할 step 수는 gradient batch size에 따라 달라지며, 이에 대해서는 잘 검증된 휴리스틱을 사용한다.)

Bayes classifier $f^{\star}$ , 기대 위험 최소화기 $f_{N}$ , 그리고 "단일 epoch 경험적 위험 최소화기" $\bar{f}_{N, D}$ 를 사용하여, 손실 $L(N, D)$ 를 다음과 같이 분해할 수 있다.

L(N, D) \triangleq L\left(\bar{f}_{N, D}\right)=L\left(f^{\star}\right)+\left(L\left(f_{N}\right)-L\left(f^{\star}\right)\right)+\left(L\left(\bar{f}_{N, D}\right)-L\left(f_{N}\right)\right)

이 손실은 세 가지 항으로 구성된다:

Bayes risk: 전체 분포 $P$ 에서 다음 토큰 예측에 대해 달성 가능한 최소 손실, 즉 "자연어 텍스트의 엔트로피".
함수 근사(functional approximation) 항: 가설 공간의 크기에 따라 달라진다.
확률적 근사(stochastic approximation) 항: $L$ 대신 $\hat{L}_{D}$ 를 최소화하고, 주어진 데이터셋에 대해 단일 epoch만 수행함으로써 발생하는 비최적성을 포착한다.

손실 항의 예상 형태 (Expected forms of the loss terms)
분해 (9)에서 두 번째 항은 함수 근사 공간의 크기를 정의하는 파라미터 수 $N$ 에 전적으로 의존한다. 두 계층 신경망 집합에서는 $\frac{1}{N^{1 / 2}}$ 에 비례할 것으로 예상된다 (Siegel and Xu, 2020). 마지막으로, 확률적 1차 방법에서 조기 종료(early stopping)에 해당한다는 점을 고려할 때, 세 번째 항은 이러한 방법의 수렴 속도에 비례해야 하며, 이는 $\frac{1}{D^{1 / 2}}$ 로 하한이 정해진다 (Robbins and Monro, 1951) (그리고 이 하한에 도달할 수도 있다). 이 수렴 속도는 차원 독립적일 것으로 예상되며 (예: Bubeck, 2015 참조), 손실의 부드러움(smoothness)에만 의존한다. 따라서 우리는 두 번째 항이 (2)에서 $D$ 에만 의존한다고 가정한다. 경험적으로, (2)를 fitting한 후 우리는 다음을 발견했다.

L(N, D)=E+\frac{A}{N^{0.34}}+\frac{B}{D^{0.28}}

여기서 $E=1.69, A=406.4, B=410.7$ 이다. 파라미터/데이터 계수가 모두 $\frac{1}{2}$ 보다 낮다는 점에 주목한다. 이는 데이터 효율성 계수에서는 예상되지만 (알려진 하한과는 거리가 멀다), 향후 모델 및 학습 접근 방식은 이러한 계수를 높이기 위해 노력해야 한다.

데이터에 대한 분해 fitting (Fitting the decomposition to data)
우리는 다음 문제를 효과적으로 최소화한다.

\min _{a, b, e, \alpha, \beta} \sum_{\operatorname{Run} i} \operatorname{Huber}_{\delta}\left(\operatorname{LSE}\left(a-\alpha \log N_{i}, b-\beta \log D_{i}, e\right)-\log L_{i}\right),

여기서 $LSE$ 는 log-sum-exp 연산자이다. 그런 다음 $A, B, E=\exp (a), \exp (b), \exp (e)$ 로 설정한다.
우리는 위 목적 함수의 지역 최솟값을 찾기 위해 LBFGS 알고리즘을 사용했으며, 초기화는 다음 그리드에서 시작했다: $\alpha \in\{0., 0.5, \ldots, 2\}, \beta \in\{0., 0.5, \ldots, 2\}, e \in\{-1.,-.5, \ldots, 1\}, a \in \{0,5, \ldots, 25\}$ , 그리고 $b \in\{0,5, \ldots, 25\}$ . 최적의 초기화가 초기화 탐색 범위의 경계에 있지 않음을 발견했다.

Huber loss에 대해 $\delta=10^{-3}$ 을 사용한다. $\delta$ 값이 클수록 모델이 작은 연산량(compute) regime에 과적합되고, 더 큰 실행(run)에서 hold-out 데이터를 제대로 예측하지 못하는 경향이 있음을 발견했다. $\delta$ 가 $10^{-3}$ 보다 작을 때는 결과 예측에 영향을 미치지 않았다.

D.3. Predicted compute optimal frontier for all three methods

접근 방식 2와 3에 대해, 우리는 다양한 연산 예산(compute budget)에 따른 모델 크기 및 학습 토큰 수 추정치를 Table A3에 제시한다. 또한, 세 가지 방법에 대한 다양한 FLOP 예산에 따른 예측 토큰 수와 파라미터 수를 Figure A3에 그래프로 나타냈다.

	Approach 2		Approach 3
Parameters	FLOPs	Tokens	FLOPs	Tokens
400 Million	$1.84 \mathrm{e}+19$	7.7 Billion	$2.21 \mathrm{e}+19$	9.2 Billion
1 Billion	$1.20 \mathrm{e}+20$	20.0 Billion	$1.62 \mathrm{e}+20$	27.1 Billion
10 Billion	$1.32 \mathrm{e}+22$	219.5 Billion	$2.46 \mathrm{e}+22$	410.1 Billion
67 Billion	$6.88 \mathrm{e}+23$	1.7 Trillion	$1.71 \mathrm{e}+24$	4.1 Trillion
175 Billion	$4.54 \mathrm{e}+24$	4.3 Trillion	$1.26 \mathrm{e}+24$	12.0 Trillion
280 Billion	$1.18 \mathrm{e}+25$	7.1 Trillion	$3.52 \mathrm{e}+25$	20.1 Trillion
520 Billion	$4.19 \mathrm{e}+25$	13.4 Trillion	$1.36 \mathrm{e}+26$	43.5 Trillion
1 Trillion	$1.59 \mathrm{e}+26$	26.5 Trillion	$5.65 \mathrm{e}+26$	94.1 Trillion
10 Trillion	$1.75 \mathrm{e}+28$	292.0 Trillion	$8.55 \mathrm{e}+28$	1425.5 Trillion

Table A3 | 다양한 모델 크기에 대한 최적 학습 FLOPs 및 학습 토큰 수 추정치. Table 3와 유사하게, 다양한 연산 예산에 대한 접근 방식 2와 3의 모델 크기/토큰 수 예측치를 보여준다.

Figure A3 | 학습 FLOP 예산에 대한 최적 토큰 수 및 파라미터 수. 고정된 FLOP 예산에 대해, 접근 방식 1, 2, 3이 예측하는 최적 토큰 수와 파라미터 수를 보여준다. 다른 표현 방식은 Figure 1을 참조하라.

D.4. Small-scale comparison to Kaplan et al. (2020)

$10^{21}$ FLOPs에 대해, 우리는 Approach 1이 예측한 모델과 **Kaplan et al. (2020)**이 예측한 모델을 직접 비교한다. 두 모델 모두 0.5M 토큰의 batch size와 $1.5 \times 10^{-4}$ 의 최대 learning rate를 사용하며, learning rate는 10배 감소한다.
**Kaplan et al. (2020)**에 따르면, 최적 모델 크기는 46.8억 개의 파라미터여야 한다. 반면, 우리의 Approach 1에 따르면 28.6억 개의 파라미터 모델이 최적일 것으로 추정된다.
이 가설을 검증하기 위해, 우리는 47.4억 개의 파라미터와 28.0억 개의 파라미터를 가진 Transformer를 학습시켰으며, 가능한 한 많은 교란 요인을 피하기 위해 동일한 depth-to-width ratio를 사용했다.
그 결과, Figure A4에서 볼 수 있듯이, 우리가 예측한 모델이 Kaplan et al. (2020)이 예측한 모델보다 더 우수한 성능을 보였다.

Figure A4 | $10^{21}$ FLOPs에서의 Kaplan et al. (2020)과의 비교. 우리는 Approach 1과 **Kaplan et al. (2020)**이 $10^{21}$ FLOPs에 대해 최적이라고 예측한 28.0억 및 47.4억 파라미터 Transformer를 학습시켰다. 그 결과, 우리의 예측 모델이 학습 종료 시점에 더 나은 성능을 보임을 확인했다.

E. Curvature of the FLOP-loss frontier

모델의 크기가 증가함에 따라 FLOP-minimal loss frontier에 곡률이 나타나는 것을 관찰할 수 있다. 이는 매우 작은 모델에서 예측한 결과가 더 큰 모델에서 예측한 결과와 다를 수 있음을 의미한다. Figure A5에서는 frontier-point의 첫 번째, 중간, 마지막 1/3 지점을 사용하여 선형 적합(linear fit)을 보여준다. 본 연구에서는 이러한 점을 고려하지 않았으며, 이는 더 작은 모델이 대규모 FLOP 예산에 최적일 수 있음을 시사하므로 흥미로운 향후 연구 과제로 남겨둔다.

F. FLOPs computation

우리는 분석에 embedding matrix에 의해 발생하는 FLOP을 포함한 모든 학습 FLOP을 포함한다. 또한, embedding matrix도 전체 파라미터 수에 포함시킨다. 대규모 모델의 경우, embedding matrix의 FLOP 및 파라미터 기여도는 작다. 우리는 곱셈-누적(multiply accumulate) 비용을 설명하기 위해 2의 계수를 사용한다. Forward pass의 경우, 다음 요소들의 기여를 고려한다:

Embeddings
$\text { - } 2 \times \text { seq_len } \times \text { vocab_size } \times \text { d_model }$
Attention (단일 Layer)
- Key, query 및 value projection: $2 \times 3 \times$ seq_len $\times$ d_model $\times$ (key_size $\times$ num_heads)

Figure A5 | 학습 곡선 envelope. 우리는 손실 frontier를 따라 모든 지점의 첫 1/3 (주황색), 중간 1/3 (녹색), 마지막 1/3 (파란색)에 곡선을 맞춘다. 지점의 일부만 표시한다.

*   Key @ Query logits: $2 \times$ seq_len $\times$ seq_len $\times$ (key_size $\times$ num_heads)
*   Softmax: $3 \times$ num_heads $\times$ seq_len $\times$ seq_len
*   Softmax @ query reduction: $2 \times$ seq_len $\times$ seq_len $\times($ key_size $\times$ num_heads)
*   Final Linear: $2 \times$ seq_len $\times$ (key_size $\times$ num_heads) $\times$ d_model

Dense Block (단일 Layer)
- $2 \times$ seq_len $\times($ d_model $\times$ ffw_size + d_model $\times$ ffw_size $)$
Final Logits
- $2 \times$ seq_len $\times$ d_model $\times$ vocab_size
총 forward pass FLOPs: embeddings + num_layers $\times$ (total_attention + dense_block) + logits

Kaplan et al. (2020)에서와 같이, 우리는 backward pass가 forward pass의 두 배 FLOP을 가진다고 가정한다. Table A4에서는 우리의 계산과 일반적인 근사치인 $C=6 D N$ (Kaplan et al., 2020)을 사용한 계산을 비교한다. 여기서 $C$ 는 FLOPs, $D$ 는 학습 토큰 수, $N$ 은 파라미터 수이다. 우리는 FLOP 계산의 차이가 매우 작으며, 이는 우리의 분석에 영향을 미치지 않음을 발견했다. Rae et al. (2021)에서 제시된 결과와 비교했을 때, 우리는 약간 더

Parameters	num_layers	d_model	ffw_size	num_heads	k/q size	FLOP Ratio (Ours/6ND)
73 M	10	640	2560	10	64	1.03
305M	20	1024	4096	16	64	1.10
552 M	24	1280	5120	10	128	1.08
1.1 B	26	1792	7168	14	128	1.04
1.6 B	28	2048	8192	16	128	1.03
6.8 B	40	3584	14336	28	128	0.99

Table A4 | FLOP 비교. 다양한 모델 크기에 대해, 우리가 시퀀스당 계산한 FLOP과 6 ND 근사치를 사용한 FLOP의 비율을 보여준다.

정확한 계산을 사용하여 약간 다른 값( $6.3 \times 10^{23}$ 대 $5.76 \times 10^{23}$ )을 얻었다.

G. Other differences between Chinchilla and Gopher

모델 크기 및 학습 토큰 수의 차이 외에도, Chinchilla와 Gopher 사이에는 몇 가지 사소한 추가적인 차이점이 있다. 구체적으로, Gopher는 Adam [Kingma and Ba, 2014]으로 학습된 반면, Chinchilla는 AdamW [Loshchilov and Hutter, 2019]로 학습되었다. 또한, Rae et al. [2021]의 "Lessons Learned"에서 논의된 바와 같이, Chinchilla는 sharded optimizer state에 더 높은 정밀도의 가중치 복사본을 저장했다.

우리는 Adam과 AdamW로 학습된 모델들의 비교를 Figure A6와 Figure A7에서 보여준다. 우리는 learning rate schedule과 무관하게 AdamW로 학습된 모델이 Adam으로 학습된 모델보다 더 나은 성능을 보인다는 것을 발견했다. Figure A6에서는 6억 8천만 개의 파라미터를 가진 모델을 대상으로, 더 높은 정밀도의 가중치 복사본을 사용한 경우와 사용하지 않은 경우, 그리고 Adam/AdamW를 비교하여 보여준다.

Figure A6 | 다른 차이점들의 비교. 6억 8천만 개의 파라미터를 가진 모델을 사용하여, Gopher와 Chinchilla 학습에 사용된 설정(optimizer 변경 및 optimizer state에 더 높은 정밀도의 가중치 복사본 사용) 간의 비교를 보여준다. Chinchilla에 사용된 설정(주황색)이 Gopher 학습에 사용된 설정(녹색)보다 명확히 우수한 성능을 보인다.

Figure A7 | Adam vs AdamW. 4억 1천 7백만(파란색) 및 14억(녹색) 파라미터 모델에 대해, AdamW로 학습하는 것이 Adam으로 학습하는 것보다 성능을 향상시킨다는 것을 발견했다.

H. Results

H.1. The Pile

Table A5에서 우리는 Chinchilla, Gopher, Jurassic-1 모델의 The Pile (Gao et al., 2020) 데이터셋에 대한 bits-per-byte (bpb) 값을 보여준다. Chinchilla는 모든 subset에서 Gopher보다 우수한 성능을 보인다. Jurassic-1은 dm_mathematics와 ubuntu_irc 두 subset에서 Chinchilla보다 우수한 성능을 보인다.

Subset	Chinchilla (70B)	Gopher (280B)	Jurassic-1 (170B)
pile_cc	0.667	0.691	0.669
pubmed_abstracts	0.559	0.578	0.587
stackexchange	0.614	0.641	0.655
github	0.337	0.377	0.358
openwebtext2	0.647	0.677	-
arxiv	0.627	0.662	0.680
uspto_backgrounds	0.526	0.546	0.537
freelaw	0.476	0.513	0.514
pubmed_central	0.504	0.525	0.579
dm_mathematics	1.111	1.142	1.037
hackernews	0.859	0.890	0.869
nih_exporter	0.572	0.590	0.590
opensubtitles	0.871	0.900	0.879
europarl	0.833	0.938	-
books3	0.675	0.712	0.835
philpapers	0.656	0.695	0.742
gutenberg_pg_19	0.548	0.656	0.890
bookcorpus2	0.714	0.741	-
ubuntu_irc	1.026	1.090	0.857

Table A5: The Pile 데이터셋에 대한 Bits-per-Byte (bpb). Chinchilla와 Gopher, Jurassic-1의 The Pile 데이터셋에 대한 bpb를 비교하여 보여준다.

H.2. MMLU

Table A6에서는 MMLU의 각 subset에 대한 Chinchilla와 Gopher의 성능을 보여준다.

H.3. Winogender Setup

우리는 Rae et al. (2021)과 동일한 설정을 따른다. Chinchilla의 coreference resolution 능력을 테스트하기 위해, 우리는 **대명사 참조(pronoun reference)**를 포함하는 문장을 입력한다 (예: "The librarian helped the child pick out a book because {pronoun} liked to encourage reading."). 그런 다음, 모델이 "{Pronoun}’ refers to the" 문장을 다양한 문장 역할(이 예시에서는 "librarian"과 "child")로 완성할 확률을 측정한다. 각 예시는 올바른 대명사 해상도(이 예시에서는 대명사가 사서에 해당함)로 주석 처리되어 있다. 각 문장은 여성, 남성, 그리고 성 중립 대명사로 테스트된다. 편향되지 않은 모델이라면 대명사의 성별과 관계없이 대명사가 어떤 단어를 참조하는지 정확하게 예측할 것이다.

H.4. BIG-bench

Table A7에서는 우리가 고려한 BIG-bench의 각 subset에 대한 Chinchilla와 Gopher의 성능을 보여준다.

I. Model Card

Mitchell et al. (2019)이 제시한 프레임워크에 따라 Chinchilla 모델 카드를 Table A8에 제시한다.

Task	Chinchilla	Gopher	Task	Chinchilla	Gopher
abstract_algebra	31.0	25.0	anatomy	70.4	56.3
astronomy	73.0	65.8	business_ethics	72.0	70.0
clinical_knowledge	75.1	67.2	college_biology	79.9	70.8
college_chemistry	51.0	45.0	college_computer_science	51.0	49.0
college_mathematics	32.0	37.0	college_medicine	66.5	60.1
college_physics	46.1	34.3	computer_security	76.0	65.0
conceptual_physics	67.2	49.4	econometrics	38.6	43.0
electrical_engineering	62.1	60.0	elementary_mathematics	41.5	33.6
formal_logic	33.3	35.7	global_facts	39.0	38.0
high_school_biology	80.3	71.3	high_school_chemistry	58.1	47.8
high_school_computer_science	58.0	54.0	high_school_european_history	78.8	72.1
high_school_geography	86.4	76.8	high_school_gov_and_politics	91.2	83.9
high_school_macroeconomics	70.5	65.1	high_school_mathematics	31.9	23.7
high_school_microeconomics	77.7	66.4	high_school_physics	36.4	33.8
high_school_psychology	86.6	81.8	high_school_statistics	58.8	50.0
high_school_us_history	83.3	78.9	high_school_world_history	85.2	75.1
human_aging	77.6	66.4	human_sexuality	86.3	67.2
international_law	90.9	77.7	jurisprudence	79.6	71.3
logical_fallacies	80.4	72.4	machine_learning	41.1	41.1
management	82.5	77.7	marketing	89.7	83.3
medical_genetics	69.0	69.0	miscellaneous	84.5	75.7
moral_disputes	77.5	66.8	moral_scenarios	36.5	40.2
nutrition	77.1	69.9	philosophy	79.4	68.8
prehistory	81.2	67.6	professional_accounting	52.1	44.3
professional_law	56.5	44.5	professional_medicine	75.4	64.0
professional_psychology	75.7	68.1	public_relations	73.6	71.8
security_studies	75.9	64.9	sociology	91.0	84.1
us_foreign_policy	92.0	81.0	virology	53.6	47.0
world_religions	87.7	84.2

Table A6 | Chinchilla MMLU 결과. MMLU (Hendrycks et al., 2020)의 각 하위 세트에 대해 Chinchilla의 정확도를 Gopher와 비교하여 보여준다.

Model Details
Organization Developing the Model	DeepMind
Model Date	2022년 3월
Model Type	Autoregressive Transformer Language Model (자세한 내용은 Section 4.1 참조)
Feedback on the Model	{jordanhoffmann, sborgeaud, amensch,sifre}@deepmind.com
Intended Uses
Primary Intended Uses	주요 용도는 언어 모델 연구이며, 다음을 포함한다: Rae et al. (2021)에 나열된 언어 모델의 스케일링 동작에 대한 연구.

Primary Intended Users	DeepMind 연구원. 이 모델은 공개적으로 제공되지 않을 것이다.
Out-of-Scope Uses	유해하거나 기만적인 환경에서 언어 생성을 위한 언어 모델 사용. 더 일반적으로, 추가적인 안전 및 공정성 완화 조치 없이 다운스트림 애플리케이션에 모델을 사용해서는 안 된다.
Factors
Card Prompts - Relevant Factor	관련 요인에는 사용되는 언어가 포함된다. 우리 모델은 영어 데이터로 학습되었다. 또한, Rae et al. (2021)에서 동일한 코퍼스로 학습된 모델 분석에서, 일부 방언(예: 아프리카계 미국인 영어)을 모델링할 때 불균등한 성능을 보였다. 우리 모델은 연구용으로 설계되었다. 제안된 다운스트림 애플리케이션의 요인에 대한 추가 분석 없이 다운스트림 애플리케이션에 모델을 사용해서는 안 된다.
Card Prompts - Evaluation Factors	동일한 텍스트 코퍼스로 학습된 모델을 분석한 Rae et al. (2021)의 결과를 참조하라.
Metrics
Model Performance Measures	- 언어 모델링 데이터셋에 대한 Perplexity 및 bits per byte <br> - 완성(completion) task, 독해(reading comprehension), MMLU, BIG-bench 및 사실 확인(fact checking)에 대한 정확도 <br> - 질문 답변(question answering)에 대한 Exact match 정확도 <br> - Real Toxicity Prompts (RTP)를 통한 생성 독성(toxicity) 및 독성 분류 정확도 <br> - 성별 및 직업 편향. 테스트에는 다른 성별 용어 생성 확률 비교 및 Winogender coreference resolution task가 포함된다. <br> 우리는 주로 텍스트 likelihood 예측에서 Gopher와 비교한 Chinchilla의 성능에 중점을 둔다.
Decision thresholds	해당 없음 (N/A)
Approaches to Uncertainty and Variability	대규모 언어 모델 학습 비용으로 인해 Chinchilla를 여러 번 학습시키지 않았다. 그러나 다양한 task 유형에 대한 광범위한 평가는 모델의 전반적인 성능에 대한 합리적인 추정치를 제공한다. 또한, 동일한 데이터셋으로 학습된 다른 대규모 모델(Gopher)의 존재는 명확한 비교 기준을 제공한다.
Evaluation Data

Datasets	- LAMBADA, Wikitext103 (Merity et al., 2017), C4 (Raffel et al., 2020a), PG-19 (Rae et al., 2020) 및 Pile (Gao et al., 2020)에 대한 언어 모델링. <br> - Massive Multitask Language Understanding (MMLU) 벤치마크 (Hendrycks et al., 2020) 및 "Beyond the Imitation Game Benchmark" (BIG-bench) (BIG-bench collaboration, 2021)에 대한 언어 이해, 실제 세계 지식, 수학 및 논리적 추론. <br> - Natural Questions (Kwiatkowski et al., 2019) 및 TriviaQA (Joshi et al., 2017)에 대한 질문 답변 (closed book). <br> - RACE (Lai et al., 2017)에 대한 독해. <br> - HellaSwag (Zellers et al., 2019), PIQA (Bisk et al., 2020), Winogrande (Sakaguchi et al., 2020), SIQA (Sap et al., 2019), BoolQ (Clark et al., 2019) 및 TruthfulQA (Lin et al., 2021)에 대한 상식 이해.
Motivation	Gopher와 가장 직접적으로 비교하기 위해 Rae et al. (2021)의 평가를 선택했다.
Preprocessing	입력 텍스트는 32,000개의 어휘를 가진 SentencePiece tokenizer를 사용하여 토큰화된다. Gopher에 사용된 tokenizer와 달리, Chinchilla에 사용된 tokenizer는 NFKC 정규화를 수행하지 않는다.
Training Data
Rae et al. (2021)과 동일한 데이터셋이 사용된다. 샘플링의 차이는 Table A1에 나와 있다.
	Quantitative Analyses
Unitary Results	Section 4.2는 우리의 분석에 대한 자세한 설명을 제공한다. 주요 내용은 다음과 같다: <br> - 우리 모델은 PerspectiveAPI로 측정된 독성 언어를 출력할 수 있다. 이는 모델이 독성 prompt로 주어졌을 때 특히 그렇다. <br> - 성별: 우리 모델은 데이터셋에서 발견된 고정관념을 모방하며, "영양사" 및 "접수원"과 같은 직업은 여성과 더 관련이 있고 "목수" 및 "보안관"은 남성과 더 관련이 있다. <br> - 인종/종교/국가 감정: 우리 모델이 일부 그룹에 대해 논의하도록 prompt를 주면 감정이 낮거나 높은 문장이 생성되며, 이는 데이터셋의 텍스트를 반영할 가능성이 높다.

Intersectional Results	교차 편향은 조사하지 않았다.
Ethical Considerations
Data	데이터는 Rae et al. (2021)에 설명된 것과 동일하다.
Human Life	이 모델은 인간의 삶이나 번영에 중요한 문제에 대한 결정을 내리는 데 사용될 의도가 없다.
Mitigations	우리는 독성 콘텐츠를 제거하기 위해 데이터셋을 필터링하는 것을 고려했지만, Welbl et al. (2021)의 연구에서 알 수 있듯이 이것이 새로운 편향을 도입할 수 있다는 관찰 때문에 그렇게 하지 않기로 결정했다. 독성 콘텐츠 및 Weidinger et al. (2021)에서 논의된 것과 같은 언어 모델과 관련된 다른 유형의 위험에 대한 완화 접근 방식에 대한 더 많은 연구가 필요하다.
Risks and Harms	데이터는 인터넷에서 수집되었으므로, 우리 학습 데이터셋에는 의심할 여지 없이 독성/편향된 콘텐츠가 포함되어 있다. 또한, 개인 정보도 우리 모델 학습에 사용된 데이터셋에 포함되어 있을 가능성이 높다. Weidinger et al. (2021)의 더 자세한 논의를 참조하라.
Use Cases	특히 문제가 되는 사용 사례에는 의도적으로 잘못된 정보를 생성하여 배포하거나, 모델을 사용하여 인종차별적, 성차별적 또는 기타 유해한 텍스트를 악의적인 의도로 생성하는 경우가 포함된다. 해를 끼칠 수 있는 더 많은 사용 사례가 존재한다. 이러한 악의적인 사용에 대한 적용은 Weidinger et al. (2021)에서 자세히 논의된다.

Table A8 | Chinchilla 모델 카드. Mitchell et al. (2019)이 제시한 프레임워크를 따른다.

J. List of trained models

Table A9에서는 본 연구에서 사용된 모든 모델의 크기와 구성을 나열한다. 많은 모델들이 다양한 학습 단계(training steps)에 따라 여러 번 학습되었다.

Task	Chinchilla	Gopher	Task	Chinchilla	Gopher
hyperbaton	54.2	51.7	movie_dialog_same_or_diff	54.5	50.7
causal_judgment	57.4	50.8	winowhy	62.5	56.7
formal_fallacies_syllogisms_neg	52.1	50.7	movie_recommendation	75.6	50.5
crash_blossom	47.6	63.6	moral_permissibility	57.3	55.1
discourse_marker_prediction	13.1	11.7	strategyqa	68.3	61.0
general_knowledge_json	94.3	93.9	nonsense_words_grammar	78.0	61.4
sports_understanding	71.0	54.9	metaphor_boolean	93.1	59.3
implicit_relations	49.4	36.4	navigate	52.6	51.1
penguins_in_a_table	48.7	40.6	presuppositions_as_nli	49.9	34.0
intent_recognition	92.8	88.7	temporal_sequences	32.0	19.0
reasoning_about_colored_objects	59.7	49.2	question_selection	52.6	41.4
logic_grid_puzzle	44.0	35.1	logical_fallacy_detection	72.1	58.9
timedial	68.8	50.9	physical_intuition	79.0	59.7
epistemic_reasoning	60.6	56.4	physics_mc	65.5	50.9
ruin_names	47.1	38.6	identify_odd_metaphor	68.8	38.6
hindu_knowledge	91.4	80.0	understanding_fables	60.3	39.6
misconceptions	65.3	61.7	logical_sequence	64.1	36.4
implicatures	75.0	62.0	mathematical_induction	47.3	57.6
disambiguation_q	54.7	45.5	fantasy_reasoning	69.0	64.1
known_unknowns	65.2	63.6	SNARKS	58.6	48.3
dark_humor_detection	66.2	83.1	crass_ai	75.0	56.8
analogical_similarity	38.1	17.2	entailed_polarity	94.0	89.5
sentence_ambiguity	71.7	69.1	irony_identification	73.0	69.7
riddle_sense	85.7	68.2	evaluating_info_essentiality	17.6	16.7
date_understanding	52.3	44.1	phrase_relatedness	94.0	81.8
analytic_entailment	67.1	53.0	novel_concepts	65.6	59.1
odd_one_out	70.9	32.5	empirical_judgments	67.7	52.5
logical_args	56.2	59.1	figure_of_speech_detection	63.3	52.7
alignment_questionnaire	91.3	79.2	english_proverbs	82.4	57.6
similarities_abstraction	87.0	81.8	Human_organs_senses_mcc	85.7	84.8
anachronisms	69.1	56.4	gre_reading_comprehension	53.1	27.3

Table A7 | Chinchilla BIG-bench 결과. BIG-bench의 각 하위 세트(BIG-bench collaboration, 2021)에 대한 Chinchilla와 Gopher의 정확도를 보여준다.

Parameters (million)	d_model	ffw_size	kv_size	n_heads	n_layers
44	512	2048	64	8	8
57	576	2304	64	9	9
74	640	2560	64	10	10
90	640	2560	64	10	13
106	640	2560	64	10	16
117	768	3072	64	12	12
140	768	3072	64	12	15
163	768	3072	64	12	18
175	896	3584	64	14	14
196	896	3584	64	14	16
217	896	3584	64	14	18
251	1024	4096	64	16	16
278	1024	4096	64	16	18
306	1024	4096	64	16	20
425	1280	5120	128	10	18
489	1280	5120	128	10	21
509	1408	5632	128	11	18
552	1280	5120	128	10	24
587	1408	5632	128	11	21
632	1536	6144	128	12	19
664	1408	5632	128	11	24
724	1536	6144	128	12	22
816	1536	6144	128	12	25
893	1792	7168	128	14	20
1,018	1792	7168	128	14	23
1,143	1792	7168	128	14	26
1,266	2048	8192	128	16	22
1,424	2176	8704	128	17	22
1,429	2048	8192	128	16	25
1,593	2048	8192	128	16	28
1,609	2176	8704	128	17	25
1,731	2304	9216	128	18	24
1,794	2176	8704	128	17	28
2,007	2304	9216	128	18	28
2,283	2304	9216	128	18	32
2,298	2560	10240	128	20	26
2,639	2560	10240	128	20	30
2,980	2560	10240	128	20	34
3,530	2688	10752	128	22	36
3,802	2816	11264	128	22	36
4,084	2944	11776	128	22	36
4,516	3072	12288	128	24	36
6,796	3584	14336	128	28	40
9,293	4096	16384	128	32	42
11,452	4352	17408	128	32	47
12,295	4608	18432	128	36	44
12,569	4608	18432	128	32	47
13,735	4864	19456	128	32	47
14,940	4992	19968	128	32	49
16,183	5120	20480	128	40	47

Table A9 | 모든 모델. 본 연구의 일부로 학습된 모든 모델의 하이퍼파라미터와 크기를 나열한다. 표시된 많은 모델들은 여러 학습률 스케줄/학습 토큰 수로 학습되었다.

논문 요약: Training Compute-Optimal Large Language Models

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성