■ LLM의 capacity에 따른 mathematical reasoning 능력이 어떻게 scaling되는지 아직 충분히 연구되지 않았다.
■ 이 논문에서는 pre-training loss, supervised data의 양, 그리고 augmented data의 양이 supervised LLM의 reasoning 성능에 어떤 영향을 미치는지 조사하며, pre-training loss가 모델의 parameter 수보다 모델 성능을 더 잘 나타내는 지표임을 보여준다.
■ 그리고 다양한 양의 supervised data를 사용하여 SFT를 적용하고, 데이터 양과 모델 성능 사이에 log-linear 관계가 있으며, 더 좋은 모델일수록 확대된 supervised dataset으로 인 성능 향상 폭이 더 작다는 것을 보여준다. 즉, supervised data를 늘리면 성능은 좋아지지만, 이미 좋은 모델일수록 그 추가 이득은 작아진다는 것이다.
■ 저자들은 사람의 추가 노력 없이 모델 성능을 개선하기 위한 더 많은 data sample을 증강하기 위해, Rejection sampling Fine-Tuning (RFT)을 적용할 것을 제안한다.
[2308.01825] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augment
arxiv.org
1. INTRODUCTION
■ 서로 다른 pre-trained LLM과 supervised dataset을 바탕으로, LLM의 math reasoning ability를 이해하고, 예측하고, 개선하는 것이 논문의 관심사이다.
■ math reasoning ability가 어떤 요인에 의해 개선되는지 파악할 수 있다면 LLM 자체를 개선할지, 아니면 dataset을 증강하는 데 노력을 투입할지 더 잘 결정할 수 있다.
■ 많은 연구들이 모델의 reasoning 성능을 높이기 위해 다양한 프롬프트를 사용하거나, 여러 번 inference한 결과를 ensemble 또는 reranking하는 방법에 초점을 맞추고 있다.
■ in-context learning (ICL)과 multiple inferences을 수행하는 것은 성능을 향상시킬 수는 있지만, 이는 계산 비용이 많이 들고 online deployment 상황에는 적합하지 않다.
■ 이에 저자들은 online deployment에 더 가까운 설정인, inference를 한 번만 수행하는 supervised LLM의 성능에 초점을 맞춘다.
■ 이를 위해 저자들은 pre-training losses, supervised data의 양, augmented data의 양을 포함하여 supervised LLM의 math reasoning abilities에 영향을 미치는 요인들의 scaling 관계를 empirically하게 조사한다.
■ 첫째, LLM의 supervised fine-tuning (SFT) 성능과 ICL 성능을 분석한다. 저자들은 특정 구간에서 pre-training loss가 SFT 및 ICL accuracy와 대략 음의 선형 상관관계를 가지며, 이것이 pre-trained model size나 pre-trained token 개수보다 더 나은 성능 지표임을 관찰했다.
■ 둘째, SFT와 다양한 양의 supervised data 간의 관계를 분석한다. 저자들은 모델 성능이 supervised data 양과 log-linear 관계를 갖지만, 더 좋은 pre-trained model일수록 그 증가폭이 줄어든다는 것을 관찰했다.
■ 셋째, 모델 자체를 활용해 더 많은 supervised data를 생성함으로써 reasoning 능력을 강화하고, augmented data 양의 스케일링 관계를 분석한다.
■ 저자들은 SFT model에 rejection sampling을 적용하여 correct reasoning path를 샘플링하고 선택한 뒤, 이를 augmented dataset으로 사용한다.
■ 이러한 augmented dataset을 사용해 base LLM을 fine-tuning했으며, 이 방식은 SFT보다 더 좋은 성능을 달성했다. 이를 rejection sampling fine-tuning (RFT)라고 부른다.
■ RFT 성능에 영향을 미치는 핵심 요인은 distinct reasoning path의 양이라는 것을 발견했다. 이 양은 더 많이 sampling하거나 여러 모델의 sample을 결합함으로써 늘릴 수 있다.
■ 여러 pre-trained LLM에 RFT를 적용한 결과, 성능이 낮은 모델에서 더 큰 개선이 나타났다.
■ 저자들은 RFT가 효과적인 이유에 대해, 다양한 reasoning path를 제공하여 LLM이 더 나은 추론 일반화 능력을 갖게 만든다고 주장한다.
■ 그리고, RFT가 computational resources 측면에서 pre-training보다 훨씬 저렴하지만, 근본적인 해결책은 더 낮은 pre-training loss를 가진 LLM을 만드는 것이 중요하다고 설명한다.
■ 이 논문의 주요 발견은 Fig 1에 나타나 있으며, 다음과 같이 요약할 수 있다.
- (1) pre-training loss가 작아질수록(즉, pre-trained model이 좋을수록), SFT와 ICL의 모델 reasoning 성능은 특정 구간 내에서 선형적으로 증가한다. 그리고 SFT 성능은 ICL보다 느리게 향상된다.
- (2) SFT는 supervised data 양이 증가함에 따라 log-linear하게 향상된다. pre-trained model이 좋을수록 데이터 양 증가에 따른 이점이 줄어든다.
- (3) RFT에 대한 모델 성능은 distinct reasoning path의 수가 증가함에 따라 향상된다. RFT 성능은 SFT보다 느리게 향상된다.
- (4) 여러 모델에서 얻은 rejection sampling samples을 결합하면 RFT 성능이 더욱 향상된다.

2. RELATED WORKS
Learning Math Reasoning with LLMs
■ CoT paper에서는 LLM이 특정 model scale을 넘어서면 reasoning tasks을 해결하는 emergent ability가 나타난다는 것을 발견했다.
■ LLM의 이러한 reasoning ability는 fine-tuning, few-shot prompting, 또는 zero-shot prompting을 통해 이끌어낼 수 있다.
■ 많은 연구들이 math word problems (MWP)의 reasoning tasks에 초점을 맞추고 있으며, 제안된 방법들은 다양한 레벨의 MWP benchmark에서 평가되어 왔다.
■ LLM의 mathematical reasoning ability을 향상시키는 핵심 아이디어는 fine-tuning 과정이나 inference 과정에서 다양하게 샘플링된 reasoning path들을 aggregate하는 것이다.
■ inference 중 올바른 결과를 선택하기 위해 reasoning path verifier를 학습시키거나, inference 중 다양한 reasoning path를 샘플링한 뒤, answer에 대한 majority voting이나 verifier를 통해 최종 결과를 도출하는 방법들이 제안되어 왔다.
■ 여러 연구에서는 fine-tuning data augmentation을 위해 다양하게 샘플링된 reasoning path들을 필터링하고자 다른 기법들과 함께 rejection sampling 아이디어를 적용했다.
■ rejection sampling은 간단하면서도 효과적인 fine-tuning augmentation 기법이며, human preference와 LLM을 alignment하는 데에도 사용된다.
■ LLM의 mathematical reasoning abilities을 향상시키기 위해 reinforcement learning 방법을 사용한 연구도 있다. outcome-based reward modeling과 process-based reward modeling이 대표적이다.
■ 이후 연구에서는 human annotation을 통해 대규모 process-based supervision signal을 수집했으며, LLM이 outcome-based reward modeling보다 human-annotated supervision을 포함한 process-based reward modeling에서 더 많은 이점을 얻을 수 있음을 검증했다.
■ 또한 LLM의 emergent reasoning ability를 small language model로 distill한 선행 연구도 있다.
■ 이러한 이전 연구들과 비교했을 때, 저자들은 process-level reward model 없이 augmented sample을 생성하는 더 단순한 방식을 사용하고, LLM과 math reasoning ability 사이의 scaling 관계를 연구하는 데 초점을 맞춘다.
Scaling Laws of Large Language Models
■ OpenAI scaling law에서는 모델 parameter 수와 data size가 loss에 어떻게 기여하는지에 대해, 여러 자릿수 규모에 걸친 예측 가능한 관계를 처음으로 조사하고 도출했다.
■ Chinchilla에서는 OpenAI의 scaling law를 정교화했고, computation-optimal training을 위한 scaling law를 발견했다.
■ data-constrained scenario에서 scaling law를 탐구한 연구도 있다.
■ pre-training에서의 scaling performance를 조사하는 것 외에도, human preference alignment를 위한 overparameterized reward model의 scaling law, pre-trained model의 성능이 downstream task로 transfer되는 과정에 대한 scaling law를 개발한 연구가 있으며, math problem의 scaling law를 조사한 연구도 있다.
■ 이 논문에서는 pre-training loss, supervised data의 양, augmented data의 양을 중심으로, LLM이 math word problem을 학습할 때의 scaling 관계를 조사한다.
3. THE FACTORS OF MATH REASONING ABILITY IN SUPERVISED LLM
■ 이 논문의 목표는 math reasoning에서 supervised LLM의 성능을 이해하는 것이며, 저자들은 pre-trained LLM \( \rho \)가 supervised reasoning dataset \( \mathcal{D} \)로부터 reasoning ability를 학습한다고 본다.
■ dataset은 \( \mathcal{D} = \{q_i, r_i, a_i\}_i \)로 정의되며, 여기서 \( q \)는 question \( r \)은 chain-of-thought reasoning path, 그리고 \( a \)는 numerical answer이다.
■ 저자들은 dataset \( \mathcal{D} \)에 대해 SFT를 수행하여 SFT model \( \pi \)를 얻는다. 이 \( \pi \)를 사용해 test set에서 greedy decoding으로 reasoning paths과 answers을 생성하고, accuracy로 결과를 평가한다.
3.1 MODEL ACCURACY VS. PRE-TRAINING LOSS
■ 이전 연구들은 같은 계열의 모델 안에서는 더 큰 LLM이 더 좋은 reasoning ability를 보인다고 말해 왔다. 그러나 저자들은 LLaMA가 GPT-3보다 더 좋은 성능을 보이는 것을 발견했다. 이는 모델 parameter 수가 reasoning ability의 유일한 지표가 되어서는 안 된다는 것을 보여준다.
■ LLM들이 서로 다른 아키텍처, model parameter 수, pre-training token 수를 가지고 있지만, 저자들은 pre-training loss가 math reasoning ability의 안정적인 성능 지표라는 것을 발견했다. 그래서 모델 parameter 수나 pre-training token 수 대신 pre-training loss를 지표로 사용한다.
■ 저자들은 GPT-3, LLaMA, LLaMA2, GPT-4의 SFT 성능과 ICL(8-shot in-context learning) 성능을 분석한다.
■ 이 모델들의 pre-training loss는 각 모델 논문에서 확인한 것이다. 다만 이 pre-training loss들은 서로 다른 pre-training dataset과 서로 다른 tokenizer에 대응하기 때문에 엄밀하게 비교하기 어렵다. 그럼에도 이 loss들 사이의 경향은 여전히 시사하는 바가 있다.
■ GPT-3 fine-tuning 결과는 Training verifiers to solve math word problems 논문의 결과를 사용하고, LLaMA와 LLaMA2는 GSM8K training set에서 직접 fine-tuning한다. 그리고 in-context learning의 경우, LLaMA와 LLaMA2 논문의 결과를 사용한다.

■ Fig 2는 주어진 pre-training loss 구간 안에서 pre-training loss가 SFT 및 ICL accuracy와 대략 음의 선형 상관관계를 가진다는 것을 보여준다.
■ pre-training loss가 작아질수록 SFT 및 ICL accuracy가 증가하는 것을 볼 수 있다. 단, Fig 2와 같은 SFT 및 ICL accuracy의 선형 관계는 주어진 구간에서만 성립할 수 있다.
■ 이때 SFT는 일관되게 ICL보다 더 좋은 성능을 보이지만, pre-training loss가 낮아질수록 그 개선 폭은 줄어든다.
■ parameter size는 비슷하지만, pre-training이 더 잘 되어 loss가 낮아지면 성능이 좋아질 수 있다는 관점에서 LLaMA-2 7B와 13B는 각각 LLaMA 7B와 13B를 continue-training한 것의 근사치(즉, LLaMA2 7B/13B를 LLaMA 7B/13B의 더 학습된 버전)로 볼 수 있다.
■ 더 오래 학습됨에 따라 parameter 수가 변하지 않아도 ICL과 SFT 성능이 모두 향상된다는 관찰을 통해, 저자들은 reasoning ability를 향상시키는 효과적인 방법 중 하나는 더 낮은 pre-training loss를 가진 더 좋은 base model을 학습하는 것, pre-training is all you need!라고 주장한다.
■ pre-training loss가 더 낮은 모델일수록 fine-tuning을 통해 얻는 개선 폭이 더 적은데, 이는 모델이 pre-training 과정에서 이미 더 많은 reasoning ability를 얻었기 때문에, supervised data가 추가로 제공할 수 있는 supervision signal이 더 적기 때문일 수 있다.
3.2 MODEL ACCURACY VS. SUPERVISED DATA COUNT
■ SFT는 LLM의 reasoning ability를 향상시킨다. 이 섹션에서는 supervised data의 양이 모델의 성능 향상에 어떤 영향을 미치는지 확인한다.
■ 저자들은 GSM8K training set의 {1(100%), 1/2, 1/4, 1/8, 1/16, 1/32} 비율에 해당하는 양으로 LLaMA와 LLaMA2를 fine-tuning하고, 이 설정을 통해 supervised data가 더 많을 경우 모델 성능이 어떻게 바뀌는지 관찰했다.

■ Fig 3은 서로 다른 양의 supervised data로 학습한 결과를 나타낸 것이다. 여기서 볼 수 있는 것은
- (1) 모델 성능은 데이터 양과 log-linear 관계를 가진다. 데이터 양이 두 배가 될 때마다 성능이 향상된다.
- (2) 더 좋은 모델일수록 자신의 ICL 성능을 능가하기 위해 더 많은 양의 데이터가 필요하다.
- 좋은 모델은 few-shot ICL에서 좋은 성능을 달성할 수 있다. SFT가 그 ICL 성능을 넘으려면 더 많은 supervised data가 필요(SFT 1, SFT 1/2)한 것을 볼 수 있다.
- (3) 더 좋은 모델은 supervised data 양이 두 배로 늘어날 때 얻는 이점(성능 향상 폭)이 더 작다.
■ 이러한 log-linear 관계는 training data 양이 {1, 1/2, 1/4, 1/8} 구간일 때 안정적으로 나타난다.
■ 이 관찰로부터, 성능을 향상시키기 위해 training dataset을 늘리는 것은 직관적이고 효과적인 방법이며, 특히 성능이 낮은 모델에서 더 효과적임을 알 수 있다.
■ 반면 더 좋은 모델의 경우에는 그 이득이 더 작으며, 이는 더 좋은 모델들이 pre-training 동안 이미 더 많은 reasoning ability를 학습했다는 점과 맞닿아 있다.
3.3 MODEL ACCURACY VS. AUGMENTED DATA COUNT
■ math reasoning labeled data의 양을 늘리는 것은 어려운 문제이며, 특히 새로운 question을 고안하는 것이 더욱 그렇다. 교육을 잘 받은 학생이 하루에 수백 개의 math word problem을 푸는 것은 쉽지만, 다양하고 교육적으로 유용한 math problem을 생각해내는 것은 매우 어렵다.
■ new queries을 증강하는 방법(Appendix D.1)과 revisions을 증강하는 방법(Appendix D.2)을 시도했다. 이러한 접근들은 SFT와 비교했을 때 개선이 없거나 아주 미미한 개선만을 보였다.
■ 저자들은 rejection sampling의 단순화된 버전이 새로운 reasoning path를 증강하는 단순하지만 효과적인 방법이며, 모델 성능을 향상시킬 수 있음을 발견했다. 그리고 RFT로 증강한 data를 사용한 fine-tuning에서 성능에 영향을 미치는 핵심 요인이 distinct reasoning path의 양이라는 것을 발견했다.
■ 여러 모델에서 얻은 rejection sampling sample들을 결합함으로써, LLaMA-7B 모델을 accuracy 49.3까지 추가 finetuning할 수 있었고, 이는 SFT의 35.9와 비교된다. 또한 LLaMA-13B 모델은 accuracy 52.1까지 향상되었고, 이는 SFT의 43.0과 비교된다.
Rejection Sampling Fine-tuning
■ SFT model \( \pi \)를 사용해 더 많은 correct reasoning path \( r_{ij} \)를 생성하여 training dataset을 보강한다.
■ 각 question \( q_i \)에 대해, temperature 0.7을 사용하여 \( k \)개의 candidate reasoning path와 answer \( (r, a) \)를 생성한다.
■ 저자들은 먼저 wrong answers(\( a \ne a_i \))을 가진 reasoning paths이나 Python evaluation 기준으로 잘못된 계산이 포함된 paths을 필터링하여 걸러낸다.
■ 각 reasoning path는 equation들의 리스트 \( e_j \)를 포함하며, 저자들은 distinct한 equation list마다 하나의 reasoning path \( r_{ij} \)를 augmented data로 선택하고, 유사한 reasoning paths을 중복 제거하기 위해 동일한 equation list를 가진 다른 reasoning paths을 제거했다. 이를 통해 서로 다른 계산 과정을 가진 path들이 남게 된다.
■ 원소의 순서가 다르거나(예: 3 + 4 = 7과 4 + 3 = 7), equation의 순서가 다른 것은 서로 다른 것으로 간주한다.
■ 모델이 이러한 순서들이 서로 바뀔 수 있다는 것을 아는 것은 도움이 되며, 각 문제마다 단 하나의 reasoning path만으로는 모델이 이를 학습하기가 어렵다.
■ 논문에서는 증강된 데이터셋을 \( \mathcal{D}'_\pi = \mathcal{D} \cup \{q_i, r_{ij}, a_i\}_{i,j} \)로 정의한다.
■ augmented dataset \( \mathcal{D}' \)를 사용해 pre-trained LLM \( \rho \)를 fine-tuning하여 \( \pi_{\text{RFT}} \)를 얻는다. 이 과정을 RFT라 명명한다. (Appendix A.3)
■ Table 1은 LLaMA와 LLaMA-2에서 \( k = 100 \)개의 candidate reasoning paths을 샘플링한 RFT 결과이다. ICL, SFT, RFT에 대해 maj1@1(accuracy)과 maj1@100(100번 샘플링 후 majority voting으로 accuracy 계산)을 지표로 제시한다.

■ 7B 및 13B 모델의 경우, RFT는 maj1@1에서 약 5~6 포인트 증가, maj1@100에서 약 4 포인트 증가를 가져왔다.
■ 33B 모델의 경우, RFT는 SFT에 비해 성능을 향상시키지 못한다. 그 이유는 rejection sampling으로 얻은 augmented samples에 있다.
■ 또한 Table 1에서, 더 좋은 모델들이 문제당 더 많은 correct reasoning paths을 생성함을 볼 수 있다. LLaMA-33B-SFT의 경우 질문당 평균 88.7개의 correct paths을 생성했다.
■ 그러나 LLaMA-33B-SFT는 training set에 과적합되어 training set question에 대해 더 다양한 path를 생성하는 데 어려움을 가졌다. (distinct paths per question 2.78)
■ 저자들은 33B 모델로 rejection sampling을 수행하는 것은 시간이 매우 오래 걸려 temperate 하이퍼파라미터에 대한 grid search를 수행하지는 않았으나, LLaMA-33B-SFT 모델의 디코딩을 위해 더 높은 temperature 1.0을 시도해 본 결과, question당 82.4개의 correct paths과 4.77개의 distinct paths을 생성했다. temperature 0.7을 사용할 때보다 더 다양했지만 여전히 7B와 13B 모델보다 다양성이 낮다.
■ 저자들은 33B 및 더 큰 모델에서도 더 많은 distinct path를 생성하고 RFT에서 좋은 결과를 낼 수 있는 temperature 또는 generation configuration이 존재할 수 있음을 인정한다. 그러나 그런 설정을 찾고 사용하는 데는 7B와 13B 모델을 사용할 때보다 더 많은 inference 계산 자원이 필요하다.
- 이후 실험에서 7B와 13B 모델만을 rejection sampling에 사용해도 33B 모델을 개선할 수 있음을 보여준다.
Model Accuracy vs Rejection Sampling Data Count
■ RFT의 성능을 확인하기 위해, \( k \) 값을 1, 3, 6, 12, 25, 50, 100으로 변경하며 RFT를 적용한다.
■ 그리고 reasoning paths을 전혀 제거하지 않는(즉, 중복 제거를 하지 않는) \( k = 100 \)의 별도의 설정을 두며, 이를 no dedup이라고 부른다. Fig 4는 다양한 \( k \)에 따른 RFT 결과를 나타낸 것이다.

■ \( k = 100 \)으로 RFT를 사용한 것과 no dedup을 비교하면, 그 성능은 비슷하게 나타난다. 이는 RFT 성능을 평가할 때 증강된 총 샘플의 개수보다 distinct reasoning path의 개수를 기준으로 추정하는 것이 더 낫다는 것을 보여준다.
■ 더욱이, 중복 제거를 하면 4개의 모델 중 3개에서 더 좋은 성능을 보였고, 학습 시간도 훨씬 적게 소요된다.
■ \( k = 3 \)을 사용할 때도 RFT는 SFT보다 안정적으로 2 point 높은 성능을 보인다. 대부분의 data point에서 더 큰 \( k \)를 사용하면 더 좋은 성능으로 이어진다.
■ 그러나 \( k \)를 두 배로 늘릴 때 RFT의 이점은 점점 감소한다.

■ Table 2는 서로 다른 \( k \) 값에 대해 question당 서로 다른 path의 개수를 계산한 것이다. \( k \)가 증가해도 서로 다른 reasoning path의 수가 그만큼 빠르게 증가하지 않음을 볼 수 있다.
■ Fig 3에서 training sample을 두 배로 늘리면 선형적인 성능 향상이 있을 수 있음을 확인했다. RFT에서 reasoning paths을 두 배로 늘리는 것은 training sample을 두 배로 늘리는 것보다 더 적은 개선을 가져와야 한다.
■ 왜냐하면 새로운 question이 더 큰 정보를 제공할 수 있으며, RFT에서 reasoning path를 늘리는 것은 새로운 questions을 얻는 것이 아니기 때문이다. 그러므로 \( k \)를 두 배로 계속 늘려도 성능 향상은 점점 줄어든다.
Combining rejection sampling samples from multiple models
■ 위의 실험 결과들은 rejection sampling을 활용하면 mathematical reasoning 성능이 향상된다는 것을 보여준다.
■ 4.1절의 case study를 통해, 저자들은 rejection sampling이 다양한 계산 과정을 가진 reasoning paths로 training data를 증강할 수 있음을 보여준다.
■ 그러나 하나의 SFT model에서 샘플링된 reasoning path들은 논리적으로 다양하지 않을 수 있다.
■ 그래서 저자들은 서로 다른 모델들로부터 aggregated된 rejection-sampled reasoning path들을 모아 활용하면 mathematical reasoning 성능을 더 향상시킬 수 있을 것이라 가정한다.
■ 두 개의 dataset \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)는 서로 다른 모델에서 rejection sampling한 결과를 aggregation한 것이다.
- \( \mathcal{D}'_{U13B} = \mathcal{D}'_{7B} \oplus \mathcal{D}'_{7B2} \oplus \mathcal{D}'_{13B} \oplus \mathcal{D}'_{13B2} \)이고, \( \mathcal{D}'_{U33B} = \mathcal{D}'_{U13B} \oplus \mathcal{D}'_{33B} \)이다.
- 여기서 U는 특정 크기 이하의 모델들을 의미하며, 7B/13B/33B는 LLaMA-7B/13B/33B를, 7B2/13B2는 LLaMA2-7B/13B를 의미한다.
- \( oplus \)는 aggregation process를 의미한다. 이 과정에서는 먼저 서로 다른 set의 모든 reasoning path를 결합한 뒤, Algorithm 1 (Appendix A.3)을 적용하여 equation form과 equation order 기준으로 같은 calculation process를 가진 reasoning path들을 중복 제거한다.
■ Fig 5에서 aggregated dataset \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)를 사용하면, 다양한 모델 크기 전반에서 single model로부터 얻은 dataset으로 fine-tuning하는 것보다 일관되게 더 좋은 성능을 낼 수 있음을 확인할 수 있다.

■ \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)라는 두 augmented dataset으로 RFT를 수행하면, SFT와 RFT \( k = 100 \)에서 동일한 크기의 모델들 사이에 존재하던 성능 격차가 줄어든다.
■ 이는 결합된 augmented dataset이 pre-training gap을 채울 수 있을 만큼 충분한 reasoning supervision을 제공한다는 것을 의미한다.
■ 저자들은 supervised data의 양이 충분하다면 상황이 달라질 수 있으며, 이 경우에 성능 지표는 pre-training loss가 아니라 model size가 되어야 한다고 가정할 수 있다고 말한다.
■ 앞서 33B 모델에 RFT \( k = 100 \)을 적용하는 것은 비용이 많이 들고, SFT보다 성능 향상을 얻기 위해서는 temperature grid search가 필요하다고 말했다.
■ 그러나 \( \mathcal{D}'_{U13B} \)로 fine-tuning하는 것은 33B에서 100번 sampling하는 것과 비슷한 rejection sampling 계산 비용을 가지면서도 더 좋은 성능을 달성한다.
■ 또 다른 현상은 \( \mathcal{D}'_{33B} \)를 aggregation에 포함해도 성능에 거의 영향을 주지 않는다는 것이다.
■ Table 2에서 \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)의 평균적인 reasoning path 개수는 single model에서 얻은 것보다 훨씬 많지만, \( \mathcal{D}'_{U33B} \)는 \( \mathcal{D}'_{U13B} \)보다 0.81개 정도만 더 많다. 이 결과는 RFT의 다양성 측면이 제한적이라는 앞선 관찰과 일치한다.

■ Fig 6에서 13B 이하의 모델들은 \( \mathcal{D}'_{U33B} \) 내에서 각각 약 15% 정도의 비슷한 비율로 unique reasoning paths을 제공한다.
■ 그러나 reasoning paths 중 6.5%만이 LLaMA-33B-SFT 모델에서만 얻을 수 있다. 즉, LLaMA-33B-SFT에서 얻은 path들은 다른 모델에서 이미 나온 것과 겹치거나, 다양성이 제한적이었다.
■ 다시 말해 이는 33B의 SFT model이 training question을 sampling할 때 제한된 reasoning diversity만 제공할 수 있음을 보여준다.
■ 이 발견은 앞의 Table 1 결과와 일치하며, 33B 모델, 그리고 아마 65B와 70B 모델도 human-annotated reasoning path를 잘 memorize할 수 있음을 나타낸다.
■ 65B 모델의 경우, 저자들은 \( \mathcal{D}'_{U13B} \)를 사용해도 SFT와 비교해 성능이 향상되지 않는다는 것을 발견했다.
■ 그 이유는 더 좋은 모델들이 pre-training 동안 이미 더 많은 reasoning ability를 학습했기 때문에, supervised sample 양이 늘어나도 얻는 이득이 더 작기 때문일 수 있다.
■ 종합하면,
- (1) RFT는 SFT model의 rejection sampling에서 얻은 다양한 reasoning paths을 통해 성능이 낮은 LLM의 mathematical reasoning 성능을 향상시키며, 더 다양한 reasoning paths을 aggregate하면 성능을 더 향상시킬 수 있다.
- (2) 서로 다른 SFT model들은 rejection sampling을 통해 서로 다른 calculation process를 가진 reasoning paths을 제공할 수 있으며, 이는 RFT를 위한 더 다양한 training data로 이어진다.
- 반면 parameter size가 더 큰 LLM들은 training question에 overfit된 결과로서 다양한 reasoning paths을 생성하는 능력이 저하될 수 있다.
- 충분히 큰 LM이 training dataset에 과적합되지 않도록 하는 generation configuration이나 training configuration이 있을 수 있지만, 그것을 찾는 것은 쉽지 않다.
Comparing to other baselines

■ Table 3는 \( \mathcal{D}'_{U13B} \)로 학습한 RFT 결과와 여러 베이스라인들을 비교한 것이다.
■ LLaMA와 LLaMA2가 top-tier open-sourced LLM이기는 하지만, 이들의 mathematical reasoning 성능은 GPT-4나 PaLM2처럼 더 큰 parameter scale을 가진 현재의 proprietary LLM들에 뒤처진다.
■ 저자들이 제안한 RFT 방법은 verifier model을 학습시키고 Monte Carlo Tree Search(MCTS)로 디코딩할 필요가 없기 때문에 다른 방법들에 비해 훨씬 더 간단한다.
4. DISCUSSION
4.1 DIFFERENT DISTRIBUTION OF REASONING PATHS
■ 위에서 rejection sampling이 training question을 다양한 reasoning calculation paths로 증강할 수 있음을 확인했다. 이 섹션에서는 RFT 모델들이 correct answers에 도달하기 위해 서로 다른 reasoning paths를 생성하는 법을 학습할 수 있는지 확인한다.
■ 이 실험을 위해 7B와 13B 크기의 LLaMA 및 LLaMA2를 \( \mathcal{D}'_{U13B} \)에서 fine-tuning한다.
■ Inference 동안, 각 trained model로부터 각 test set question마다 temperature 0.7로 100개의 reasoning path를 샘플링한다.
■ 각 question에 대해, 100개의 sampled reasoning paths 중 correct answer에 도달하는 path들 안에 나타난 서로 다른 calculation process의 수를 계산하고, test set question들을 기준으로 histogram을 그린다. 비교를 위해 SFT model과 self-sampled dataset으로 학습한 RFT \( k = 100 \)인 RFT model도 추가한다.

■ Figure 7에서 \( \mathcal{D}'_{U13B} \)로 학습된 RFT 모델들은 unique calculation process의 수가 더 많은 구간에서 RFT \( k = 100 \) 또는 SFT로 학습한 모델들보다 더 많은 question counts를 보인다.
■ 샘플링된 모든 reasoning path가 단 하나의 calculation process에만 해당하는 question counts는 SFT 모델에서 더 높게 나타났으며, SFT 모델은 하나의 question에 대해 8개 이상의 서로 다른 calculation process를 거의 생성하지 못한다.