[RFT] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

■ LLM의 capacity에 따른 mathematical reasoning 능력이 어떻게 scaling되는지 아직 충분히 연구되지 않았다.

■ 이 논문에서는 pre-training loss, supervised data의 양, 그리고 augmented data의 양이 supervised LLM의 reasoning 성능에 어떤 영향을 미치는지 조사하며, pre-training loss가 모델의 parameter 수보다 모델 성능을 더 잘 나타내는 지표임을 보여준다.

■ 그리고 다양한 양의 supervised data를 사용하여 SFT를 적용하고, 데이터 양과 모델 성능 사이에 log-linear 관계가 있으며, 더 좋은 모델일수록 확대된 supervised dataset으로 인 성능 향상 폭이 더 작다는 것을 보여준다. 즉, supervised data를 늘리면 성능은 좋아지지만, 이미 좋은 모델일수록 그 추가 이득은 작아진다는 것이다.

■ 저자들은 사람의 추가 노력 없이 모델 성능을 개선하기 위한 더 많은 data sample을 증강하기 위해, Rejection sampling Fine-Tuning (RFT)을 적용할 것을 제안한다.

[2308.01825] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augment

arxiv.org

1. INTRODUCTION

■ 서로 다른 pre-trained LLM과 supervised dataset을 바탕으로, LLM의 math reasoning ability를 이해하고, 예측하고, 개선하는 것이 논문의 관심사이다.

■ math reasoning ability가 어떤 요인에 의해 개선되는지 파악할 수 있다면 LLM 자체를 개선할지, 아니면 dataset을 증강하는 데 노력을 투입할지 더 잘 결정할 수 있다.

■ 많은 연구들이 모델의 reasoning 성능을 높이기 위해 다양한 프롬프트를 사용하거나, 여러 번 inference한 결과를 ensemble 또는 reranking하는 방법에 초점을 맞추고 있다.

■ in-context learning (ICL)과 multiple inferences을 수행하는 것은 성능을 향상시킬 수는 있지만, 이는 계산 비용이 많이 들고 online deployment 상황에는 적합하지 않다.

■ 이에 저자들은 online deployment에 더 가까운 설정인, inference를 한 번만 수행하는 supervised LLM의 성능에 초점을 맞춘다.

■ 이를 위해 저자들은 pre-training losses, supervised data의 양, augmented data의 양을 포함하여 supervised LLM의 math reasoning abilities에 영향을 미치는 요인들의 scaling 관계를 empirically하게 조사한다.

■ 첫째, LLM의 supervised fine-tuning (SFT) 성능과 ICL 성능을 분석한다. 저자들은 특정 구간에서 pre-training loss가 SFT 및 ICL accuracy와 대략 음의 선형 상관관계를 가지며, 이것이 pre-trained model size나 pre-trained token 개수보다 더 나은 성능 지표임을 관찰했다.

■ 둘째, SFT와 다양한 양의 supervised data 간의 관계를 분석한다. 저자들은 모델 성능이 supervised data 양과 log-linear 관계를 갖지만, 더 좋은 pre-trained model일수록 그 증가폭이 줄어든다는 것을 관찰했다.

■ 셋째, 모델 자체를 활용해 더 많은 supervised data를 생성함으로써 reasoning 능력을 강화하고, augmented data 양의 스케일링 관계를 분석한다.

■ 저자들은 SFT model에 rejection sampling을 적용하여 correct reasoning path를 샘플링하고 선택한 뒤, 이를 augmented dataset으로 사용한다.

■ 이러한 augmented dataset을 사용해 base LLM을 fine-tuning했으며, 이 방식은 SFT보다 더 좋은 성능을 달성했다. 이를 rejection sampling fine-tuning (RFT)라고 부른다.

■ RFT 성능에 영향을 미치는 핵심 요인은 distinct reasoning path의 양이라는 것을 발견했다. 이 양은 더 많이 sampling하거나 여러 모델의 sample을 결합함으로써 늘릴 수 있다.

■ 여러 pre-trained LLM에 RFT를 적용한 결과, 성능이 낮은 모델에서 더 큰 개선이 나타났다.

■ 저자들은 RFT가 효과적인 이유에 대해, 다양한 reasoning path를 제공하여 LLM이 더 나은 추론 일반화 능력을 갖게 만든다고 주장한다.

■ 그리고, RFT가 computational resources 측면에서 pre-training보다 훨씬 저렴하지만, 근본적인 해결책은 더 낮은 pre-training loss를 가진 LLM을 만드는 것이 중요하다고 설명한다.

■ 이 논문의 주요 발견은 Fig 1에 나타나 있으며, 다음과 같이 요약할 수 있다.
- (1) pre-training loss가 작아질수록(즉, pre-trained model이 좋을수록), SFT와 ICL의 모델 reasoning 성능은 특정 구간 내에서 선형적으로 증가한다. 그리고 SFT 성능은 ICL보다 느리게 향상된다.
- (2) SFT는 supervised data 양이 증가함에 따라 log-linear하게 향상된다. pre-trained model이 좋을수록 데이터 양 증가에 따른 이점이 줄어든다.
- (3) RFT에 대한 모델 성능은 distinct reasoning path의 수가 증가함에 따라 향상된다. RFT 성능은 SFT보다 느리게 향상된다.
- (4) 여러 모델에서 얻은 rejection sampling samples을 결합하면 RFT 성능이 더욱 향상된다.

2. RELATED WORKS

Learning Math Reasoning with LLMs

■ CoT paper에서는 LLM이 특정 model scale을 넘어서면 reasoning tasks을 해결하는 emergent ability가 나타난다는 것을 발견했다.

■ LLM의 이러한 reasoning ability는 fine-tuning, few-shot prompting, 또는 zero-shot prompting을 통해 이끌어낼 수 있다.

■ 많은 연구들이 math word problems (MWP)의 reasoning tasks에 초점을 맞추고 있으며, 제안된 방법들은 다양한 레벨의 MWP benchmark에서 평가되어 왔다.

■ LLM의 mathematical reasoning ability을 향상시키는 핵심 아이디어는 fine-tuning 과정이나 inference 과정에서 다양하게 샘플링된 reasoning path들을 aggregate하는 것이다.

■ inference 중 올바른 결과를 선택하기 위해 reasoning path verifier를 학습시키거나, inference 중 다양한 reasoning path를 샘플링한 뒤, answer에 대한 majority voting이나 verifier를 통해 최종 결과를 도출하는 방법들이 제안되어 왔다.

■ 여러 연구에서는 fine-tuning data augmentation을 위해 다양하게 샘플링된 reasoning path들을 필터링하고자 다른 기법들과 함께 rejection sampling 아이디어를 적용했다.

■ rejection sampling은 간단하면서도 효과적인 fine-tuning augmentation 기법이며, human preference와 LLM을 alignment하는 데에도 사용된다.

■ LLM의 mathematical reasoning abilities을 향상시키기 위해 reinforcement learning 방법을 사용한 연구도 있다. outcome-based reward modeling과 process-based reward modeling이 대표적이다.

■ 이후 연구에서는 human annotation을 통해 대규모 process-based supervision signal을 수집했으며, LLM이 outcome-based reward modeling보다 human-annotated supervision을 포함한 process-based reward modeling에서 더 많은 이점을 얻을 수 있음을 검증했다.

■ 또한 LLM의 emergent reasoning ability를 small language model로 distill한 선행 연구도 있다.

■ 이러한 이전 연구들과 비교했을 때, 저자들은 process-level reward model 없이 augmented sample을 생성하는 더 단순한 방식을 사용하고, LLM과 math reasoning ability 사이의 scaling 관계를 연구하는 데 초점을 맞춘다.

Scaling Laws of Large Language Models

■ OpenAI scaling law에서는 모델 parameter 수와 data size가 loss에 어떻게 기여하는지에 대해, 여러 자릿수 규모에 걸친 예측 가능한 관계를 처음으로 조사하고 도출했다.

■ Chinchilla에서는 OpenAI의 scaling law를 정교화했고, computation-optimal training을 위한 scaling law를 발견했다.

■ data-constrained scenario에서 scaling law를 탐구한 연구도 있다.

■ pre-training에서의 scaling performance를 조사하는 것 외에도, human preference alignment를 위한 overparameterized reward model의 scaling law, pre-trained model의 성능이 downstream task로 transfer되는 과정에 대한 scaling law를 개발한 연구가 있으며, math problem의 scaling law를 조사한 연구도 있다.

■ 이 논문에서는 pre-training loss, supervised data의 양, augmented data의 양을 중심으로, LLM이 math word problem을 학습할 때의 scaling 관계를 조사한다.

3. THE FACTORS OF MATH REASONING ABILITY IN SUPERVISED LLM

■ 이 논문의 목표는 math reasoning에서 supervised LLM의 성능을 이해하는 것이며, 저자들은 pre-trained LLM \( \rho \)가 supervised reasoning dataset \( \mathcal{D} \)로부터 reasoning ability를 학습한다고 본다.

■ dataset은 \( \mathcal{D} = \{q_i, r_i, a_i\}_i \)로 정의되며, 여기서 \( q \)는 question \( r \)은 chain-of-thought reasoning path, 그리고 \( a \)는 numerical answer이다.

■ 저자들은 dataset \( \mathcal{D} \)에 대해 SFT를 수행하여 SFT model \( \pi \)를 얻는다. 이 \( \pi \)를 사용해 test set에서 greedy decoding으로 reasoning paths과 answers을 생성하고, accuracy로 결과를 평가한다.

3.1 MODEL ACCURACY VS. PRE-TRAINING LOSS

■ 이전 연구들은 같은 계열의 모델 안에서는 더 큰 LLM이 더 좋은 reasoning ability를 보인다고 말해 왔다. 그러나 저자들은 LLaMA가 GPT-3보다 더 좋은 성능을 보이는 것을 발견했다. 이는 모델 parameter 수가 reasoning ability의 유일한 지표가 되어서는 안 된다는 것을 보여준다.

■ LLM들이 서로 다른 아키텍처, model parameter 수, pre-training token 수를 가지고 있지만, 저자들은 pre-training loss가 math reasoning ability의 안정적인 성능 지표라는 것을 발견했다. 그래서 모델 parameter 수나 pre-training token 수 대신 pre-training loss를 지표로 사용한다.

■ 저자들은 GPT-3, LLaMA, LLaMA2, GPT-4의 SFT 성능과 ICL(8-shot in-context learning) 성능을 분석한다.

■ 이 모델들의 pre-training loss는 각 모델 논문에서 확인한 것이다. 다만 이 pre-training loss들은 서로 다른 pre-training dataset과 서로 다른 tokenizer에 대응하기 때문에 엄밀하게 비교하기 어렵다. 그럼에도 이 loss들 사이의 경향은 여전히 시사하는 바가 있다.

■ GPT-3 fine-tuning 결과는 Training verifiers to solve math word problems 논문의 결과를 사용하고, LLaMA와 LLaMA2는 GSM8K training set에서 직접 fine-tuning한다. 그리고 in-context learning의 경우, LLaMA와 LLaMA2 논문의 결과를 사용한다.

■ Fig 2는 주어진 pre-training loss 구간 안에서 pre-training loss가 SFT 및 ICL accuracy와 대략 음의 선형 상관관계를 가진다는 것을 보여준다.

■ pre-training loss가 작아질수록 SFT 및 ICL accuracy가 증가하는 것을 볼 수 있다. 단, Fig 2와 같은 SFT 및 ICL accuracy의 선형 관계는 주어진 구간에서만 성립할 수 있다.

■ 이때 SFT는 일관되게 ICL보다 더 좋은 성능을 보이지만, pre-training loss가 낮아질수록 그 개선 폭은 줄어든다.

■ parameter size는 비슷하지만, pre-training이 더 잘 되어 loss가 낮아지면 성능이 좋아질 수 있다는 관점에서 LLaMA-2 7B와 13B는 각각 LLaMA 7B와 13B를 continue-training한 것의 근사치(즉, LLaMA2 7B/13B를 LLaMA 7B/13B의 더 학습된 버전)로 볼 수 있다.

■ 더 오래 학습됨에 따라 parameter 수가 변하지 않아도 ICL과 SFT 성능이 모두 향상된다는 관찰을 통해, 저자들은 reasoning ability를 향상시키는 효과적인 방법 중 하나는 더 낮은 pre-training loss를 가진 더 좋은 base model을 학습하는 것, pre-training is all you need!라고 주장한다.

■ pre-training loss가 더 낮은 모델일수록 fine-tuning을 통해 얻는 개선 폭이 더 적은데, 이는 모델이 pre-training 과정에서 이미 더 많은 reasoning ability를 얻었기 때문에, supervised data가 추가로 제공할 수 있는 supervision signal이 더 적기 때문일 수 있다.

3.2 MODEL ACCURACY VS. SUPERVISED DATA COUNT

■ SFT는 LLM의 reasoning ability를 향상시킨다. 이 섹션에서는 supervised data의 양이 모델의 성능 향상에 어떤 영향을 미치는지 확인한다.

■ 저자들은 GSM8K training set의 {1(100%), 1/2, 1/4, 1/8, 1/16, 1/32} 비율에 해당하는 양으로 LLaMA와 LLaMA2를 fine-tuning하고, 이 설정을 통해 supervised data가 더 많을 경우 모델 성능이 어떻게 바뀌는지 관찰했다.

■ Fig 3은 서로 다른 양의 supervised data로 학습한 결과를 나타낸 것이다. 여기서 볼 수 있는 것은
- (1) 모델 성능은 데이터 양과 log-linear 관계를 가진다. 데이터 양이 두 배가 될 때마다 성능이 향상된다.
- (2) 더 좋은 모델일수록 자신의 ICL 성능을 능가하기 위해 더 많은 양의 데이터가 필요하다.
- 좋은 모델은 few-shot ICL에서 좋은 성능을 달성할 수 있다. SFT가 그 ICL 성능을 넘으려면 더 많은 supervised data가 필요(SFT 1, SFT 1/2)한 것을 볼 수 있다.
- (3) 더 좋은 모델은 supervised data 양이 두 배로 늘어날 때 얻는 이점(성능 향상 폭)이 더 작다.

■ 이러한 log-linear 관계는 training data 양이 {1, 1/2, 1/4, 1/8} 구간일 때 안정적으로 나타난다.

■ 이 관찰로부터, 성능을 향상시키기 위해 training dataset을 늘리는 것은 직관적이고 효과적인 방법이며, 특히 성능이 낮은 모델에서 더 효과적임을 알 수 있다.

■ 반면 더 좋은 모델의 경우에는 그 이득이 더 작으며, 이는 더 좋은 모델들이 pre-training 동안 이미 더 많은 reasoning ability를 학습했다는 점과 맞닿아 있다.

3.3 MODEL ACCURACY VS. AUGMENTED DATA COUNT

■ math reasoning labeled data의 양을 늘리는 것은 어려운 문제이며, 특히 새로운 question을 고안하는 것이 더욱 그렇다. 교육을 잘 받은 학생이 하루에 수백 개의 math word problem을 푸는 것은 쉽지만, 다양하고 교육적으로 유용한 math problem을 생각해내는 것은 매우 어렵다.

■ new queries을 증강하는 방법(Appendix D.1)과 revisions을 증강하는 방법(Appendix D.2)을 시도했다. 이러한 접근들은 SFT와 비교했을 때 개선이 없거나 아주 미미한 개선만을 보였다.

■ 저자들은 rejection sampling의 단순화된 버전이 새로운 reasoning path를 증강하는 단순하지만 효과적인 방법이며, 모델 성능을 향상시킬 수 있음을 발견했다. 그리고 RFT로 증강한 data를 사용한 fine-tuning에서 성능에 영향을 미치는 핵심 요인이 distinct reasoning path의 양이라는 것을 발견했다.

■ 여러 모델에서 얻은 rejection sampling sample들을 결합함으로써, LLaMA-7B 모델을 accuracy 49.3까지 추가 finetuning할 수 있었고, 이는 SFT의 35.9와 비교된다. 또한 LLaMA-13B 모델은 accuracy 52.1까지 향상되었고, 이는 SFT의 43.0과 비교된다.

Rejection Sampling Fine-tuning

■ SFT model \( \pi \)를 사용해 더 많은 correct reasoning path \( r_{ij} \)를 생성하여 training dataset을 보강한다.

■ 각 question \( q_i \)에 대해, temperature 0.7을 사용하여 \( k \)개의 candidate reasoning path와 answer \( (r, a) \)를 생성한다.

■ 저자들은 먼저 wrong answers(\( a \ne a_i \))을 가진 reasoning paths이나 Python evaluation 기준으로 잘못된 계산이 포함된 paths을 필터링하여 걸러낸다.

■ 각 reasoning path는 equation들의 리스트 \( e_j \)를 포함하며, 저자들은 distinct한 equation list마다 하나의 reasoning path \( r_{ij} \)를 augmented data로 선택하고, 유사한 reasoning paths을 중복 제거하기 위해 동일한 equation list를 가진 다른 reasoning paths을 제거했다. 이를 통해 서로 다른 계산 과정을 가진 path들이 남게 된다.

■ 원소의 순서가 다르거나(예: 3 + 4 = 7과 4 + 3 = 7), equation의 순서가 다른 것은 서로 다른 것으로 간주한다.

■ 모델이 이러한 순서들이 서로 바뀔 수 있다는 것을 아는 것은 도움이 되며, 각 문제마다 단 하나의 reasoning path만으로는 모델이 이를 학습하기가 어렵다.

■ 논문에서는 증강된 데이터셋을 \( \mathcal{D}'_\pi = \mathcal{D} \cup \{q_i, r_{ij}, a_i\}_{i,j} \)로 정의한다.

■ augmented dataset \( \mathcal{D}' \)를 사용해 pre-trained LLM \( \rho \)를 fine-tuning하여 \( \pi_{\text{RFT}} \)를 얻는다. 이 과정을 RFT라 명명한다. (Appendix A.3)

■ Table 1은 LLaMA와 LLaMA-2에서 \( k = 100 \)개의 candidate reasoning paths을 샘플링한 RFT 결과이다. ICL, SFT, RFT에 대해 maj1@1(accuracy)과 maj1@100(100번 샘플링 후 majority voting으로 accuracy 계산)을 지표로 제시한다.

■ 7B 및 13B 모델의 경우, RFT는 maj1@1에서 약 5~6 포인트 증가, maj1@100에서 약 4 포인트 증가를 가져왔다.

■ 33B 모델의 경우, RFT는 SFT에 비해 성능을 향상시키지 못한다. 그 이유는 rejection sampling으로 얻은 augmented samples에 있다.

■ 또한 Table 1에서, 더 좋은 모델들이 문제당 더 많은 correct reasoning paths을 생성함을 볼 수 있다. LLaMA-33B-SFT의 경우 질문당 평균 88.7개의 correct paths을 생성했다.

■ 그러나 LLaMA-33B-SFT는 training set에 과적합되어 training set question에 대해 더 다양한 path를 생성하는 데 어려움을 가졌다. (distinct paths per question 2.78)

■ 저자들은 33B 모델로 rejection sampling을 수행하는 것은 시간이 매우 오래 걸려 temperate 하이퍼파라미터에 대한 grid search를 수행하지는 않았으나, LLaMA-33B-SFT 모델의 디코딩을 위해 더 높은 temperature 1.0을 시도해 본 결과, question당 82.4개의 correct paths과 4.77개의 distinct paths을 생성했다. temperature 0.7을 사용할 때보다 더 다양했지만 여전히 7B와 13B 모델보다 다양성이 낮다.

■ 저자들은 33B 및 더 큰 모델에서도 더 많은 distinct path를 생성하고 RFT에서 좋은 결과를 낼 수 있는 temperature 또는 generation configuration이 존재할 수 있음을 인정한다. 그러나 그런 설정을 찾고 사용하는 데는 7B와 13B 모델을 사용할 때보다 더 많은 inference 계산 자원이 필요하다.
- 이후 실험에서 7B와 13B 모델만을 rejection sampling에 사용해도 33B 모델을 개선할 수 있음을 보여준다.

Model Accuracy vs Rejection Sampling Data Count

■ RFT의 성능을 확인하기 위해, \( k \) 값을 1, 3, 6, 12, 25, 50, 100으로 변경하며 RFT를 적용한다.

■ 그리고 reasoning paths을 전혀 제거하지 않는(즉, 중복 제거를 하지 않는) \( k = 100 \)의 별도의 설정을 두며, 이를 no dedup이라고 부른다. Fig 4는 다양한 \( k \)에 따른 RFT 결과를 나타낸 것이다.

■ \( k = 100 \)으로 RFT를 사용한 것과 no dedup을 비교하면, 그 성능은 비슷하게 나타난다. 이는 RFT 성능을 평가할 때 증강된 총 샘플의 개수보다 distinct reasoning path의 개수를 기준으로 추정하는 것이 더 낫다는 것을 보여준다.

■ 더욱이, 중복 제거를 하면 4개의 모델 중 3개에서 더 좋은 성능을 보였고, 학습 시간도 훨씬 적게 소요된다.

■ \( k = 3 \)을 사용할 때도 RFT는 SFT보다 안정적으로 2 point 높은 성능을 보인다. 대부분의 data point에서 더 큰 \( k \)를 사용하면 더 좋은 성능으로 이어진다.

■ 그러나 \( k \)를 두 배로 늘릴 때 RFT의 이점은 점점 감소한다.

■ Table 2는 서로 다른 \( k \) 값에 대해 question당 서로 다른 path의 개수를 계산한 것이다. \( k \)가 증가해도 서로 다른 reasoning path의 수가 그만큼 빠르게 증가하지 않음을 볼 수 있다.

■ Fig 3에서 training sample을 두 배로 늘리면 선형적인 성능 향상이 있을 수 있음을 확인했다. RFT에서 reasoning paths을 두 배로 늘리는 것은 training sample을 두 배로 늘리는 것보다 더 적은 개선을 가져와야 한다.

■ 왜냐하면 새로운 question이 더 큰 정보를 제공할 수 있으며, RFT에서 reasoning path를 늘리는 것은 새로운 questions을 얻는 것이 아니기 때문이다. 그러므로 \( k \)를 두 배로 계속 늘려도 성능 향상은 점점 줄어든다.

Combining rejection sampling samples from multiple models

■ 위의 실험 결과들은 rejection sampling을 활용하면 mathematical reasoning 성능이 향상된다는 것을 보여준다.

■ 4.1절의 case study를 통해, 저자들은 rejection sampling이 다양한 계산 과정을 가진 reasoning paths로 training data를 증강할 수 있음을 보여준다.

■ 그러나 하나의 SFT model에서 샘플링된 reasoning path들은 논리적으로 다양하지 않을 수 있다.

■ 그래서 저자들은 서로 다른 모델들로부터 aggregated된 rejection-sampled reasoning path들을 모아 활용하면 mathematical reasoning 성능을 더 향상시킬 수 있을 것이라 가정한다.

■ 두 개의 dataset \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)는 서로 다른 모델에서 rejection sampling한 결과를 aggregation한 것이다.
- \( \mathcal{D}'_{U13B} = \mathcal{D}'_{7B} \oplus \mathcal{D}'_{7B2} \oplus \mathcal{D}'_{13B} \oplus \mathcal{D}'_{13B2} \)이고, \( \mathcal{D}'_{U33B} = \mathcal{D}'_{U13B} \oplus \mathcal{D}'_{33B} \)이다.
- 여기서 U는 특정 크기 이하의 모델들을 의미하며, 7B/13B/33B는 LLaMA-7B/13B/33B를, 7B2/13B2는 LLaMA2-7B/13B를 의미한다.
- \( oplus \)는 aggregation process를 의미한다. 이 과정에서는 먼저 서로 다른 set의 모든 reasoning path를 결합한 뒤, Algorithm 1 (Appendix A.3)을 적용하여 equation form과 equation order 기준으로 같은 calculation process를 가진 reasoning path들을 중복 제거한다.

■ Fig 5에서 aggregated dataset \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)를 사용하면, 다양한 모델 크기 전반에서 single model로부터 얻은 dataset으로 fine-tuning하는 것보다 일관되게 더 좋은 성능을 낼 수 있음을 확인할 수 있다.

■ \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)라는 두 augmented dataset으로 RFT를 수행하면, SFT와 RFT \( k = 100 \)에서 동일한 크기의 모델들 사이에 존재하던 성능 격차가 줄어든다.

■ 이는 결합된 augmented dataset이 pre-training gap을 채울 수 있을 만큼 충분한 reasoning supervision을 제공한다는 것을 의미한다.

■ 저자들은 supervised data의 양이 충분하다면 상황이 달라질 수 있으며, 이 경우에 성능 지표는 pre-training loss가 아니라 model size가 되어야 한다고 가정할 수 있다고 말한다.

■ 앞서 33B 모델에 RFT \( k = 100 \)을 적용하는 것은 비용이 많이 들고, SFT보다 성능 향상을 얻기 위해서는 temperature grid search가 필요하다고 말했다.

■ 그러나 \( \mathcal{D}'_{U13B} \)로 fine-tuning하는 것은 33B에서 100번 sampling하는 것과 비슷한 rejection sampling 계산 비용을 가지면서도 더 좋은 성능을 달성한다.

■ 또 다른 현상은 \( \mathcal{D}'_{33B} \)를 aggregation에 포함해도 성능에 거의 영향을 주지 않는다는 것이다.

■ Table 2에서 \( \mathcal{D}'_{U13B} \)와 \( \mathcal{D}'_{U33B} \)의 평균적인 reasoning path 개수는 single model에서 얻은 것보다 훨씬 많지만, \( \mathcal{D}'_{U33B} \)는 \( \mathcal{D}'_{U13B} \)보다 0.81개 정도만 더 많다. 이 결과는 RFT의 다양성 측면이 제한적이라는 앞선 관찰과 일치한다.

■ Fig 6에서 13B 이하의 모델들은 \( \mathcal{D}'_{U33B} \) 내에서 각각 약 15% 정도의 비슷한 비율로 unique reasoning paths을 제공한다.

■ 그러나 reasoning paths 중 6.5%만이 LLaMA-33B-SFT 모델에서만 얻을 수 있다. 즉, LLaMA-33B-SFT에서 얻은 path들은 다른 모델에서 이미 나온 것과 겹치거나, 다양성이 제한적이었다.

■ 다시 말해 이는 33B의 SFT model이 training question을 sampling할 때 제한된 reasoning diversity만 제공할 수 있음을 보여준다.

■ 이 발견은 앞의 Table 1 결과와 일치하며, 33B 모델, 그리고 아마 65B와 70B 모델도 human-annotated reasoning path를 잘 memorize할 수 있음을 나타낸다.

■ 65B 모델의 경우, 저자들은 \( \mathcal{D}'_{U13B} \)를 사용해도 SFT와 비교해 성능이 향상되지 않는다는 것을 발견했다.

■ 그 이유는 더 좋은 모델들이 pre-training 동안 이미 더 많은 reasoning ability를 학습했기 때문에, supervised sample 양이 늘어나도 얻는 이득이 더 작기 때문일 수 있다.

■ 종합하면,
- (1) RFT는 SFT model의 rejection sampling에서 얻은 다양한 reasoning paths을 통해 성능이 낮은 LLM의 mathematical reasoning 성능을 향상시키며, 더 다양한 reasoning paths을 aggregate하면 성능을 더 향상시킬 수 있다.
- (2) 서로 다른 SFT model들은 rejection sampling을 통해 서로 다른 calculation process를 가진 reasoning paths을 제공할 수 있으며, 이는 RFT를 위한 더 다양한 training data로 이어진다.
- 반면 parameter size가 더 큰 LLM들은 training question에 overfit된 결과로서 다양한 reasoning paths을 생성하는 능력이 저하될 수 있다.
- 충분히 큰 LM이 training dataset에 과적합되지 않도록 하는 generation configuration이나 training configuration이 있을 수 있지만, 그것을 찾는 것은 쉽지 않다.

Comparing to other baselines

■ Table 3는 \( \mathcal{D}'_{U13B} \)로 학습한 RFT 결과와 여러 베이스라인들을 비교한 것이다.

■ LLaMA와 LLaMA2가 top-tier open-sourced LLM이기는 하지만, 이들의 mathematical reasoning 성능은 GPT-4나 PaLM2처럼 더 큰 parameter scale을 가진 현재의 proprietary LLM들에 뒤처진다.

■ 저자들이 제안한 RFT 방법은 verifier model을 학습시키고 Monte Carlo Tree Search(MCTS)로 디코딩할 필요가 없기 때문에 다른 방법들에 비해 훨씬 더 간단한다.

4. DISCUSSION

4.1 DIFFERENT DISTRIBUTION OF REASONING PATHS

■ 위에서 rejection sampling이 training question을 다양한 reasoning calculation paths로 증강할 수 있음을 확인했다. 이 섹션에서는 RFT 모델들이 correct answers에 도달하기 위해 서로 다른 reasoning paths를 생성하는 법을 학습할 수 있는지 확인한다.

■ 이 실험을 위해 7B와 13B 크기의 LLaMA 및 LLaMA2를 \( \mathcal{D}'_{U13B} \)에서 fine-tuning한다.

■ Inference 동안, 각 trained model로부터 각 test set question마다 temperature 0.7로 100개의 reasoning path를 샘플링한다.

■ 각 question에 대해, 100개의 sampled reasoning paths 중 correct answer에 도달하는 path들 안에 나타난 서로 다른 calculation process의 수를 계산하고, test set question들을 기준으로 histogram을 그린다. 비교를 위해 SFT model과 self-sampled dataset으로 학습한 RFT \( k = 100 \)인 RFT model도 추가한다.

■ Figure 7에서 \( \mathcal{D}'_{U13B} \)로 학습된 RFT 모델들은 unique calculation process의 수가 더 많은 구간에서 RFT \( k = 100 \) 또는 SFT로 학습한 모델들보다 더 많은 question counts를 보인다.

■ 샘플링된 모든 reasoning path가 단 하나의 calculation process에만 해당하는 question counts는 SFT 모델에서 더 높게 나타났으며, SFT 모델은 하나의 question에 대해 8개 이상의 서로 다른 calculation process를 거의 생성하지 못한다.

'자연어처리 > Reasoning' 카테고리의 다른 글

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning (0)	2026.05.31
[ToT] Tree of Thoughts: Deliberate Problem Solving with Large Language Models (1)	2026.04.11
Distilling Structured Rationale from Large Language Models to Small LanguageModels for Abstractive Summarization (0)	2026.02.01
Aligning Large and Small Language Models via Chain-of-Thought Reasoning (0)	2026.01.28
Orca 2: Teaching Small Language Models How to Reason (0)	2026.01.26

Hyun_Jae

[RFT] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

1. INTRODUCTION