Qwen2.5 Technical Report

In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In

arxiv.org

1. Introduction

■ Qwen 2.5는 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B를 포함한 7가지 크기의 pre-trained 및 instruction-tuned models이 있으며, flagship mode lQwen2.5-72B-Instruct는 약 5배 더 큰 Llama-3-405B-Instruct와 경쟁력 있는 성능을 달성했다.

■ 또한, MoE 기반의 Qwen2.5-Turbo 및 Qwen2.5-Plus는 각각 GPT-4o-mini 및 GPT-4o와 경쟁력 있는 성능을 달성했다.

■ 이러한 성능 향상의 요인으로 논문에서는 다음과 같은 개선 사항들이 제시된다.

Better in Data

■ pre-training 및 post-training data가 상당히 개선되었다.

■ pre-training data는 7T tokens에서 18T tokens로 확장되었으며 knowledge, coding, mathematics에 중점을 두었다. pre-training은 다양한 mixtures 간의 전환이 가능하도록 단계적으로 진행된다.

■ post-training data는 SFT, DPO, GRPO stage를 거치며 1M 개의 examples을 사용한다.

Better in Use

■ 더 길어진 generation length(기존 2K에서 8K tokens로), 구조화된 input 및 output(예: tables and JSON)에 대한 개선, 그리고 이전 버전보다 tool을 더 쉽게 사용할 수 있다.

■ Qwen2.5-Turbo는 최대 1M tokens의 context length를 지원한다.

2. Architecture & Tokenizer

■ Qwen 2.5 dense models의 경우 Qwen 2와 마찬가지로 Transformer-based decoder architecture이다.

■ 그리고 효율적인 KV cache 활용을 위해 GQA, non-linear activation을 위해 SwiGLU activation function, 위치 정보 인코딩을 위해 RoPE, attention mechanism 내의 QKV bias (RoPE + Bias), 그리고 안정적인 학습을 위해 Pre-LN 구조를 따르며, RMSNorm을 사용한다.

■ 토큰화를 위해 Qwen의 토크나이저를 사용한다. 이는 151,643개의 vocabulary를 가지며, byte-level의 byte-pair encoding (BBPE)을 사용한다.

■ 이전 버전과 비교했을 때, Qwen 2.5에서는 control tokens을 크게 늘렸다. 여기에는 도구(tool) 사용 기능을 위한 2개의 새로운 토큰이 추가되었으며, 나머지는 다른 모델 기능을 위해 할당되었다.

3. Pre-training

■ Qwen 2.5 pre-training process의 핵심 요소는 다음과 같다.

3.1 Pre-training Data

■ Qwen 2.5는 이전 버전인 Qwen 2에 비해 pre-training data quality를 더 개선시켰다. 이러한 개선은 다음과 같은 요소들에서 비롯된다.

Better data filtering

■ high-quality pre-training data는 모델 성능에 결정적이므로, data quality를 평가하고 필터링하는 것이 중요하다.

■ Qwen 2-Instruct model을 data quality 필터로 사용하여 training samples을 평가하고 점수를 매긴다. 이 필터링 방식은 Qwen 2가 더 큰 multilingual corpus에서 사전학습을 통해 얻은 이점을 활용하므로, Qwen 2에서 사용한 필터링보다 더 개선된 방식이다.
- Qwen 2에서는 Qwen 1 model을 사용

■ 결과적으로 Qwen 2보다 여러 언어에 걸쳐 high-quality training data를 더 잘 보존하고 low-quality data를 더 효과적으로 필터링할 수 있게 되었다.

Better math and code data

■ pre-training phase에서부터 domain-specific models의 training data를 통합한다. 구체적으로, Qwen2.5-Math 및 Qwen2.5-Coder의 training data를 통합시켰다.

■ 이 데이터 통합 전략은 매우 효과적인 것으로 입증되었는데, 이러한 specialized datasets이 mathematical 및 coding tasks에서 SOTA의 성능을 달성하는 데 중요한 역할을 하기 때문이다.

■ pre-training에서 이러한 high-quality domain-specific datasets을 사용함으로써, Qwen 2.5는 mathematical reasoning 및 code generation 모두에서 강력한 능력을 갖게 되었다.

Better synthetic data

■ mathematics, code, knowledge domains에서 high-quality synthetic data를 생성하기 위해, Qwen2-72B-Instruct와 Qwen2-Math-72B-Instruct를 모두 활용한다.

■ 그리고 synthesized data의 quality를 높이기 위해, proprietary general reward model과 Qwen2-Math-RM-72B model을 사용해 데이터를 필터링한다.

Better data mixture

■ pre-training data distribution을 최적화하기 위해, Qwen2-Instruct models을 사용하여 다양한 도메인에 걸쳐 콘텐츠를 분류하고 균형을 맞춘다.

■ 전자 상거래, 소셜 미디어, 엔터테인먼트 같은 도메인이 web data에서 상당히 많은 부분을 차지하고 있으며, 반복적이거나 템플릿 기반 또는 machine-generated된 콘텐츠를 포함하고 있었다고 한다.

■ 반대로 technology, science, academic research와 같은 도메인은 더 높은 품질의 정보를 포함하고 있음에도 과소 대표되어 있었다고 한다.

■ 그래서 과대 대표된 도메인은 down-sampling하고 과소 대표되었지만 high-value를 가진 도메인은 up-sampling하여, 더 균형 잡히고 정보가 풍부해지도록 하였다.

■ 위와 같은 과정들을 통해 더 크고 고품질인 pre-training dataset을 구축하였다.

3.2 Scaling Law for Hyper-parameters

■ Qwen 2.5의 pre-training data를 기반으로 하이퍼파라미터에 대한 scaling laws을 개발했다.

■ 이전 연구들은 주로 compute budget이 주어졌을 때 최적의 모델 크기를 결정하기 위한 scaling laws를 사용했다면, Qwen 2.5에서는 모델 아키텍처 전반에 걸쳐 최적의 하이퍼파라미터를 식별하는 것에 초점을 두었다.

■ 광범위한 실험을 통해, model size \( N \)과 pre-training data size \( D \)에 따라 optimal learning rate \( \mu_{\text{opt}} \)와 optimal batch size \( B_{\text{opt}} \)가 어떻게 변하는지 측정했다.

■ 이 실험을 통해 크기가 작은 dense/MoE models부터 큰 dense/MoE model까지(44M to 14B/44M to 1B activated parameters) 최적의 설정값을 찾아내고, 이러한 최적의 하이퍼파라미터 예측을 사용하여, final loss를 model architecture와 training data scale의 함수로 모델링하였다.

3.3 Long-context Pre-training

■ Qwen2.5는 two-phase pre-training 방식을 사용한다: initial phase에서 4,096 tokens context length를 사용하고, 이어서 더 긴 시퀀스를 위한 extension phase를 진행한다.

■ 구체적으로 Qwen 2에서 사용한 것처럼, Qwen2.5-Turbo를 제외한 모든 모델들에 대해 4,096 tokens로 학습시키다가, 마지막 pre-training stage에서 32,768 tokens로 학습시킨다.

■ 그리고 ABF technique을 사용하여 RoPE의 base frequency를 10,000에서 1,000,000으로 증가시켰다.

■ Qwen2.5-Turbo의 경우 점진적으로 context length를 확장시키는 방법을 통해 32,768, 65,536, 131,072, 그리고 최종적으로 262,144 tokens의 4단계를 거치게 하며, RoPE의 base frequency는 10,000,000으로 설정하여 학습시킨다.

■ 각 stage에서 각 stage의 최대 길이 시퀀스(예: stage 1이면 32,768, stage 2이면 65,536, ...) 40%와 더 짧은 시퀀스 60%를 포함시켜 모델을 학습시켰다.

■ 이러한 progressive training methodology는 모델이 증가하는 context lengths에 부드럽게 적응하면서도, 다양한 길이의 시퀀스를 효과적으로 처리하고 일반화하는 모델의 능력을 유지하게 한다.

■ inference time에서는 더 긴 시퀀스를 처리하도록 하기 위해, YARN과 Dual Chunk Attention(DCA)을 사용한다. 이를 통해 시퀀스 길이 용량을 4배 증가시켜, Qwen2.5-Turbo는 최대 1M tokens을, 다른 모델들은 최대 131,072 tokens을 처리할 수 있게 되었다고 한다.

■ 이러한 접근법은 PPL을 낮추어 긴 시퀀스 모델링을 개선할 뿐만 아니라, 짧은 시퀀스에 대한 성능도 유지하여 다양한 input lengths을 처리할 수 있게 해준다.

4. Post-training

■ post-training에서 Qwen 2와 비교했을 때, Qwen 2.5는 다음과 같은 두 가지 advancements을 도입했다.

Expanded Supervised Fine-tuning Data Coverage

■ 수백만 개의 high-quality examples로 구성된 dataset을 사용하여 supervised fine-tuning을 수행한다.

■ 이렇게 방대한 양의 high-quality examples을 통해 long-sequence generation, mathematical problem-solving, coding, instruction-following, structured data understanding, logical reasoning, cross-lingual transfer, robust system instruction와 같이 이전 모델이 한계를 보였던 영역들을 보완할 수 있었다.

Two-stage Reinforcement Learning

■ Qwen 2.5의 reinforcement learning (RL) process는 Offline RL과 Online RL로 구성된다.

- (1) Offline RL: 이 단계에서는 reasoning, factuality, instruction-following과 같이 reward model이 평가하기 어려운 capabilities을 향상시키는 데 중점을 둔다.

- (2) Online RL: output quality의 미묘한 차이를 식별하는 reward model을 통해 truthfulness, helpfulness, conciseness, relevance, harmlessness 및 debiasing을 학습시킨다. 이를 통해 모델은 safety와 가독성을 유지하면서 정밀하고 일관되며 잘 구조화된 responses을 생성할 수 있다.

4.1 Supervised Fine-tuning

■ 이 섹션에서는 Qwen 2.5의 SFT phase에서 이루어진 주요 개선 사항들을 설명한다.

Long-sequence Generation

■ 모델의 post-training response length를 늘리기 위해, long-response datasets을 개발한 다음, pre-training corpora의 long-text data에 대해 back-translation techniques을 적용하여 queries을 생성했다.

■ 그리고 output length에 제약을 걸어서, response length가 해당 제약조건을 충족하도록 강제했다.

■ 더 나아가, Qwen 2를 사용하여 low-quality paired data를 필터링했다.

Mathematics

■ public datasets, K-12 problem collections, 그리고 synthetic problems을 포함한 다양한 sources을 아우르는 Qwen2.5-Math의 CoT data를 사용했다.

■ high-quality의 reasoning을 위해, reward modeling 및 annotated answers을 guidance로 삼고, rejection sampling을 사용하여 step-by-step reasoning process 생성했다.

Coding

■ coding capabilities을 향상시키기 위해 Qwen2.5-Coder의 instruction tuning data를 통합했다.

■ 여러 개의 language-specific agents을 사용하여 약 40개의 프로그래밍 언어에 걸쳐 다양하고 고품질의 instruction pairs을 생성했다.

■ 그리고 코드 관련 Q&A 웹사이트에서 새로운 examples을 합성하고 GitHub에서 알고리즘 코드 스니펫을 수집하여 instruction dataset을 확장했다.

■ multilingual sandbox를 사용하여 static code checking을 수행하고 자동화된 unit testing을 통해 코드 스니펫을 검증하여 code의 quality와 correctness를 제고했다.

Instruction-following

■ high-quality instruction-following data를 만들기 위해, code-based의 validation framework를 구현했다.

■ 이를 통해 LLM은 instructions과 그에 해당하는 verification code를 모두 생성하며, 교차 검증을 위한 unit tests도 함께 생성한다.

■ execution feedback-based의 rejection sampling을 통해 SFT phase에서 사용되는 training data를 신중하게 선별하여, 모델이 의도된 instructions을 잘 따르도록 하였다.

Structured Data Understanding

■ 표 형식의 question-answering, fact verification, error correction, structural understanding과 같은 traditional tasks뿐만 아니라 복잡한 structured 및 semi-structured data를 포함하는 포괄적인 structured understanding dataset을 개발했다.

■ 그리고 모델의 responses에 reasoning chains을 포함시킴으로써(즉, 표나 반정형 데이터를 understanding할 때에도 reasoning chain을 거쳐서 response하도록), structured data에서 정보를 추론하는 능력을 크게 향상시켰다.

Logical Reasoning

■ logical reasoning capabilities을 향상시키기 위해, 다양한 도메인에 걸친 70,000개의 새로운 queries을 도입했다.

■ 이 queries에는 multiple-choice questions, true/false questions, open-ended questions이 포함되어 있다.

■ 모델은 deductive reasoning, inductive generalization, analogical reasoning, causal reasoning, 그리고 statistical reasoning과 같은 다양한 reasoning methods을 사용하여 문제를 체계적으로 접근하도록 학습된다.

■ 반복적인 refinement 과정을 통해 incorrect answers이나 flawed reasoning processes를 포함하는 데이터를 걸러내서, 모델이 논리적이고 정확하게 추론하는 능력을 점진적으로 강화하여, 다양한 유형의 reasoning tasks에서 robust한 performance를 낼 수 있게 하였다.

Cross-Lingual Transfer

■ high-resource languages에서 학습된 모델의 capabilities(예: instruction-following, reasoning 등)을 low-resource languages로 확장시켜, 다양한 언어에서도 일관된 품질과 성능을 유지시키고자 하였다.

■ 이를 위해, 번역 모델을 사용해서 high-resource languages의 instructions을 low-resource languages로 변환하고, 이에 해당하는 response candidates을 생성했다.

■ 이렇게 생성된 responses의 accuracy와 consistency를 보장하기 위해, 각 multilingual response와 원본 response 간의 semantic alignment(즉, 생성된 저자원 언어의 response와 원본 response가 의미적으로 일치하는지)를 평가한다.

■ 이러한 과정을 통해 원본 response의 논리적 구조와 문체 스타일을 보존시켜, 번역 과정에서 발생할 수 있는 문제들(예: 의미 왜곡)을 방지한다.

Robust System Instruction

■ post-training에서 system prompts의 다양성을 위해, 수백 개의 general system prompts을 구축하였다.

Response Filtering

■ responses의 quality를 평가하기 위해, critic model과 multi-agent collaborative scoring system을 포함한 여러 automatic annotation methods을 사용했다.

■ 이 과정을 통해 responses은 엄격한 평가를 거치며, 모든 채점 시스템에서 문제가 없다고 판단된 responses만 남게된다. 이런 방식은 model outputs의 품질을 높은 수준으로 유지하는 데 기여한다.

■ 이렇게 1M 개 이상의 SFT examples로 구성된 dataset을 구축했으며, 모델을 32,768 tokens의 sequence length로 2 epochs 동안 fine-tuning시켰다.

■ 학습률은 \( 7 \times 10^{-6} \)에서 \( 7 \times 10^{-7} \)로 점진적으로 감소시켰으며, 과적합을 방지하기 위해 weight decay 0.1, gradient clipping 1.0을 사용했다.

4.2 Offline Reinforcement Learning

■ Online RL과 비교했을 때, Offline RL은 standard answers이 존재하지만 reward model을 사용하여 평가하기 어려운 tasks(예: 수학)에 특히 유리하다.

■ 그래서 Offline RL을 통해, 정확한 평가를 얻기 복잡할 수 있는 mathematics, coding, instruction following, logical reasoning의 성능을 향상시키고자 하였다.

■ SFT phase에서 high-quality response를 위해 execution feedback 및 answer matching과 같은 다양한 strategies을 사용했다. Online RL phase에서 이 파이프라인(문제(즉, queries)에 대한 responses을 생성 -> automatic response filtering methods로 생성된 responses 채점)을 재사용한다.

■ SFT model을 사용해 새로운 문제에 대한 responses을 resample한 다음, 품질 검사를 통과한 responses을 positive examples로, 실패한 responses은 negative examples로 사용하여 DPO training을 수행한다.

■ training signals의 reliability와 accuracy를 더욱 높이기 위해, human 및 automated review processes를 모두 사용한다. 이러한 이중 접근 방식은 training data가 인간의 기대와도 일치하도록 만들 수 있다.

■ 궁극적으로, 150,000 training pairs로 구성된 dataset을 구축한 다음, Online Merging Optimizer를 사용하여 모델을 \( 7 \times 10^{-7} \)의 학습률로 1 epoch 동안 학습시킨다.

4.3 Online Reinforcement Learning

■ online RL을 위한 reward model을 만들기 위해, 신중하게 정의된 labeling criteria를 따른다. 이러한 기준은 모델이 생성한 responses이 고품질일 뿐만 아니라 윤리적이고 user-centric standards에 부합하도록 만든다.

■ data labeling을 위한 구체적인 guidelines은 다음과 같다.

- (1) Truthfulness: responses은 정확한 사실에 기반해야 하며, 제공된 context와 instructions을 충실히 반영해야 한다. 그리고 모델은 거짓이나 주어진 데이터로 뒷받침되지 않는 정보를 생성하는 것을 피해야 한다.

- (2) Helpfulness: responses은 유용해야 하며, 사용자의 질문을 효과적으로 해결하는 동시에 긍정적이고, 매력적이며, 교육적이고, 관련성 있는 콘텐츠를 제공해야 한다. 사용자의 instructions을 정확히 따라 사용자에게 가치를 제공해야 한다.

- (3) Conciseness: responses은 간결하고 요점을 짚어야 하며, 불필요한 verbosity를 지양해야 한다. 사용자에게 과도하게 디테일한 정보를 주지 않으면서도 명확하고 효율적으로 정보를 전달하는 것이 목표이다.

- (4) Relevance: response의 모든 부분은 사용자의 query, dialogue history, 그리고 assistant의 context와 직접적으로 관련되어야 한다. 모델은 사용자의 필요와 기대에 부합하도록 output을 조정해야 한다.

- (5) Harmlessness: 불법적, 비도덕적 또는 해로운 행동으로 이어질 수 있는 콘텐츠를 피하여 사용자의 안전을 최우선시해야 한다. 항상 윤리적인 행동과 책임감 있는 의사소통을 수행해야 한다.

- (6) Debiasing: 성별, 인종, 국적, 정치에 대한 내용을 얘기하되, 이에 국한되지 않는 편향이 없는 response를 생성해야 한다. 널리 받아들여지는 도덕적 및 윤리적 기준을 준수하며 모든 주제를 평등하고 공정하게 다루어야 한다.

■ reward model을 학습에 사용된 queries은 두 가지 다른 datasets에서 추출되었다: publicly available open-source data와 높은 복잡성을 가진 proprietary query set

■ responses은 다양한 training stages(SFT, DPO, RL)에서 서로 다른 방법을 사용하여 fine-tuned된 Qwen models의 checkpoints에서 생성된다. 그리고 다양성을 위해 서로 다른 temperature settings에서 responses을 샘플링하였다.

■ preference pairs은 human 및 automated labeling processes에서 생성되며, DPO용 training data도 dataset에 포함시켰다.

■ online RL에서는 Group Relative Policy Optimization (GPRO)을 사용한다.

■ reward model training에 사용된 query set은 RL training phase에서 사용된 것과 동일하다.

■ training 중 queries 이 처리되는 순서는 reward model이 평가한 response scores의 분산에 의해 결정된다. 구체적으로, 더 효과적인 학습을 위해 response scores의 분산이 높은 queries이 우선순위를 갖는다.

4.4 Long Context Fine-tuning

■ Qwen 2.5-Turbo의 context length를 더욱 확장하기 위해, post-training 중에 더 긴 SFT examples을 추가하여 long queries에서 human preference에 더 잘 align되도록 하였다.

■ SFT phase에서는 two-stage approach를 사용한다.

■ 첫 번째 stage에선 모델이 최대 32,768 tokens을 포함하는 짧은 instructions만을 사용하여 fine-tuned된다. 그리고 두 번째 stage에서 short instructions (up to 32,768 tokens)과 long instructions (up to 262,144 tokens)을 모두 학습시킨다.

■ 이러한 하이브리드 접근 방식은 통해 short context tasks에서도 성능을 유지하면서, long context tasks에서 모델의 instruction-following ability를 효과적으로 향상시킨다.

■ RL stage에서는 다른 Qwen 2.5 models에 사용한 training strategy을 사용하며, 오직 short instructions에만 집중한다.

■ 이러한 설계에 대한 이유는: (1) long context로 RL training을 수행하는 것은 계산 비용이 많이 든다. (2) 긴 글을 제대로 평가할 reward model을 만들기 어렵다.

■ 논문에 따르면, 이렇게 short instructions에 대해서만 RL training을 진행해도 long context tasks로 잘 전이되어 human preferences을 크게 향상시켰다고 한다.

5. Evaluation

■ test data leakage를 방지하기 위해 pre-training 및 pos-training datasets을 구축할 때 n-gram matching을 사용하였다.

■ Qwen 2에서 사용된 기준에 따라, training sequence \( s_t \)와 test sequence \( s_e \)가 다음 두 조건을 모두 만족하면 training data에서 제거하였다.
- (1) \( |\text{LCS}(s_t, s_e)| \geq 13 \)으로 토큰화된 \( s_t \)와 \( s_e \) 간 최소 13개의 연속된 토큰이 일치하는지 확인
- (2) \( |\text{LCS}(s_t, s_e)| \geq 0.6 times \text{min}(|s_t|, |s_e|) \)로 일치하는 부분이 두 시퀀스 중 더 짧은 시퀀스 길이의 60% 이상인지 확인

■ Qwen 2.5는 모든 크기에서 경쟁력 있는 성능을 보였으며, 다국어 능력에서도 일관되게 우수한 성능을 기록했다.

5.1 Instruction-tuned Model

5.1.1 Reward Model

■ Table 15는 reward models을 평가한 결과이며, Qwen 2.5-RM-72B는 PPE와 저자들이 자체 수집한 Human-Preference-Chinese 평가에서 가장 좋은 성능을 보이며, RMB에서는 두 번째 순위를 차지하고, Reward Bench에서는 Nemotron-4-340B-Reward와 비슷한 성능 수준을 보이지만 Llama-3.1-Nemotron-70B-Reward보다는 약간 뒤처진다.

■ reward model에 대한 평가 방법이 부족하기 때문에 보통 Reward Bench를 사용하여 평가를 진행하지만, 이는 Goodhart's Law를 유발하여 다른 벤치마크에서의 성능 저하를 초래한다.

■ 저자들은 반복적인 실험을 진행한 결과, 현재의 reward model evaluation benchmarks은 RL model의 성능을 정확하게 반영하지 못한다고 주장한다. 즉, reward model이 Table 15의 RM benchmarks에서 점수가 높다고 해서 반드시 RL model의 우수한 성능으로 이어지지 않는다는 것이다.

5.1.2 Long Context Capabilities

■ Qwen 2.5 models의 long context capabilities을 RULER, LV-Eval, Longbench-Chat에서 평가한다.

■ length extrapolation techniques(즉, DCA+YARN)을 장착한 Qwen 2.5 models은 세 가지 데이터셋에서 강력한 long context processing capabilities을 보여준다.

■ 이 중에서 Qwen 2.5-72B-Instruct는 모든 context lengths에서 GPT-4o-mini와 GPT-4와 같은 독점 모델들도 크게 능가하는 가장 강력한 성능을 보여준다.

■ 그리고 Fig 2에서 볼 수 있듯이, Qwen 2.5-Turbo는 1M-token passkey retrieval task에서 100%의 정확도를 달성하며, ultra-long contexts에서 세부 정보를 포착하는 탁월한 능력을 보여준다.

'자연어처리 > LM' 카테고리의 다른 글

Phi-4 Technical Report (1)	2026.02.06
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism (0)	2026.01.30
Gemma 2: Improving Open Language Models at a Practical Size (0)	2026.01.11
Qwen2 Technical Report (0)	2026.01.09
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases (0)	2025.12.31

Hyun_Jae

Qwen2.5 Technical Report

1. Introduction

Better in Data

Better in Use

2. Architecture & Tokenizer

3. Pre-training

3.1 Pre-training Data

Better data filtering

Better math and code data

Better synthetic data

Better data mixture

3.2 Scaling Law for Hyper-parameters

3.3 Long-context Pre-training

4. Post-training

Expanded Supervised Fine-tuning Data Coverage

Two-stage Reinforcement Learning

4.1 Supervised Fine-tuning

Long-sequence Generation

Mathematics

Coding

Instruction-following

Structured Data Understanding

Logical Reasoning

Cross-Lingual Transfer

Robust System Instruction

Response Filtering

4.2 Offline Reinforcement Learning

4.3 Online Reinforcement Learning

4.4 Long Context Fine-tuning

5. Evaluation

5.1 Instruction-tuned Model

5.1.1 Reward Model

5.1.2 Long Context Capabilities

'자연어처리 > LM' 카테고리의 다른 글

티스토리툴바

Qwen2.5 Technical Report

1. Introduction

Better in Data

Better in Use

2. Architecture & Tokenizer

3. Pre-training

3.1 Pre-training Data

Better data filtering

Better math and code data

Better synthetic data

Better data mixture

3.2 Scaling Law for Hyper-parameters

3.3 Long-context Pre-training

4. Post-training

Expanded Supervised Fine-tuning Data Coverage

Two-stage Reinforcement Learning

4.1 Supervised Fine-tuning

Long-sequence Generation

Mathematics

Coding

Instruction-following

Structured Data Understanding

Logical Reasoning

Cross-Lingual Transfer

Robust System Instruction

Response Filtering

4.2 Offline Reinforcement Learning

4.3 Online Reinforcement Learning

4.4 Long Context Fine-tuning

5. Evaluation

5.1 Instruction-tuned Model

5.1.1 Reward Model

5.1.2 Long Context Capabilities

'자연어처리 > LM' 카테고리의 다른 글

'자연어처리/LM' Related Articles

티스토리툴바