[2407.10671] Qwen2 Technical Report
Qwen2 Technical Report
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 bil
arxiv.org
1. Introduction
■ Qwen2는 Transformer architecture를 기반으로 next-token prediction 방식으로 학습된 LLM 시리즈이다.
■ Qwen2 시리즈는 human preferences에 맞춰 aligned되어 있지 않은 pre-trained 상태의 base language models과 chat 및 agent에 적합한 single-turn and multi-turn instruction-following datasets로 fine-tuned된 instruction-tuned models로 구성되어 있다.
■ 모든 models은 다양한 도메인과 언어를 포괄하는 7T tokens 이상의 high-quality dataset으로 pre-trained되었다.
■ 이전 버전의 Qwen과 비교했을 때, Qwen2는 더 넓은 범위의 언어 데이터를 포함하며, code 및 mathematics content의 양과 질을 향상시켰다. 이러한 데이터의 enrichment는 LLM의 reasoning abilities을 향상시키는 것으로 가정된다.
■ post-training의 경우 instructions을 잘 따를 수 있도록, 모든 모델은 SFT 및 DOP를 거쳐 human feedback을 통한 학습으로 human preferences에 맞춰 align되었다.
2. TOKENIZER & MODEL
2.1 TOKENIZER
■ Qwen과 동일하게, byte-level의 byte pair encoding에 기반한 토크나이저를 사용한다. 이는 높은 인코딩 효율성(즉, better compression rate)을 가지므로 다국어 처리 능력에 도움이 된다.
■ 모든 크기의 models은 151,643개의 (regular) tokens과 3개의 control tokens로 구성된 vocabulary를 사용한다. (Qwen 1)
- 분산 학습을 고려하여 임베딩의 실제 크기는 vocabulary size보다 더 크다.
2.2 MODEL ARCHITECTURE
■ Qwen2 시리즈는 causal mask가 적용되는 self-attention을 사용하는 Transformer architecture(즉, Transformer decoder-only)에 기반한 LLMs로 구성된다.
■ 구체적으로 이 시리즈는 4개의 dense language models과 하나의 MoE model을 포함하고 있다.
2.2.1 QWEN2 DENSE MODEL
■ Qwen2 dense models의 아키텍처는 causal attention mechanism과 FFN을 갖춘 multiple transformer layers로 구성된다. 이전 모델인 Qwen1과의 주요 차이점은 다음과 같다.
Grouped Query Attention
■ MHA 대신 GQA를 사용한다. GQA를 사용하여 inference time에서 KV cache 사용량을 최적화하여 throughput을 향상시키고자 한 것이다.
Dual Chunk Attention with YARN
■ Qwen2의 context window를 확장기 위해, long sequence를 chunk로 분할하는 "Dual Chunk Attention"을 사용한다.
- 만약, input이 하나의 chunk 냉네서 처리될 수 있는 정도의 길이를 가진다면, DCA는 original attention과 동일하게 작동한다.
- 그렇지 않은 경우(즉, input이 chunk보다 긴 경우), DCA는 tokens의 상대적 위치 정보를 보존하는 알고리즘을 사용하고, chunk 내부(chunk 내 tokens) 및 chunk 간 tokens 사이의 attention을 계산한다.
■ 또한, 더 나은 length extrapolation을 위해 attention weights을 rescale하는 YARN을 사용한다.
■ activation function으로 SwiGLU, positional encoding으로 RoPE, 그리고 attention을 위한 QKV bias(RoPE + Bias = better length extrapolation)를 사용한다.
■ 학습 안정성을 위해 RMSNorm으로 pre-normalization을 하는 Qwen1의 방식을 따른다.
2.2.2 MODEL CONFIGURATION

■ Qwen2 models의 하이퍼파라미터와 pre-trained tokens의 수는 Table 1에서 볼 수 있다. 여기서 MoE model인 Qwen2-57B-A14B model은 Qwen2-7B model로부터 upscaled되었다.
■ 주목할 점은 이전 버전 대비 GQA의 KV heads의 수를 더 줄였다는 것이다. 이는 throughput 향상, memory usage 감소로 이어지기 때문에, inference에서 long context 처리에 매우 큰 장점이 된다.
3. PRE-TRAINING
3.1 PRE-TRAINING DATA
■ Qwen2 models의 pre-training에는 new, large-scale, high-quality multilingual dataset이 사용되었다. 이 dataset은 이전 버전인 Qwen1 및 Qwen1.5에 사용된 corpora보다 더 개선된 것으로, 다음과 같은 몇 가지 주요 영역에서 pre-training data의 scale, quality, 그리고 diversity를 향상시켰다.
Quality Enhancement
■ quality를 향상시키기 위해, 휴리스틱한 필터링과 모델 기반 필터링(low-quality data를 걸러내기 위해 Qwen 모델 자체를 사용)을 사용했다.
■ 또한, high-quality의 pretraining synthetic data를 생성하는 데에도 Qwen 모델들을 활용했다.
Data Expansion
■ Qwen1.5와 비교했을 때, 훨씬 더 방대한 양의 high-quality code, mathematics, and multilingual data를 수집하여 각 영역에서 모델의 capabilities을 강화시켰다.
■ 구축한 dataset에는 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 약 30개의 언어가 포함되어 있다.
Distribution Improvement
■ 모델이 인간의 학습 분포를 모방하도록 하기 위해, scaled-down된 models에서 실험을 수행하여 다양한 소스와 도메인에서 온 데이터들에 대해 최적의 mixing을 찾는 시도를 하였다.
■ 이러한 개선 사항들을 바탕으로, pre-training data는 3T tokens(Qwen1.5)에서 7T tokens으로 확장되었다.
■ 데이터 품질 기준을 더 완화해서 12T tokens의 dataset을 만들려고 했으나, 12T token dataset으로 학습된 모델이 7T token model에 비해 유의미한 성능 향상을 보이지 않았다고 한다.
■ 이는 단순히 데이터의 양을 늘리는 것이 모델의 pre-training에는 반드시 이득이 되는 것이 아니라는 것을 시사한다.
■ training 비용을 고려하여, 더 큰 모델들을 학습하는 데에는 더 고품질인 7T tokens의 dataset을 사용하였다. (Table 1)
■ Qwen2-0.5B는 12T tokens의 dataset을 사용하여 pre-trained되었으며, Qwen2-0.5B를 제외한 모든 Qwen2 dense models은 이 7T tokens의 dataset으로 pre-trained되었다.
■ 이전 버전의 Qwen 모델들과 마찬가지로, high-quality multi-task instruction data를 pre-training 과정에 통합해서 사용했을 때, in-context learning 및 instruction-following abilities이 향상되었다고 한다.
3.2 LONG-CONTEXT TRAINING
■ Qwen2의 long-context capability를 강화하기 위해, pre-training phase의 마지막에서 high-quality의 lengthy data 양을 대폭 늘려 context length를 4,096 tokens에서 32,768 tokens로 확장하여 진행했다.
- training cost를 고려하여, 먼저 4K tokens로 학습을 진행해서 모델이 충분히 수렴된 후 long context를 도입한 것으로 보인다.
■ 그리고 long-context scenarios에서의 성능을 최적화하기 위해 RoPE의 base frequency를 10,000에서 1,000,000으로 늘려 long sequence에서도 위치 정보를 잘 인코딩할 수 있도록 하였다.
■ model의 length extrapolation 잠재력을 활용하기 위해, YARN mechanism과 DCA mechanism을 채택했으며, 그 결과 preliminary experiments에서 약간의 성능(PPL) 저하가 발생하지만, 모델이 high performance를 유지하면서 최대 131,072 tokens의 sequences을 처리할 수 있게 되었다고 한다.
4. POST-TRAINING
■ pre-training 이후, Qwen2를 post-training시킨다. post-training을 통해 coding, mathematics, logical reasoning, instruction following, multilingual comprehension을 포함한 광범위한 도메인에서 모델의 능력을 향상시키고자 한 것이다.
■ 또한, 모델이 생성하는 결과물이 helpful, honest, harmless하도록 만들 수 있다.
■ 광범위한 human supervision에 의존하던 기존 방법과 달리, 저자들은 최소한의 human annotation으로 확장 가능한 alignment에 초점을 두었다.
■ 구체적으로, SFT와 RLHF를 위한 high-quality demonstration 및 preference data를 확보하여, 이를 통해 human labeling의 필요성을 최소화하면서 data의 quality와 reliability를 극대화시키는 것을 목표로 한다.
4.1 POST-TRAINING DATA
■ post-training data는 두 가지 유형으로 구성된다: demonstration data \( \mathcal{D} = \{(x_i, y_i)\} \), preference data \( \mathcal{P} = \{(x_i, y^+_i, y^-_i)\} \)
■ 여기서 \( x_i \)는 instruction을, \( y_i \)는 만족스러운 response이다.
■ 또한 \( y^+_i \)와 \( y^-_i \)는 \( x_i \)에 대한 두 가지 response로, \( y^+_i \)가 \( y^-_i \)보다는 더 선호되는 선택지이다.
- 즉, 동일한 instruction \( x_i \)에 대한 두 응답: \( y^+_i \)는 선호 응답, \( y^-_i \)는 비선호 응답
■ \( \mathcal{D} \)는 SFT에 사용되고, \( \mathcal{P} \)는 RLHF에 사용된다.
■ training data는 two-step process를 거쳐 구축된다: collaborative data annotation, automated data synthesis
■ 먼저 large-scale instruction corpora에서 data ontology를 추출하여, 광범위하고 다양한 high-quality instructions의 set을 확보한다.
■ 이렇게 수집한 instructions은 더 높은 복잡성을 포함하도록 systematical하게 강화시킨다.
■ human annotation을 통해, target response \( y_i \)와 그에 대한 positive and negative counterparts \( (x_i, y^+_i, y^-_i) \)를 확보한다.
■ 그 후, code, mathematics, instruction-following, creation, role-playing, safety 도메인 전반에 걸쳐 상당한 양의 artificially annotated data를 synthesize하기 위해 다양한 automated alignment strategies을 사용한다.
4.4.1 COLLABORATIVE DATA ANNOTATION
Automatic Ontology Extraction
■ large-scale instruction dataset에서 기저에 깔린 ontology를 추출하기 위해, open-set fine-grained tagger인 InsTag를 사용한다. 이후 InsTag로 추출된 ontology의 정확성을 보장하기 위해 직접 수동으로 refinement했다.
Instruction Selection
■ tags이 annotated된 각 instruction에 대해 tag의 다양성, 의미론적 풍부함, 복잡성, 그리고 intent completeness를 기준으로 평가한다. 이러한 기준에 근거하여, 고품질의 instructions을 선별했다.
Instruction Evolution
■ instruction dataset의 다양성을 확보하기 위해 self-evolution strategy를 사용했다. Qwen models에게 기존의 instructions에 제약 조건이나 요구 사항을 추가하도록 유도함으로써, instructions의 복잡성을 높이고 다양한 난이도의 데이터를 확보했다.
Human Annotation
■ 다양한 generation strategies과 서로 다른 크기의 Qwen models을 사용하여, 하나의 instruction에 여러 개의 responses을 수집했다.
■ annotators은 이 responses에 대한 순위를 매긴다. 이를 통해 수립한 기준들을 충족하는 best response를 확보한다.
4.4.2 AUTOMATED DATA SYNTHESIS
■ annotations을 달기 어려운 tasks(예: 전문성을 요구하거나, 경험이 필요한 tasks)을 사람의 개입 없이도 고품질의 데이터를 자동으로 만들 수 있도록 다양한 automated alignment strategies을 사용한다.
Rejection Sampling
■ 명확한 최종 정답이 있는 수학이나 또는 유사한 tasks의 경우, solutions의 품질을 향상시키기 위해 rejection sampling을 사용한다.
■ LLM에게 각 instruction에 대해 여러 개의 responses, 즉 reasoning paths을 생성하게 하였다. 여기서 정확한 결론에 도달하고 모델이 합리적이라 판단된 paths은 demonstration data로 사용된다.
■ preference data는 올바른 paths과 틀린 paths을 대조함으로써 생성된다.
Execution Feedback
■ coding tasks의 경우 LLM을 사용하여 solutions(즉, 코드들)과 그에 연관된 test cases을 생성한다.
■ 이렇게 생성된 solutions이 유효한지 확인하기 위해 컴파일하고, test cases을 실행해 봄으로써 평가한다. 이를 통해 demonstration 및 preference data를 수집한다.
■ 이 방법은 instruction following 능력을 평가하는 데에도 적용할 수 있다.
- 예를 들어 길이 제한과 같은 제약 조건이 있는 instruction에 대해, LLM에게 response가 해당 instruction과 align하는지 확인하는 Python verification function(예: if len(response) <= 300: return True하는 함수)을 만들도록 하여 생성된 response가 제약 조건을 만족하는지 자동으로 검사할 수 있다.
Data Repurposing
■ literary writing tasks에서 숙련된 responses을 생성하는 것은 literary writing에 전문성이 없는 human annotators에게는 어려운 일이다.
■ 이 문제를 해결하기 위해, public domain에 있는 high-quality 문학 작품들을 수집하고, LLM을 사용하여 다양한 수준의 instructions을 만들었다.
■ 이 instructions은 원본 작품과 짝을 이루어 demonstration data로 사용할 수 있다.
- 예를 들어 roleplay data를 구축하기 위해, Wikipedia같은 knowledge repositories에서 캐릭터에 대한 상세한 프로필을 가져와서 LLM에게 그에 대응되는 instructions과 responses을 생성하도록 한다.
Constitutional Feedback
■ Constitutional AI는 사전 정의된 원칙들의 set에 기반하여 LLM이 responses을 생성하도록 guiding하는 과정을 말한다.
■ safety 및 가치관과 같은 가이드라인을 준수하기 위해, constitution dataset이 만들어졌다. 이 dataset은 따라야 할 원칙과 피해야 할 원칙이 기술되어 있다.
■ LLM이 이러한 가이드라인에 aligned되거나 혹은 deviated된 responses을 생성하도록 사용되며, demonstration 및 preference data의 reference로 활용된다.
4.2 SUPERVISED FINE-TUNING
■ instruction following, coding, mathematics, logical reasoning, role-playing, multilingualism, safety를 포괄하는 50만 개 이상의 examples로 구성된 instruction dataset을 구축했으며, 32,768 tokens의 sequence length로 2 epochs 동안 fine-tuned되었다.
■ 학습률은 \( 7 \times 10^{-6} \)에서 \( 7 \times 10^{-7} \)로 점진적으로 감소시켰으며, overfitting을 방지하기 위해 weight decay 0.1, gradient clipping 1.0을 사용했다.
4.3 REINFORCEMENT LEARNING FROM HUMAN FEEDBACK
■ RLHF training regime은 two sequential stages로 구성된다: offline and online training
■ offline training에서는 preference dataset \( \mathcal{P} \)를 사용하여 DPO를 통해 \( y^+_i \)와 \( y^-_i \) 간의 likelihood 차이를 최대화한다. 즉, 더 선호되는 응답은 더 많이, 덜 선호되는 응답은 덜 생성하도록 학습시킨다.
■ online training에서는 reward models의 feedback을 활용하여 모델 성능을 반복적으로 개선시킨다.
■ 구체적으로, current policy model로부터 여러 개의 responses을 샘플링하고, reward model이 가장 선호하는 responses과 가장 덜 선호하는 responses을 선택하여 preference pairs을 만든다. 이 preference pairs은 DPO에 사용된다.
■ 또한, Online Merging Optimizer를 사용하여 alignment tax, 즉 model generation을 human preferences에 맞추는 과정에서 발생하는 성능 저하 문제를 완화한다.
5. EVALUATION
■ base models은 기본적으로 few-shot prompting을 통해 도출된 responses을 사용하여 benchmark datasets에서, instruction-tuned models은 benchmark evaluations 외에도 human preference assessments을 사용하여 평가한다.
5.1 BASE LANGUAGE MODELS
■모델의 knowledge 및 basic capabilities에 대한 benchmark datasets에서 모델을 평가하고, multilingual benchmark datasets을 통해 언어 능력을 평가한다.
5.1.1 CORE CAPABILITIES
Benchmarks and Evaluation Protocol
■ base LM의 core capabilities을 평가하는 일반적인 관행은 few-shot 또는 zero-shot prompting을 사용하여 benchmark dataset에서 평가를 하는 것이다.
■ 평가는 주로 natural language understanding, general question answering, coding, mathematics, scientific knowledge, reasoning 등에서의 모델 성능에 초점을 둔다.

Qwen2-72B
■ Qwen2-72B는 MMLU와 MMLU-Pro 모두에서 general knowledge understanding 측면에서 Llama-3-70B를 능가하며, 각각 4.7점 및 2.8점의 정확도 향상을 달성했다.
■ scientific assessments에서 Qwen2-72B는 GPQA와 Theorem QA에서 각각 1.6점 및 9.8점의 향상을 보이며 Llama-3-70B보다 더 우수한 성능을 보인다.
■ coding 및 mathematics-related data를 enrichment한 덕분에, Qwen2-72B는 HumanEval과 MBPP에서, 그리고 GSM8K 및 MATH에서 Qwen1.5-72B 대비 상당한 성능 우위를 보인다.
■ BBH, Winogrande, ARC-C 결과를 통해 Llama-3-70B와 동등한 수준의 reasoning capabilities을 가지고 있음을 볼 수 있는데, 이는 improved coding 및 mathematical data에 기인한 결과이다.
■ Chinese language understanding에서도 Mixtral-8x22B와 Llama-3-70B를 크게 앞선다.
Qwen2-7B
■ 7B 정도의 모델은 GPU 16GB에서 16-bit floating points로 실행할 수 있기 때문에 널리 사용되는 size이다.
■ 저자들은 7B 모델을 Chatbot Arena에서 탁월한 성능을 보여준 Llama-3-8B를 포함한 다른 leading 7B models과 비교하였다.
■ Table 4에서 Qwen2-7B는 대부분의 dataset에서 다른 모델들에 비해 우수한 성능을 보여주며, 특히 coding, mathematics, 그리고 Chinese language tasks에서 더 뛰어난 성능을 보인다.
■ 이는 Qwen2-7B가 광범위한 language 및 logic-based tasks에 잘 최적화되었음을 나타내는 결과이다.
Qwen2-1.5B & Qwen2-0.5B

■ language understanding에서 Qwen2-1.5B는 고품질의 데이터로 학습된 모델인 Phi-2를 능가한다.
■ coding tasks의 경우 Qwen2-0.5B는 Gemma-2B 및 Qwen1.5-1.8B와 비슷한 성능을 보이며, Qwen2-1.5B는 Phi-2를 제외하고 이 baselines을 능가한다. Qwen2-0.5B 및 1.5B 모두 mathematics에서 우수한 성능을 보인다.
■ general reasoning 측면에서는 Phi-2가 전반적으로 다른 모델들을 앞서는데, 이는 reasoning capabilities에 있어 textbook-like의 data의 중요성을 어느 정도 보여주는 결과이다.
■ TruthfulQA에서는 Qwen2-1.5B가 가장 좋은 성능을 보여, small model이라도 반드시 hallucination 문제를 겪는 것은 아님을 보여준다.
5.2 INSTRUCTION-TUNED MODEL
■ instruction-tuned models 평가의 경우 foundational skills 및 human preferences에 대한 평가는 open datasets 및 benchmarks을 사용하였다.
■ 그리고 long context 처리 능력을 평가하는 데 중점을 두었으며, safety 평가는 multilingual safety assessments과 red teaming exercises이 포함된다.
5.2.1 OPEN BENCHMARK EVALUATION
■ instruction-tuned models의 quality를 종합적으로 평가하기 위해, automatic 및 human evaluation을 취합하여 model capabilities과 human preference를 평가한다.
■ basic capabilities을 평가하기 위해, pre-trained model 평가에서 사용했던 것과 비슷한 datasets을 사용한다.
■ 그리고 MT-Bench, Arena-Hard, AlignBench, MixEval, 그리고 instruction following을 위한 IFEval을 포함한 benchmarks을 통해 human preference alignment 및 instruction following 성능을 평가한다.
Qwen2-72B-Instruct

■ Table 6에서 강력한 base language model이 instruction-tuned model의 downstream performance를 향상시키는 데 도움이 된다는 점을 확인할 수 있다.
■ 구체적으로, Qwen2-72B-Instruct는 GPQA와 MBPP를 제외하고 language understanding, coding, mathematics과 같은 영역에서 비교 모델들을 압도하는 성능을 보인다.
■ 그리고 human preference alignment 및 instruction following에서도 더 뛰어난 성능을 보인다.
■ 저자들은 이러한 결과가 high-quality의 pre-trained model과 post-training을 위한 data 및 training techniques에서 기인한 것이라고 추측한다.
Qwen2-7B-Instruct

■ Table 8은 7B~9B 범위 내에서 비교한 결과이다.
■ 이전 모델인 Qwen1.5-7B-Chat과 비교하여 평가 전반에 걸쳐 상당한 발전을 보여주며, 특히 coding과 mathematics-related tasks에서 더 높은 점수를 달성했다.
■ 그리고 당시 SOTA 모델이었던 Llama-3-8B-Instruct와 비교할 때, Qwen2-7B-Instruct는 경쟁력 있는 성능을 보여준다. 특히 coding에서 우수한 성능을 보여준다. 그러나 instruction-following ability에서는 Llama-3에 비해 크게 뒤처진다.
Qwen2-1.5B-Instruct & Qwen2-0.5B-Instruct

■ large model을 위해 설계된 특정 dataset들의 복잡도가 small models의 역량을 초과한다는 점을 감안하여, 저자들은 subset에 focus를 두었다.
■ Qwen2 models은 core capabilities 그리고 instruction-following tasks에서 모두 이전 버전의 모델들보다 뚜렷한 성능 향상을 보여준다. 이러한 성과는 주로 pre-training data의 scaling에 기인한다.
- 0.5B 및 1.5B는 12T tokens의 dataset을 사용
■ 즉, 이는 data scaling이 10B 미만 모델에서도 모델 성능을 향상시키는 효과적인 전략임을 보여주는 결과이다.
5.2.2 IN-HOUSE AUTOMATIC EVALUATION
■ 평가를 위한 open benchmark datasets만으로는 LLM의 역량을 완전히 파악하기에는 부족하다.
■ 그래서 저자들은 knowledge understanding, text generation, coding 등 다양한 capabilities을 평가하는 자체 dataset을 구축하여 평가를 진행했다. 평가는 중국어와 영어로 수행되었다.
Chinese Evaluation

■ Qwen2-1.5B-Instruct는 더 적은 크기에도 불구하고, 거의 모든 평가에서 Qwen1.5-1.8B-Chat을 앞선다.
■ 7B 모델 간의 비교에서는 Qwen2가 우위를 보인다. 특히, Qwen2-72B는 Qwen1.5-110B-Chat보다 우수한 성능을 보인다.
English Evaluation

■ 마찬가지로 Qwen2의 small models은 Qwen1.5 models을 상당히 앞선다.
■ 그러나 Llama-3-70B와 비교했을 때, Qwen2-72B-Instruct는 특히 comprehension과 coding에서 근소한 차이로 성능이 뒤처졌다.
■ Llama-3 결과에 대해 저자들은 pre-training에 사용된 English tokens의 총량 차이와 post-training data의 양 및 다양성 모두가 English 성능에서의 격차를 초래한 것으로 추정한다.
5.2.3 LONG CONTEXT CAPABILITIES
■ long-context capabilities을 평가하기 위해 세 가지 방법을 사용한다: the Needle in a Haystack, NeedleBench, LV-Eval
Needle in a Haystack

■ 이 실험은 방대한 텍스트 내에서 facts을 정확히 찾아내는 모델의 능력을 평가한다. 8K, 16K, ..., 128K tokens 길이의 텍스트에서 facts은 다양한 깊이에 배치되어 있다.
■ 32K를 초과하는 contexts에 대해서는 YARN을 적용했다.
■ Fig 1에 나타난 바와 같이, Qwen2-72B-Instruct는 128K에서도 정보 검색에 우수한 정확도를 보여준다. 같은 시리즈의 다른 모델들도 다양한 context lengths에 걸쳐 뛰어난 성능을 보여준다.
NeedleBench

■ NIAH(Needle in a Haystack)의 challenging 버전이다. 여러 개의 facts(2~5개)을 동시에 찾을 것과 multi-hop reasoning을 요구한다.
■ Table 12는 YARN과 DCA의 시너지가 Qwen2의 long-context 처리 능력을 크게 향상시킨다는 것을 보여준다.
LV-Eval
■ LV-Eval은 여러 개의 evidence를 이해해야 하는 11개의 다양한 QA datasets로 구성되어 있다.
■ 마찬가지로 YARN과 DCA를 통해, LV-Eval에서 Qwen2의 long-context 처리 능력을 크게 향상시킨다는 것을 볼 수 있다.
5.2.4 MULTILINGUAL EVALUATION

■ human evaluation을 통해 multilingual capabilities 평가한다.
■ 구체적으로, LLM의 다양한 capabilities를 평가하기 위해 여러 test case를 설계했으며, 각 언어별로 해당 언어를 전공한 professional annotator 한 명이 각 test case에 대한 model response를 1점에서 5점 사이로 평가하도록 했다.
■ Table 13을 보면, 평균적으로 Qwen2-72B-Instruct가 GPT-3.5-Turbo를 상당히 앞서며, GPT-4-Turbo와 경쟁력이 있고, Claude-3-Opus에는 약간 뒤처짐을 확인할 수 있다.
5.2.5 SAFETY & RESPONSIBILITY

■ 다양한 언어로 LLM을 테스트하는 multilingual safety evaluation을 진행한다. 구체적으로 fraud, pornography, privacy와 관련된 주에에서 모델의 safety performance를 평가한다.
■ 저자들은 jail-breaking을 유도하기 쉬운 prompts을 수집하여, 모델들이 유해한 requests을 거부함으로써 safe responses을 제공할 수 있는지 테스트했다.
■ Table 14에서 모델이 생성한 harmful responses 비율을 볼 수 있다. 수치가 낮을수록 좋은 것이다.
■ Qwen2-72B-Instruct가 독점 모델인 GPT-4보다 더 나은 성능을 보이며, Mixtral-8x22B-Instruct를 상당히 능가한 것을 볼 수 있다.
5.2.6 CONTAMINATION ANALYSIS

■ evaluation datasets에 대해 training corpora를 decontaminate하려고 시도한 방법을 소개하고, 그 후 benchmark scores이 남아있는 contamination에 어느 정도 영향을 받는지 추정한다.
■ pre-training 및 post-training datasets 구축 과정에서 n-gram matching을 사용하여 contaminated data를 배제하는 방식을 사용했지만, 이 방식이 높은 false negative rate를 초래할 수 있음을 발견하였다.
■ 특히 mathematical 및 coding data에서는 흔히 사용되는 표현들이 존재하기 때문이다.
■ 그래서 저자들은 longest common subsequence (LCS)에 기반한 또 다른 제약 조건을 적용했다.
■ 구체적으로, 먼저 test sequences과 training sequences 모두에서 모든 symbols과 punctuation을 제거하고 토큰화를 수행한다.
■ training sequence \( \mathbf{s}_t \)에 대해, 다음 조건을 만족하는 test sequence \( \mathbf{s}_e \)가 존재할 경우 해당 training sequence를 제거한다.

■ data leakage가 test performance에 미치는 잠재적 영향을 평가하기 위해, OpenAI의 방식을 따라 non-contaminated test set을 구축하고, decontamination 이후 유의미한 성능 저하가 있는지 확인했다.
■ 구체적으로, pre-training 또는 post-training data와 13-gram overlap이 있는 모든 샘플을 (LCS constraint 없이) 배제하여 non-contaminated test set을 구성한 뒤, 해당 test set에서 metric을 계산했다.
■ Table 15에서 볼 수 있듯이, 일부 datasets은 높은 contamination을 보이지만, 확인된 contaminated samples은 대부분이 주로 mathematics과 coding datasets에서 비롯된 false positives였다.