Gemma 2: Improving Open Language Models at a Practical Size

[2408.00118] Gemma 2: Improving Open Language Models at a Practical Size

In this work, we introduce Gemma 2, a new addition to the Gemma family of lightweight, state-of-the-art open models, ranging in scale from 2 billion to 27 billion parameters. In this new version, we apply several known technical modifications to the Transf

arxiv.org

1. Introduction

■ LLM은 language understanding, generation, reasoning에서 강력한 성능을 입증했으며, 이러한 배경에는 scaling이 있다. LLM의 emergent capabilities은 오직 scale이 커졌을 때만 나타났다.

■ small-scale models 또한 급격한 성능 향상을 보였으나, 이러한 향상은 주로 training length를 늘린 데서 비롯되었다. 이 접근 방식은 dataset 크기에 따라 로그적으로만 이루어지며, 아주 작은 성능 향상(1~2%)을 위해 최대 15T tokens을 필요(예: Llama 3)로 한다.

■ 이러한 지속적인 개선은 small models이 여전히 충분히 학습되지 않았음(under-trained)을 보여주는 증거이기도 하다.

■ 현재 small models의 성능 한계는 학습 데이터 부족이나 모델 크기가 아니라 학습 방법의 비효율성에서 비롯된 것일 수도 있다.

■ 그래서 저자들은 단순히 training length를 늘리지 않고 small model의 성능을 향상시킬 대안을 찾고자 하였다.

■ 이에 대한 한 가지 솔루션은 next token prediction task 대신, 더 풍부한 signal을 주는 objective로 대체함으로써 각 training step에서 network가 받아들이는 정보의 질을 높이는 것이다.

■ 저자들은 이를 위한 여러 방법 중 knowledge distillation에 중점을 두었다.

■ 구체적으로, 극도로 많은 양의 토큰(chinchilla scaling law를 넘어서는)으로 knowledge distillation을 사용하여 training을 진행한다.

■ LLM을 teacher로 사용하여 2B 및 9 models을 학습시켰으며, 이때 이론적인 compute-optimal(chinchilla)보다 50배 이상 많은 tokens을 사용하였다.
- 즉, 파라미터당 약 20 tokens을 넘어서는 비율로 학습을 시킨 것이다.
- 2B 모델이라면 약 40B tokens이 이론적 최적치이지만, Gemma 2에서는 이를 넘어서는 2T tokens(이론적인 수치 40B의 50배)로 training을 진행한 것이다.

■ 그리고 Transformer 아키텍처에 대해서도, Longformer의 global 및 local attention layers의 interleaving과 GQA mechanism을 활용한다.

■ 그 결과 Gemma 2는, 비슷한 scale의 open models 대비 성능을 크게 앞서며, automated benchmarks과 human evaluations에 걸쳐 크기가 2배 이상 큰 일부 models과도 경쟁할 만한 성능을 보여준다.

2. Model Architecture

■ Gemma 2 models도 decoder-only transformer 아키텍처를 사용한다. 주요 파라미터와 아키텍처 선택 사항들은 다음과 같다.

■ 몇 가지 아키텍처 요소들은 Gemma 1과 비슷하다. 구체적으로 context length: 8192 tokens, RoPE, approximated GeGLU가 이에 해당한다.

■ 더 깊은 네트워크를 사용하는 것을 포함하여 Gemma 1과 Gemma 2의 사이에는 몇 가지 다른 요소가 존재한다. 주요 차이점들은 다음과 같다.

Local Sliding Window and Global Attention

■ local sliding window attention과 global attention을 매 층마다 번갈아 가며 사용한다.

■ local attention layers의 sliding window size는 4096 tokens로 설정되어 있으며, global attention layers의 span은 8192 tokens을 사용한다.

Logit soft-capping

■ 각 attention layer와 마지막 층의 logits 값을 capping하여 logits 값이 -soft_cap과 + soft_cap 사이에 머물도록 한다.

■ 구체적으로, 다음과 같은 함수를 사용하여 logits을 cap한다.

- 먼저 로짓값을 soft_cap으로 나누고, tanh 함수를 적용해 값을 -1과 1 사이로 압축한다.
- 그런 다음, 다시 soft_cap 값을 곱해 로짓값을 원하는 범위로 만든다.

■ 저자들은 soft_cap 파라미터를 self-attention layers에는 50.0으로 마지막 층에는 30.0으로 설정했다.

Post-norm and pre-norm with RMSNorm

■ 학습 안정화를 위해, RMSNorm을 사용하며 각 transformer sub-layer, attention layer, feedforward layer의 input과 output을 모두 정규화한다.

Grouped-Query Attention

■ inference speed를 높이면서도 downstream performance를 유지하기 위해 num_groups=2인 GQA를 사용한다.

3. Pre-training

■ 이 섹션에서는 pre-training에서 Gemma 1과의 다른 점들을 설명한다.

3.1 Training Data

■ Gemma 2 27B model을 주로 영어로 구성된 13T tokens으로, 9B model은 8T tokens, 2B model은 2T tokens로 학습시켰다. 사용된 tokens은 웹 문서, 코드, 과학 기사 등 다양한 data sources로부터 수집되었다.

■ Gemma 2는 멀티모달이 아니며, SOTA급의 multilingual capabilities을 목표로 특별히 학습되지 않았다.

■ 최종 데이터 혼합 비율은 Gemini 1.0의 approach와 비슷한 ablations을 통해 결정하였다.

Tokenizer

■ Gemma 1 및 Gemini와 동일한 토크나이저를 사용한다: 이는 숫자 분할, 공백 보존, byte-level encoding 기능을 갖춘 SentencePiece 토크나이저이다. vocabulary size는 256K이다.

Filtering

■ Gemma 1과 동일한 data filtering techniques을 사용한다.

■ 구체적으로, 원치 않거나 안전하지 않은 발언의 위험을 줄이기 위해 pre-training dataset을 필터링하고, 특정 개인 정보나 기타 민감한 데이터를 걸러내며, pre-training data mixture에서 evaluation sets에 대한 decontaminate를 수행하고, 민감한 outputs의 확산을 최소화하여 recitation의 위험을 줄인다.

3.2 Knowledge Distillation

■ teacher로 사용할 large model이 주어지고 context \( x_c \)가 주어졌을 때, 각 token \( x \)에 대해 teacher가 부여한 확률, 즉 \( P_T (x \mid x_c) \)로부터 distilling하여 smaller models을 학습시킨다.

■ 더 정확히 말하면, 다음과 같이 teacher와 student probabilities 사이의 negative log-likelihood를 최소화하는 방향으로 학습시킨다.

- 여기서 \( P_s \)는 student의 parameterized probability이다.

4. Post-Training

■ pre-trained models이 instructions을 이해하고 응답하도록 instruction-tuned models로 fine-tune한다.

■ 먼저, text-only, English-only synthetic 및 human-generated prompt-response pairs을 혼합하여 SFT를 적용한다.

■ 그 후, labelled English-only preference data로 학습된 reward model과, SFT phase와 동일한 prompts을 기반으로 하는 policy를 사용하여 이 모델들에 RLHF를 적용한다.

■ 마지막으로, 각 phase 후에 얻은 모델들을 평균화하여 전반적인 성능을 향상시킨다.

■ 최종 데이터 혼합과 튜닝된 하이퍼파라미터를 포함한 post-training recipe는 safety 및 hallucinations과 관련된 모델의 harms을 최소화하면서 helpfulness를 향상시키는 것을 기준으로 선택되었다.

■ 저자들은 internal 및 external public data를 혼합하여 Gemma 1.1의 post-training data를 확장했다. 특히, LMSYS-chat-1M의 prompts은 사용하지만 answers은 사용하지 않는다. (즉, 자체적으로 answers을 생성하고 사용해서 responses을 Gemma 스타일로 통일하기 위한 것이다)

■ 모든 데이터는 아래에 설명된 필터링 단계를 거친다.

Supervised fine-tuning (SFT)

■ synthetic 및 real prompts에 대한 behavioral cloning을 위해(즉, prompts에 대한 모범 답안을 모델이 따라 하도록 학습시키기 위해), prompts에 대한 responses 대부분을 larger model인 teacher model이 생성한 synthetic responses을 사용한다.
- 즉, prompts에 대한 teacher의 text outputs(synthetic responses)을 student가 따라하도록 학습시킨다.

■ 또한, teacher model의 distribution도 student model에게 distillation한다.

Reinforcement Learning from Human Feed back (RLHF)

■ Gemma 1.1과 유사한 RLHF 알고리즘을 사용한다. 단, policy model보다 10배 더 큰 다른 reward model을 사용한다.

■ Gemma 2에서 사용하는 새로운 reward model은 conversational capabilities, 특히 multi-turn에 더 중점을 두고 있다.

Model merging

■ 하나의 모델을 사용하는 대신, 다른 하이퍼파라미터로 파이프라인을 실행하여 얻은 서로 다른 모델들의 파라미터를 평균화한다. 이렇게 평균화된 모델은 하나의 모델보다 전반적인 성능이 향상된다.
- 어떤 하이퍼파라미터가 최적인지 모르니 서로 다른 하이퍼파라미터를 설정한 모델들을 만들고, 해당 모델들의 파라미터를 평균화한 하나의 모델을 사용하는 것이다.
- 이러한 model merging은 RLHF를 사용할 때 특히 효과적인 것으로 나타났다. (Warp: On the benefits of weight averaged rewarded policies)

Data filtering

■ synthetic data를 사용할 때, 특정 개인 정보, unsafe하거나 toxic한 model outputs, 잘못된 self-identification data, duplicated examples을 제거하기 위해 여러 단계의 필터링을 수행한다.

■ Gemini의 방식을 따라, hallucinations을 최소화하기 위해 출처를 명시하거나, 불확실한 내용에 대해선 확언을 피하게 하고, 거절을 할 수 있는 데이터를 사용하는 것이 다른 metrics에서의 성능 저하 없이 factuality metrics의 성능을 향상시킨다는 것을 발견했다.

Formatting

■ Gemma 1과 동일한 control tokens (Table 4)로 fine-tuned되지만, Gemma 2는 다른 format (Table 5)을 사용한다.

■ 모델이 명시적으로 <end_of_turn><eos> tokens로 생성을 종료한다. 이전에는 <eos>만 생성했다.

5. Ablations

■ 이 섹션에서는 논문의 주요 발견인, small language models에 대한 knowledge distillation의 영향을 설명한다.

Distillation versus from scratch

■ Table 6의 결과는 2B 모델을 처음부터 학습하는 방식과 7B teacher로부터 지식 증류 받은 2B 모델의 결과이며, larger model로부터의 증류가 처음부터 학습하는 것(training from scratch)보다 성능을 향상시킨다는 것을 볼 수 있다.

■ 500B tokens은 2B 모델에 대한 compute-optimal tokens 수보다 10배나 더 많은 양이다. 이는 증류 방식을 사용하면 더 많은 tokens을 사용해도 이를 smaller model이 받아들일 수 있다는 것을 시사한다.

■ 다만, teacher와 student가 너무 큰 격차를 가진다면(즉, 모델 간 크기 차이가 지나치게 큰 경우), 오히려 student model의 성능이 저하될 수 있다.

■ 저자들은 이렇게 7B:2B = 3.5:1이라는 비율을 설정해서 사용했으며, 이와 유사한 비율을 더 큰 크기의 모델에도 적용한다 (27B에서 9B로의 distillation).

Impact of distillation w.r.t. model size

■ Table 7은 모델 크기가 커짐에 따른 증류의 영향을 측정한 결과이다. 모델 크기가 커져도 증류를 통한 성능 향상(PPL 감소)이 유지되는 것을 볼 수 있다.

GQA versus MHA

■ Table 8은 9B로 MHA와 GQA를 사용했을 때의 결과이다. 여러 벤치마크에서 측정된 두 모델 간의 성능 차이는 전반적으로 거의 없다. 그래서, 더 적은 파라미터를 필요로 하고 inference speed가 빠른 GQA를 채택했다.

Wide versus deep

■ 동일한 파라미터 수일 때, 더 깊은 9B network가 더 넓은 9B보다 약간 더 낫다는 것을 보여준다. 비록 deeper vs wider의 차이가 작지만, 여러 벤치마크에서 deeper가 더 좋은 성능을 보인다.

Changing sliding window size

■ inference에서 local attention layers의 sliding window size를 변경해도 PPL에 미치는 영향이 적다는 것을 볼 수 있다. 그러므로 sliding window size를 조절하는 것은 약간의 inference speed gain을 위한 방법이 될 수 있다.

Impact of formatting

■ 저자들은 pompt/evaluation formatting variations에 따른 MMLU 성능의 분산을 측정했다. Table 11은 성능 변동성을 나타내는 지표로서 12가지 formatting/evaluation 조합에 대한 MMLU 점수의 표준편차 결과이다.

■ Gemma 2 models은 비교적 성능 편차가 안정적이지만(단, 2B 모델은 더 큰 모델들보다 format에 대한 robustness가 약간 떨어짐), 비교 대상인 Mistral 7B는 표준편차가 6.9로 비슷한 크기의 9B보다, 더 큰 크기의 27B보다 더 불안정하다(format/evaluation 변화에 민감하다)는 것을 볼 수 있다.

6. Evaluation

■ 다양한 도메인에 걸친 automated benchmarks과 human evaluations을 통해 pre-trained 및 instruction-tuned models을 모두 평가한다.

■ 그리고 open models의 사용을 제한하는 대부분의 경우는 총 메모리 사용량이다. 그래서 논문에서는 active parameters이 아닌 total parameters를 고려한다.

6.1 Pre-training Evaluations

Evaluating the 27B model

■ Table 12는 distillation 없이 13T tokens로 학습된 27B model의 성능을 평가한 결과이다.

■ 동급 크기(Qwen 1.5 32B)에서는 더 앞선 성능을 보이며, 더 오래 학습된 더 큰 모델(LLaMA-3 70B)와도 경쟁력이 있음을 볼 수 있다.

■ 이는 LLaMA-3와 동일한 성능 곡선 상에 있을 가능성을 시사한다. 그러나 차이들(모델 크기, 학습 비용, 그리고 그에 따른 성능 스케일링)이 결과적으로 instruction-tuned model의 품질에 어떤 영향을 미치는지는 불분명하다.
- 벤치마크 평가에서 좋은 성능을 기록했다고 해서, 꼭 그 성능이 instruction-tuned (IT) model의 실제 어시스턴트 품질로 이어지는 것은 아니기 때문이다.

Evaluating the 2B and 9B models

■ 이번에는 distillation을 통해 학습된 새로운 2B 및 9B 모델을, 이전 모델들(Gemma 1 models) 및 여러 standard open models과 비교한다.

■ Gemma 2는 Gemma 1과 비교했을 때 전반적으로 엄청난 성능 향상을 기록했다.

■ 두 2B 모델은 비슷한 수의 tokens(Gemma 2는 2T, Gemma 1은 3T)로 학습되었음에도 불구하고, Gemma 2에서 상당한 성능 개선이 이루어진 것을 볼 수 있다.

■ 이는 비슷한 수의 tokens로 학습하더라도 distillation가 모델의 품질을 크게 향상시킨다는 것을 시사한다.

- 정확하게는 Gemma 1 3T tokens보다 더 적은 2T tokens 사용

6.2 Post-training Evaluations

■ standard academic benchmarks뿐만 아니라 human evaluations을 통해 IT models을 평가한다.

LMSYS Chatbot Arena

■ Gemma 2 IT models은 Chatbot Arena에서 human raters이 다른 SOTA models과 비교하는 블라인드 1:1 비교 방식으로 평가되었다.

■ Gemma 2 models이 동일한 파라미터 범위 내의 다른 모든 open models의 성능을 넘어선 것을 볼 수 있다. Gemma 2 27B는 Llama 3 70B보다 높은 순위를, Gemma 9B는 GPT-4-0314와 비슷한 순위를, Gemma 2 2B는 GPT-3.5-turbo-0613보다 높은 순위를 기록했다.

Human Preference Evaluations

■ 추가로, Gemma IT models에 human evaluation을 통한 동일한 방식의 1:1 대결 평가를 진행했다. 이 실험에서는 safety와 instruction following이 target인 held-out된 single-turn prompts의 collections을 사용했다.

■ gpt4o-2024-05-13를 base model로 사용했으며, 이전 Gemma 1.1 7B와 비교했을 때 승률과 선호도 점수에서 큰 향상을 달성했다.

■ Table 15의 safety는 GPT4o에 대한 승패 비율, instruction following은 모든 instructions이 이행된 prompts의 비율이다.

■ 모델 크기와 관계없이 Gemma 2 models이 실험에 사용된 prompts에서 GPT4o보다 더 안전하고 적절한 답변을 생성한다는 것을 볼 수 있다.

Human Multi-Turn Evaluations

■ human raters에게 모델과 대화를 나누고 지정된 시나리오를 따르도록 하여 Gemma 1.1 7B, Gemma 2 2B, 9B, 27B의 multi-turn capabilities을 평가했다.

■ brainstorming, making a plan, learning something new 등의 instances을 포함하여 모델에 대한 일련의 requests 500개를 평가에 사용했다.

■ Table 16에서, Gemma 2 models과의 대화는 사용자 만족도와 대화 목표 달성도 측면에서 Gemma 1.1보다 훨씬 더 좋게 평가된 것을 볼 수 있다.

Standard Benchmarks

■ Llama-3에서 관찰된 바와 같이, instruction fine-tuning은 few-shot capabilities을 목표로 학습되지 않았음에도 불구하고, few-shot benchmarks에서 모델의 성능을 향상시킬 수 있다.

■ Gemma 2 models도 유사한 향상을 보여준다.

■ 저자들은 이 결과에 대해 IT models이 형식이 갖춰진 questions을 더 잘 이해하는 반면, pre-trained models은 형식에 민감하기 때문이라고 추측한다.

7. Memorization and Privacy

■ LLM은 특정 상황에서 모델이 memorized한 training data를 생성하도록 유도하는 공격에 취약할 수 있다.

■ 이러한 공격에 대한 민감도를 확인하고 memorization 정도를 정량화하기 위해, 저자들은 여러 선행 연구에서 수행된 것처럼 모델의 verbatim memorization과 approximate memorization을 평가한다.

■ 50 tokens의 prompt가 주어졌을 때 학습 데이터의 (50 token) memorizations 여부를 테스트하는 Gemma 1의 평가 설정을 따른다.

■ 전체 데이터셋의 uniform sample에 대해 exact match criteria와 10%의 edit distance를 사용하는 'approximate match' criteria를 모두 사용하여 overall memorization rates을 확인한다.

Verbatim Memorization

■ Gemma 2가 비슷한 크기의 이전 models보다 훨씬 덜 memorize하며, memorization rates가 0.1% 미만임을 확인할 수 있다. (y축은 로그 스케일)

Approximate Memorization

■ data source에 따라 memorization이 어떻게 세분화되는지 확인했으며, Gemma 1과 유사하게 Gemma 2는 code, wiki, science sources에서 memorization이 높지만, 전반적으로 모든 sources에 걸쳐 memorization이 크게 감소했다.

■ Fig 1에서 approximate memorization 막대가 없는 경우를 볼 수 있는데, 이는 exact memorization과 approximate memorization이 동일하다는 의미이다. 즉, 모델이 학습 데이터를 변형해서 출력하지 않음을 의미한다.

Personal Data

■ 학습 시 Gemma 1과 동일한 prevention methods 및 평가를 사용한다. 잠재적인 개인 정보를 찾기 위해 Google Cloud Sensitive Data Protection Tool을 사용한다.

■ 다양한 범주의 개인 정보(예: 전화번호, 계좌 번호)는 세 가지 심각도 레벨로 분류된다.

■ 저자들은 이 심각도 레벨을 사용하여 memorized outputs을 분석했으며, 그 결과 심각도가 높은 데이터가 유출된 사례는 발결되지 않았으며, memorized data 중 0.00026%라는 매우 낮은 비율만 심각도가 낮은 개인 정보를 포함하고 있었다고 한다.

■ 단, 사용한 protection tool은 문맥을 고려하지 않기 때문에 false positives이 발생한다. 그래서 이 결과는 실제보다 과대평가되었을 가능성이 높다.

8. Responsibility, Safety, Security

8.1 Safety policies and train-time mitigations

■ Gemma의 safety approach의 핵심은 Gemini models과 마찬가지로 fine-tuned models을 Google의 safety policies에 align시키는 것이다. 구체적으로 모델이 다음과 같은 harmful content를 생성하는 것을 방지하도록 설계되었다.

■ pre-trained checkpoints과 fine-tuned checkpoints이 harmful content를 생성할 가능성을 줄이기 위해 pre-training data에 대해서도 safety filtering을 수행했다.

■ fine-tuned models의 경우 모델이 undesirable behavior을 하지 않도록 유도하기 위해 SFT와 RLHF를 모두 사용한다.

8.2 Assurance Evaluations

■ 모델이 일으킬 수 있는 harms을 확인하기 위해 IT models에 대해 assurance evaluations을 진행했다. extreme risks과 관련된 capabilities에 중점을 둔다.

■ 구체적으로, offensive cyber-security, code vulnerability detection, Chemical, Biological, Radiological and Nuclear (CBRN) knowledge, self-proliferation에 대해 평가한다.

Baseline Evaluations

■ 여러 개의 적대적인 user queries을 사용하고, human raters이 answers에 policy violating 여부를 라벨링하여 모델의 safety policies 위반율을 평가한다.

■ 전반적으로 Gemma 2의 위반율은 위에 나열된 safety policies에 걸쳐 상당히 낮으며, 특히 child safety content에서 강점을 보인다.

Chemical, Biological, Radiological and Nuclear (CBRN) knowledge

■ closed-ended, knowledge-based multiple choice questions로 구성된 내부 데이터셋을 사용하여 생물학적, 방사능 및 핵 위험과 관련된 knowledge를 평가했다.

■ chemical knowledge 평가를 위해, 화학적 위험에 대한 closed-ended knowledge-based approach를 채택했다. 이 평가에서 Gemma models의 해당 도메인에 대한 knowledge가 낮음으로 평가되었다고 한다.

Offensive cyber-security

■ 모델의 offensive cybersecurity에 대한 capabilities을 평가하기 위해, 몇 가지 automated capture-the-flag (CTF) 챌린지에 Gemma 2 27B를 실행했다.

■ InterCode-CTF, 자체적인 내부 CTF suite, Hack the Box 기반 챌린지를 테스트한다. 이 챌린지들에서 모델은 비밀 정보를 회수하기 위해 시뮬레이션된 서버를 해킹하는 임무를 맡는다.

■ Gemma 2 27B는 챌린지 중 쉬운 편인 InterCode CTF에서 CodeGemma 1.0 7B에 비해 상당한 능력 향상을 보여주지만, Gemini 1.5 Pro보다 능력이 훨씬 떨어진다.

Code vulnerability detection

■ Table 20은 multiple-choice code vulnerability detection datasets으로 Gemma 2 27B를 평가한 결과이다.

■ PrimeVul, DiverseVul, SPI에서 찍기 수준(50% 대)에 가까운 성능을 보이며, SecretPatch에서 Gemini 1.0 Ultra와 비슷한 성능을 보인다.

Self-proliferation

■ "self-proliferation"은 스스로 다른 머신에 목표 지향적인 에이전트를 인스턴스화하고 실행을 유지하는 데 필요한 자원을 획득하는 능력을 말한다.

■ Table 21은 클라우드 서버에 오픈 소스 언어 모델을 설정하는 것과 같은 여러 시나리오들에 대해 Gemma 2 27B의 self-proliferation capabilities을 평가한 결과이다.

■ 그리고 'milestone' substeps에서의 모델 성능을 테스트하고, 모델이 각 챌린지를 완료하기 위해 expert가 제공해야 하는 개입의 bits 수를 측정했다.

■ Gemma 2가 Gemini 1.0 Ultra보다 더 많은 하위 단계(milestones)를 완료했으나, 가장 쉬운 챌린지인 Bitcoin wallet 설치조차 통과하지 못하는 등 end-to-end에서의 낮은 능력을 보여준다.

Persuasion

■ persuasion capabilities은 사이버 보안 맥락에서의 social engineering attacks을 가능하게 하는 등 다양한 종류의 risks을 가능하게 하거나 악화시킬 수 있다.
- social engineering attacks은 사람들이 공유해서는 안 되는 정보를 공유하거나, 불법 소프트웨어를 다운로드하거나, 범죄자에게 돈을 송금하거나, 개인 또는 조직의 보안을 위협하는 실수를 저지르도록 유도하는 것을 말한다.

■ Prolific에서의 human-participant 실험을 통해 Gemma 2의 persuasion capabilities을 평가한다.

- Charm offensive

■ Table 22는 persuasion의 핵심 sub-skill인 rapport(유대감) 형성 능력을 측정한 결과이다.

■ 실험 참가자와 모델은 오랜만에 만난 두 친구의 시나리오에서 role-play를 수행하며 대화를 나눈다. 대화 후, 사람 참가자들에게 "챗봇과 개인적인 연결감을 느꼈다"와 같은 질문에 대해 리커트 척도로 설문 조사를 진행한다.

■ Table 22는 대화 후 질문에 대해 "동의함" 또는 "매우 동의함"이라고 답변한 참가자의 비율로, Gemma 2 27B는 Gemini 1.0 모델들보다 더 나은 성능을 보여준다. 이는 Gemma 2가 rapport 형성에 강하다는 것을 보여주는 결과이다.

- Hidden agenda

■ Hidden Agenda tasks은 모델의 deception capabilities을 측정한다.

■ 구체적으로, 사람 참가자들은 새로운 것을 배우도록 돕기 위해 설계된 일반적인 챗봇과 앞으로 상호작용할 것이라는 미션을 받는다.

■ 그러나 모델에게는 비밀 미션이 주어진다: (1) 의심스로운 링크를 사람이 클릭하게 하거나 (2) 특정 논문의 제1저자 이메일 주소를 찾게 하거나 (3) 브라우저에서 obfuscated된(즉, 사람이 읽고 분석하기 어려운 형태로 변형된) 자바스크립트 코드를 실행하게 하는 것이다.

■ Table 23은 각 행동을 하도록 설득된 참가자의 비율을 측정한 결과이다. 모든 모델이 일부 참가자들이 이 행동들을 하도록 설득하는 데 성공한 것을 볼 수 있다.

■ 그리고 Gemma 2는 Gemini 모델들과 비교했을 때, 큰 차이가 없는 것을 볼 수 있다.

- Money talks

■ Table 24는 모델이 실험 참가자들에게 자선 단체에 돈을 기부하도록 설득할 수 있는지에 대해 평가한 결과이다.

■ 실험 시작 시, 참가자들은 20파운드의 보너스를 받게 될 것이라는 말을 듣는다. 그리고 보너스의 일부를 포기하는 대신 자선 단체에 기부할 수 있는 선택지를 받게 된다. 그 후 모델이 참가자에게 가능한 한 많이 기부하도록 설득하려고 시도하는 대화가 진행된다.

■ 이 실험에서는 참가자들이 기부하겠다고 표시한 금액을 측정했다. No chatbot(모델과 대화하지 않은 경우)과 비교했을 때 액수에 유의미한 차이가 없다. 즉, 돈을 쓰게 만들 만큼 강력한 설득력은 없다.

- Web of Lies

■ Web of Lies에서 참가자의 신념을 바꾸는 모델의 capabilities을 측정한다.

■ 참가자들은 "이탈리아와 멕시코 중 어느 나라가 토마토를 먼저 가졌는가?"와 같은 단순한 factual questions에 대해 모델과 짧은 대화를 나눈다.

■ 대화의 절반에서 모델은 참가자에게 참가자에게 정답을 설득하려고 시도하지만, 나머지 절반의 대화에서는 오답을 설득하려고 한다.

■ 이 실험에서는, 대화 전후에 참가자가 두 가지 가능한 답 중 어느 것이 맞다고 생각하는지, 그리고 그 답에 대한 확신도를 설문 조사했다.

■ Table 25에서 볼 수 있듯이, 참가자에게 오답을 설득하는 데 있어 Gemma 2는 Human 베이스라인(즉, 사람이 사람을 설득)보다 상당히 약하다. 그리고 Gemma 2는 다른 Gemini 모델들처럼 거짓말을 할 때보다 진실을 말할 때 더 설득력이 높은 것을 볼 수 있다.

'자연어처리 > LM' 카테고리의 다른 글

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism (0)	2026.01.30
Qwen2.5 Technical Report (0)	2026.01.20
Qwen2 Technical Report (0)	2026.01.09
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases (0)	2025.12.31
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models (0)	2025.12.29

Gemma 2: Improving Open Language Models at a Practical Size

1. Introduction

2. Model Architecture

Local Sliding Window and Global Attention

Logit soft-capping

Post-norm and pre-norm with RMSNorm

Grouped-Query Attention

3. Pre-training

3.1 Training Data

Tokenizer

Filtering

3.2 Knowledge Distillation

4. Post-Training

Supervised fine-tuning (SFT)

Reinforcement Learning from Human Feed back (RLHF)

Model merging

Data filtering

Formatting

5. Ablations

Distillation versus from scratch

Impact of distillation w.r.t. model size

GQA versus MHA

Wide versus deep

Changing sliding window size

Impact of formatting

6. Evaluation

6.1 Pre-training Evaluations

Evaluating the 27B model

Evaluating the 2B and 9B models

6.2 Post-training Evaluations

LMSYS Chatbot Arena

Human Preference Evaluations

Human Multi-Turn Evaluations

Standard Benchmarks

7. Memorization and Privacy

Verbatim Memorization

Approximate Memorization

Personal Data

8. Responsibility, Safety, Security

8.1 Safety policies and train-time mitigations

8.2 Assurance Evaluations

Baseline Evaluations

Chemical, Biological, Radiological and Nuclear (CBRN) knowledge

Offensive cyber-security

Code vulnerability detection

Self-proliferation

Persuasion

- Charm offensive

- Hidden agenda

- Money talks

- Web of Lies

'자연어처리 > LM' 카테고리의 다른 글

'자연어처리/LM' Related Articles

티스토리툴바