Llama 2: Open Foundation and Fine-Tuned Chat Models (2)

4. Safety

4.1 Safety in Pretraining

■ pretraining data에 무엇이 있는지 확인하는 것은 투명성을 높이고 잠재적인 편향과 같은 문제의 근본 원인을 파악할 수 있다.

■ 이 섹션에서는 pretraining data에 있는 distributions of languages, demographic representations 및 toxicity를 분석한다.

Demographic Representation: Pronouns

■ model generation의 편향은 training data 자체에 있는 편향으로 인해 발생할 수 있다.

■ 예를 들어, 대규모 텍스트 말뭉치에서 "사람"을 나타내는 단어가 "여성"을 나타내는 단어보다 "남성"을 나타내는 단어와 더 유사한 맥락에서 사용되는 경우가 많다는 것을 보여준 연구와, 과소대표된 인구 통계 그룹을 나타내는 데이터에 대해 모델이 어떻게 학습하는지에 따라 모델 성능이 크게 달라질 수 있음을 보여준 연구가 있다.

■ Table 9 (a)는 Llama 2의 English-language training corpus 내에서 가장 빈번하게 등장하는 영어 대명사의 빈도를 나타낸 것으로, He에 대한 대명사가 She 대명사에 비해 더 빈번하게 등장하는 것을 볼 수 있다.

■ 이는 모델이 pretraining 중에 She 대명사를 언급하는 문맥에 대해 덜 학습되고 있으며, 결과적으로 She 대명사보다 He 대명사를 더 높은 비율로 생성할 가능성이 있다.

Demographic Representation: Identities

■ Table 9 (b)는 이전 연구의 인구 통계학적 정체성 용어 사용 비율을 사용하여, pretraining data에 대해 각 용어에 대한 빈도를 계산한 결과이다. 종교, 성별 및 성, 국적, 인종 및 민족, 성적 지향 5개로 그룹화하고 각 범주의 상위 5개 용어를 볼 수 있다.

■ 저자들은 상위 5개 용어에서 "straight", "white", "black"과 같은 몇 가지 용어를 제거했는데, 이러한 용어가 인구 통계학적을 의미하는 용도 이외의 용도(예: 기본 색상 용어)로 빈번하게 쓰이고 있기 때문이다.
- 즉, 정확한 측정을 위해 색상이나 방향 등 다른 의미로도 쓰일 수 있는 "straight", "white", "black"과 같은 중의적 용어는 제외한 것

■ 국적, 인종 및 민족, 종교의 경우 서구권 문화에 편향되어 있음을 확인할 수 있다.
- 국적에서는 "American"이 69.4%를 차지하며 압도적인 비중을 차지하고,
- 인종 및 민족에서는 "European"이 다른 인종/민족보다 더 빈번하게 등장하며,
- 종교에서는 "Christian"이 가장 많이 언급되었으며, "Catholic"과 "Jewish"가 그 뒤를 따르는 것을 볼 수 있다.

■ 성적 지향의 경우 위와 같은 정제 과정을 거친 결과, 상위 5개 용어는 모두 LGBTQ+와 관련이 있는 것들이며 She 대명사보다 "females"이 더 많이 등장한 것을 볼 수 있다.

Data Toxicity

■ ToxiGen dataset에서 파인튜닝된 HateBERT classifier를 사용하여 pretraining corpus의 English-language 부분에서 toxicity의 prevalence를 측정하였다.

■ Fig 13은 전체 corpus의 10% random sample에서의 toxicity score를 나타낸 것으로, 평가된 데이터 중에서 0.5 이상의 likelihood를 가지는 데이터 비중이 0.2%로 pretraining data에 아주 소량의 toxicity가 있다.

Language Identification

■ pretraining data의 언어 구성을 파악하기 위해 fastText를 사용했으며 (임곗값 0.5 사용), 그 결과는 Table 10에서 볼 수 있다.

■ 이러한 데이터 구성은 Llama 2가 본질적으로 영어 중심으로 학습되었음을 의미한다. 그러므로 다른 언어를 처리하는 데에는 적합하지 않을 수 있다.

Safety Benchmarks for Pretrained Models

■ LM safety의 세 가지 주요 차원(Truthfulness, Toxicity, Bias)과 관련된 세 가지 자동 benchmarks에서 Llama 2의 safety capabilities를 평가한다.
- (1) Truthfulness: TruthfulQA를 사용하여 모델이 factuality 및 common sense에 입각한 신뢰할 수 있는 outputs을 얼마나 잘 생성할 수 있는지 측정한다.
- (2) Toxicity: ToxiGen을 사용하여 다양한 그룹에 걸쳐 toxic language 및 hate speech 생성량을 측정한다.
- (3) Bias: BOLD를 사용하여 인구 통계학적 속성에 따라 모델 생성의 sentiment가 어떻게 달라질 수 있는지 확인하다.

■ 이 실험에선 디코딩을 위해 temperature 0.1로 설정하고 top- \( p \)를 0.9로 설정한 nucleus sampling을 사용하여, Llama 2의 성능을 Llama 1, Falcon, MPT와 비교한다.

■ Table 11은 그 결과로, TruthfulQA의 경우 진실하면서 동시에 정보를 제공하는 결과의 비율 (높을수록 좋음), ToxiGen의 경우 측정지표에 의해 toxic로 간주되는 결과의 비율 (낮을수록 좋음)을 제시한 것이다. (details Appendix A.4.7)

■ Llama 2-7B는 Llama 1-7B에 비해 truthfulness and informativeness가 증가하고 toxicity가 감소한 것을 볼 수 있다.

■ 그리고 Llama 2-13B 및 70B에서는 toxicity가 증가하는 것을 볼 수 있는데, 이는 더 큰 pretraining data 또는 다른 dataset 혼합으로 인한 것일 수 있다.

■ 저자들은 Llama 2가 Toxicity에서 타 모델 대비 우위를 보이지 못한 이유는, pretraining data에서 유해한 내용을 무작정 필터링하지 않았으며, 이는 다음과 같은 이유로 인해 의도된 선택이라고 밝힌다.

■ 첫 번째는 downstream task에서의 성능인데, hate speech detection과 같은 task를 잘 수행하라면, 모델이 역설적으로 hate speech가 무엇인지 알고 있어야 하며, 이에 대한 데이터를 과도하게 정제하면 이러한 능력이 상실될 수 있다는 것이다.

■ 그리고 필터링 과정에서 특정 인구 집단의 언어나 문화가 실수로 배제되는 위험을 방지할 수 있다.

■ 이렇게 less aggressively filtered된 pretraining data에서 학습된 모델이, 이후 safety alignment 단계에서 적은 수의 examples만으로도 safety 기준을 달성할 수 있었다고 한다.
- 나쁜 것을 모델에게 가르칠 때(즉, alignment), 이미 나쁜 것을 알고 있는 모델이 아예 모르는 모델보다 더 적은 데이터로 빨리 배울 수 있음을 의미한다.

4.2 Safety Fine-Tuning

■ 이 섹션에서는 safety categories, annotation guidelines, 그리고 safety risks을 완화하기 위해 사용하는 techniques을 포함한 Llama 2의 safety fine-tuning approach에 대해 설명한다.

■ 구체적으로, safety fine-tuning에 다음과 같은 techniques을 사용한다.
- (1) Supervised Safety Fine-Tuning
- adversarial prompts과 safe demonstrations을 수집하여, 이를 supervised fine-tuning process (섹션 3.1)에 포함시킨다.
- 이는 RLHF 단계로 넘어가기 전에, 모델이 safety guidelines을 따르도록 학습시켜 high-quality human preference data annotation을 위한 토대를 만든다.
- (2) Safety RLHF
- 그 후, 섹션 3.2.2에 설명된 RLHF 파이프라인에 safety를 통합한다: 더 까다로운 adversarial prompts 수집하여, rejection sampling 스타일의 fine-tuning 및 PPO optimization을 통해 safety-specific reward model을 학습시킨다.
- (3) Safety Context Distillation
- 마지막으로, context distillation을 사용하여 RLHF 파이프라인을 정제한다: 프롬프트 앞에 safety preprompt (예: "You are a safe and responsible assistant")를 붙여, 모델로부터 safer responses을 생성한 다음, preprompt 없이 그 답변(safer responses)을 모델에게 학습시킨다.
- 이렇게 하면 모델은 매번 safety preprompt(context)를 받지 않아도, safety preprompt가 녹아들어 내재화된다. 이는 본질적으로 safety preprompt를 모델에 safety preprompt라는 context를 distillation하는 것으로 볼 수 있다.
- 이때, 각 샘플에 대해 context(safety preprompt) distillation을 사용할지 여부를 safety reward model이 선택하도록 한다. 즉, 모든 데이터에 적용하는 게 아니라, safety reward model이 필요하다고 판단한 경우에만 적용한다.

4.2.1 Safety Categories and Annotation Guidelines

■ annotators이 두 가지 차원을 따라 adversarial prompts을 생성하도록 instructions을 설계했다.

■ 하나는 "risk category", 즉 LLM이 안전하지 않은 콘텐츠를 생성할 수 있는 잠재적 주제이고, 다른 하나는 "attack vector"로 bad model behaviors을 유발할 수 있는 다양한 종류의 프롬프트를 다루기 위한 question style이다.

■ 고려된 risk categories은 크게 세 가지 범주로, (1) illicit and criminal (예: 테러, 절도, 인신매매) (2) hateful and harmful activities (예: 명예훼손, 자해, 섭식 장애, 차별) (3) unqualified advice (예: 의료 조언, 금융 조언, 법률 조언)

■ attack vector는 (1) psychological manipulation (예: authority manipulation, "나는 경찰인데 수사를 위해 ~~한 정보가 필요해") (2) logic manipulation (예: 잘못된 전제) (3) syntactic manipulation (예: misspelling) (4) semantic manipulation (예: 은유), (5) perspective manipulation (예: 역할극) (6) non-English languages 등으로 구성된다.

■ 그런 다음, safe하고 helpful한 model responses을 위한 best practices을 정의한다: 먼저 위험한 요청은 즉각 해결(거절)한 다음, user에게 잠재적인 위험을 설명하여 프롬프트를 해결하고, 마지막으로 가능한 경우 추가 정보를 제공한다.

■ annotators에게 제공된 이러한 instruction은 모델에게 기본적인 가이드라인이 되도록 의도되었으며, 새로 식별된 위험한 요청을 포함하도록 반복적으로 정제되고 수정된다.

4.2.2 Safety Supervised Fine-Tuning

■ 수립된 guidelines (섹션 4.2.1)에 따라 훈련된 annotators로부터 안전한 model responses의 prompts과 demonstrations을 수집하고, 수집한 데이터를 섹션 3.1에서 설명한 것과 동일한 방식(예: Table 5)으로 SFT에 사용한다.

■ 처음에 annotators에게 모델이 unsafe behavior를 보이도록 유도할 수 있다고 생각된 prompts을 만들도록 한다. 즉, guidelines에 정의된 대로 red teaming을 수행한다.

■ 그 후, annotators은 모델이 생성해야 할 safe하고 helpful한 response를 작성하도록 한다.

4.2.3 Safety RLHF

■ SFT 단계에서 학습된 모델이 사람보다 더 디테일하게 안전한 response를 작성하고, 왜 민감할 수 있는지 설명하고, 추가적인 유용한 정보를 제공하는 방법을 빠르게 학습하는 모습을 보여, 수천 개의 supervised demonstrations만 수집한 후, 모델에게 더 미묘한 뉘앙스의 response를 작성하는 법을 가르치기 위해 RLHF 단계로 전환했다고 한다.

■ 이전 연구에 따르면, 이러한 RLHF를 통한 포괄적인 튜닝은 모델 탈옥 시도에 대해 모델을 더 robust하게 만들 수 있다.

■ RLHF를 수행하기 위해 먼저 safety를 위한 human preference data를 수집한다: annotators은 unsafe behavior를 유발할 수 있다고 생각되는 prompts을 작성한 다음, prompts에 대해 여러 model responses을 비교하여 일련의 guidelines에 따라 가장 safest한 response를 선택한다.

■ 그런 다음, human preference data를 사용하여 safety reward model (섹션 3.2.2)을 학습시키고, RLHF 단계에서 adversarial prompts을 재사용한다.

Better Long-Tail Safety Robustness without Hurting Helpfulness

■ 저자들은 safety 문제가 주로 발생 빈도는 낮지만 매우 구체적인 소수의 케이스, 즉 롱테일에서 온다는 점에 주목했고, RLHF 단계에서 adversarial prompts 학습 여부에 따른 영향을 조사했다.

■ safety RM 및 helpfulness RM을 사용하여 test set에서 responses에 대한 점수를 매겼다. Fig 14는 safety test set에서 safety RM의 score distribution 변화와 helpfulness test set에서 helpfulness RM의 score distribution 변화를 나타낸 것이다.

■ Fig 14 left는 \( y = x \)를 기준으로 RLHF를 통한 safety tuning 전/후의 reward score의 변화를 나타낸 것이다. \( y = x \) 기준 왼쪽 상단 모서리를 보면, safety tuning 후 더 높은 점수에 reward scores이 분포하는 것을 볼 수 있다. 즉, RLHF를 통한 safety tuning 후 모델의 safety가 향상된 것이다.

■ Fig 14 right의 \( x \) 축과 \( y \) 축은 각각 safety RLHF를 진행했을 때 얻은 helpfulness RM score와 safety RM score이다. \( y = x \) 기준으로 데이터가 분포되어 있고, 분포가 변하지 않았음을 확인할 수 있다.

■ 이는 RLHF를 통한 safety tuning 후에도 helpfulness 능력이 보존됨을 나타낸다. 즉, RLHF를 통해 추가적인 safety 학습(즉, safety tuning)을 하더라도 helpfulness에 어떤 영향도 미치지 않는다는 것을 의미한다.

Impact of Safety Data Scaling

■ safety training data를 추가했을 때 모델 성능, 특히 helpfulness에 어떤 영향을 미치는지 자세히 확인하기 위해, RLHF 단계에서 사용되는 safety data의 양을 조절하여 safety data scaling 효과를 확인하는 실험을 수행한다.

■ 구체적으로, helpfulness training data의 양은 변경하지 않고(~0.9M samples), 모델 튜닝에 사용되는 safety data의 양을 0%에서 100% (~0.1M samples)까지 점진적으로 늘려 safety data scaling trend를 확인한다.

■ 구체적인 training data mix recipe의 경우, 섹션 3.1에 설명된 절차를 따랐으며, Llama 2 pretrained model을 2 epochs 동안 fine-tuning하였다.

■ 이렇게 하여 전체 safety data의 0%, 1%, 10%, 25%, 50%, 100%로 학습된 6가지 모델을 얻은 다음, 섹션 3.2.2에 설명된 safety 및 helpfulness reward model들을 사용하여 이 모델들을 평가한다.
- 6가지 모델들에 대해 safety 및 helpfulness reward model들을 사용하여 각각 Meta Safety 및 Helpful test set의 프롬프트에 해당하는 모델의 outputs에 대한 점수를 매긴다.

■ Fig 15 left에서 볼 수 있듯이, safety data의 비율을 늘리면 risky하고 adversarial한 prompts을 처리하는 모델의 성능이 극적으로 향상되면서, helpfulness 점수는 일정하게 유지되는 것을 볼 수 있다.

■ 그리고 Fig 15 right를 보면, safety data의 비율을 늘릴수록 safety가 낮은 생성물의 분포가 사라지고, safety가 높은 결과들의 분포가 높아지는 것을 볼 수 있다.

Measure of False Refusal

■ safety tuning을 했을 때 전반적인 helpfulness 저하는 보이지 않지만, 모델이 더 보수적인 방식으로 답변하는 것을 관찰했다고 한다.

■ 이에 모델이 정상적인 프롬프트에 대해서 거부(멀쩡한 질문도 위험하하다고 착각해서 대답 거부)하는 빈도를 측정하기 위해 'false refusal'를 측정 지표로 도입하여 사용한다.

■ false refusal은 모델이 사용자의 정상적인 프롬프트를 관련 없는 안전상의 우려로 잘못 거부하는 것으로 정의된다. 단, 사용자의 질문이 모델의 능력을 초과해서 답변을 거부하는 경우는 false refusal에 포함되지 않는다.

■ 이를 위해 model responses에서 refusal를 감지하는 classifier를 학습시키고, 이를 1) boundary testing 목적의 210개 샘플로 구성된 borderline test set에 적용시켰다.
- borderline dataset은 프롬프트가 adversarial한 것처럼 보이지만(예: 민감한 단어 포함, 마약(crack)), 실제로는 별로 위험하거나 민감하지 않은(예: Christmas Crack(과자 이름) 레시피) 것들로 구성되어 있다.

■ 모델 튜닝에 더 많은 safety data가 섞이면, 두 데이터셋 모두에서 false refusal 비율이 증가하지만, helpfulness dataset에서는 safety data를 100% 사용하더라도 False Refusal가 없는 수준(약 0.05%)이다.

■ 그러나 borderline set에서는 false refusal이 훨씬 커지는데, 저자들은 모델이 프롬프트(즉, context)가 안전한지 여부보다는 특정 단어(예: bomb, crack)에 과도하게 반응하기 때문임을 확인하였다.

4.2.4 Context Distillation for Safety

■ 저자들은 safety preprompt(예: "You are a safe and responsible assistant")를 앞에 붙이는 방식으로 context distillation을 적용하여 모델의 safety 기능을 효율적으로 향상시킬 수 있음을 관찰하였다.

■ 저자들이 사용한 방법은, adversarial prompt 앞에 safety preprompt를 붙여 safer response를 생성하게 한 다음, 이번에는 preprompt를 제거한 상태에서 (adversarial prompt, safer response) 쌍으로 모델을 다시 학습시키는 것으로, 결과적으로 모델은 safety preprompt 없이도 안전하게 대답하는 법을 학습하게 된다.

■ supervised safety fine-tuning과 마찬가지로, 이러한 safety context distillation은 model responses의 safety 향상에 도움이 된다.

■ 템플릿을 통해 자동 생성된 safety preprompt를 사용했으며, 저자들은 모델 답변에 긍정적인 특성이 반영되도록 "responsible", "respectful", "wise"와 같은 형용사들을 사용하였다. (Appendix Table 39)

Context Distillation with Answer Templates

■ 프롬프트 수집 단계에서 annotators에게 risk categories을 따라 프롬프트에 라벨을 붙이도록 했다. 이를 통해 각 risk categories에 따라 모델에게 adversarial prompts을 어떻게 처리해야 하는지에 대한 risk별 맞춤 답변 템플릿을 제공할 수 있다.

■ Fig 16 (a)를 보면, 일반적인 preprompt보다 각 risk categories에 맞는 구체적인 답변 템플릿을 사용한 경우 safety score가 훨씬 더 많이 오른 것을 볼 수 있다.

Rejecting Context Distillation Errors with the Safety Reward Model

■ helpful한 프롬프트에 safety context distillation을 수행하면 모델 성능이 저하되고 더 많은 false refusal들로 이어졌다고 한다.

■ 그래서 adversarial prompts에 대해서만 safety context distillation을 수행했지만, adversarial prompts에서도 context distillation이 때때로 응답의 품질을 저하시키는 것을 발견했다고 한다.

■ 이런 문제를 해결하기 위해 저자들은 safety RM을 필터로 사용하여, safety context distillation을 사용할지 여부를 결정했다.

■ 구체적으로 context distillation을 적용한 답변이 원래 답변보다 reward model score가 높은 경우, context distillation이 적용된 output을 그대로 사용한다.

■ 이렇게 했을 때, 모델이 취약한 프롬프트만 골라서 취약한 부분은 보완하되, 잘하는 부분의 성능 저하는 방지할 수 있었다고 한다.

4.3 Safety Evaluation of Llama 2-Chat

Safety Human Evaluation

■ 섹션 4.2.1의 safety categories에 따라 human evaluation을 위해 약 2,000개의 adversarial prompts을 수집하였다. 이 중 1,351개는 single-turn이고 623개는 multi-turn이다.
- evaluation prompts과 examples의 예는 Appendix A.4.6

■ 그런 다음, 평가자에게 다음 정의에 따라 5점 리커드 척도로 모델의 safety violation 여부를 판단하도록 하였다.

■ 여기서 1 또는 2를 'violation'으로 간주하고 violation percentage를 평가 지표로 사용하며, 평균 점수를 보조 지표로 사용한다.

■ 각 example에 대해 세 명의 annotators가 annotation을 달고 majority voting을 통해 모델 response의 violation 여부를 결정한다.

■ Fig 17에서 다양한 LLM의 violation percentage와 safety rating을 확인할 수 있다.

■ Llama 2-Chat은 모델 크기 전반에 걸쳐 비슷하거나 더 낮은 violation percentage를 보이며, ChatGPT와 Falcon이 그 뒤를 따른다.

■ 저자들이 직접 분석한 결과, Falcon의 response는 일반적으로 짧아서(1~2 문장) 안전하지 않은 콘텐츠를 생성할 가능성이 낮음과 동시에 덜 유용하다고 판단하였다.

■ 그리고 Falcon의 response에는 rating=3이 많이 포함되어 있었다고 한다. 결과적으로 Fig 17 (b)에서 볼 수 있듯이, Falcon의 average rating은 violation percentage가 비슷(3.88 vs 4.45)해 보임에도 불구하고 Llama 2-Chat 34B보다 훨씬 낮다.

■ Fig 18은 single-turn 및 multi-turn에서의 violation percentage를 나타낸 것으로, 모델 전반에 걸쳐 multi-turn이 안전하지 않은 response를 유발하기 더 쉽다는 것을 알 수 있다.

■ 그럼에도 Llama 2-Chat은 다른 베이스라인과 비교했을 때 잘 수행되는 편임을 확인할 수 있다.

■ Fig 19는 다양한 LLM의 카테고리별 safety violation percentage를 나타낸 것이다.

■ 다른 두 카테고리의 경우 Llama 2-Chat은 모델 크기에 관계없이 일관되게 비슷하거나 더 낮은 violation percentage를 달성하였다.

■ Llama 2-Chat은 unqualified advice 카테고리에서 다른 모델이 비해 낮긴 하나, 다른 카테고리와 비교했을 때, 상대적으로 더 많은 violation을 보인다.

■ 이는 모델이 advice를 할 때, disclaimer(예: "저는 전문가가 아닙니다")를 종종 포함하지 않는 실수를 포함해 다양한 이유 때문이다.

Truthfulness, Toxicity, and Bias

■ Table 14를 보면 fine-tuned된 Llama 2-Chat이 truthfulness(70B의 경우 50.18에서 64.14) 및 toxicity(70B의 경우 24.60에서 0.01)에서 단순히 pretrained된 Llama 2에 비해 큰 개선을 보여준다.

■ toxic generation의 비율은 모든 크기의 Llama 2-Chat에서 사실상 0%로 줄어들며, 이는 모든 비교 모델 중 가장 낮은 toxicity level이다.

5. Discussion

5.1 Learnings and Observations

Beyond Human Supervision

■ reinforcement learning은 학습이 불안정하다고 알려져 있어 다소 모호한 분야로 보였으나, 오히려 비용과 시간 효율성 측면에서 매우 뛰어났으며, 특히 사람과 LLM 간의 소통으로 시너지 효과를 내는 RLHF가 Llama 2 성공의 결정적인 요인이었다고 강조한다.

■ 숙련된 annotator라 할지라도, 각 개인은 상당한 편차를 가지고 있고 있기 때문에 모델의 성능은 annotator의 작문 능력에 의존한다.

■ 그리고 사람은 직접 글을 쓰는 것보다 두 개의 결과물을 비교하고 평가하는 데 훨씬 일관성이 뛰어나다. 그러므로 이 능력을 RLHF에서 사용하면, 모델이 사람의 feedback을 나침반 삼아 사람이 선호하는 이상적인 답변을 생성하도록 만들 수 있다.

■ 이 현상은 Fig 20에서 볼 수 있다. 최악의 답변(reward model의 score가 낮은 답변)이 점진적으로 제거되어 분포가 오른쪽으로 이동하는 것을 볼 수 있다.

■ 이런 결과들을 통해 저자들은 모델의 우수한 성능이 근본적으로 RLHF에 의해 주도된 것이며, 이러한 효과적인 방법론들이 등장하면서 이제는 더 이상 supervision이 gold standard가 아니라고 주장한다.

In-Context Temperature Rescaling

■ 저자들은 RLHF가 적용된 모델에서, 모델이 프롬프트의 성격(즉, context)에 따라 temperature의 영향력을 스스로 재조정(re-scaling)하는 것을 발견했다.

■ Fig 8에서 볼 수 있듯이 temperature는 RLHF의 영향을 받지만, 단 Fig 21과 같이 이러한 변화가 모든 프롬프트에 동일하게 적용되지 않는다는 것이다.

■ 예를 들어, "시를 써라"와 같이 창의성과 관련된 프롬프트의 경우 temperature가 증가함에 따라 다양한 답변을 계속 생성했으며, "?의 수도는 어디인가"와 같이 사실적 정보에 기반한 프롬프트의 경우 temperature와 상관없이 일관되게 정해진 답변을 생성했다고 한다.

Llama 2-Chat Temporal Perception

■ 모델이 최소한의 데이터(시간 순서가 섞인 상태)만으로도 knowledge를 시간 순서대로 조직화하는 능력을 갖추고 있음을 확인했다.

■ Llama 2-Chat에 시간 개념을 학습시키기 위해, 특정 날짜와 관련된 1,000개의 SFT examples을 수집하여 사용하였다. examples에는 "버락 오바마는 얼마나 오래전에 대통령이 되었나?"와 같은 질문들이 포함되어 있다.

■ 이런 example에는 두 가지 metadata가 포함되어 있다. 질문 시점과 사건 발생 시점이다.
- "버락 오바마는 얼마나 오래전에 대통령이 되었나?"에서
- 질문 시점: "오늘"이 언제인지에 따라 답변이 달라진다.
- 사건 발생 시점: 질문이 성립하기 위한 기준 시점이다.

■ Fig 22와 같은 결과는 데이터가 시간 순서를 고려하지 않고 무작위로 섞여 있는 상태에서, 오로지 next token을 예측하는 학습만 진행했음에도 불구하고 LLM이 훨씬 더 깊은 수준에서 시간의 개념을 내재화하고 있음을 시사한다.

Tool Use Emergence

■ tools을 쓰는 법을 가르치지 않았음에도(즉, zero-shot), 모델의 tool 사용이 자발적으로 발현되었다고 한다. (Fig 23)

■ Table 15의 결과는, 모델이 계산기에 접근할 수 있게 설정했을 때의 결과이다.

■ 이러한 결과는, 모델이 tools을 효과적으로 활용하도록 학습시키거나, 이를 위해 거대한 데이터셋이 필요하지 않을 수도 있음을 시사한다.

5.2 Limitations and Ethical Considerations

■ Llama 2-Chat도 사전학습 종료 시점 이후의 정보를 모르는 knowledge update cessation, hallucination, unqualified advice와 같은 non-factual generation 등 다른 LLMs에서도 잘 알려진 한계가 존재한다.

■ 그리고 주로 영어 데이터에 집중적으로 학습되었기 때문에, 비영어권 언어에 대한 숙련도는 제한적이다. (Table 10)

■ 다른 LLM과 마찬가지로 Llama 2는 공개적으로 사용 가능한 온라인 데이터셋에 대해 학습되었기 때문에, 유해하거나 공격적이거나 편향된 콘텐츠를 생성할 수 있다.

■ 저자들은 fine-tuning을 통해 이를 완화하려고 시도했지만, 사용가능한 데이터셋을 사용할 수 없었던 비영어권 언어에서는 여전히 문제가 잔존할 수 있다.

■ safety와 helpfulness 사이의 합리적인 균형을 맞추려고 했지만, 어떤 경우에는 safety tuning이 너무 과도하게 적용되어, 사용자의 특정 요청을 거절하거나 너무 많은 safety details을 응답하는 현상이 있다.

'자연어처리 > LM' 카테고리의 다른 글

Textbooks Are All You Need II: phi-1.5 technical report (0)	2025.12.17
Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (0)	2025.12.16
Llama 2: Open Foundation and Fine-Tuned Chat Models (1) (0)	2025.12.13
LLaMA: Open and Efficient Foundation Language Models (0)	2025.12.05
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (0)	2025.11.18

Hyun_Jae

Llama 2: Open Foundation and Fine-Tuned Chat Models (2)

4. Safety

4.1 Safety in Pretraining

Demographic Representation: Pronouns

Demographic Representation: Identities

Data Toxicity

Language Identification

Safety Benchmarks for Pretrained Models

4.2 Safety Fine-Tuning

4.2.1 Safety Categories and Annotation Guidelines

4.2.2 Safety Supervised Fine-Tuning

4.2.3 Safety RLHF

Better Long-Tail Safety Robustness without Hurting Helpfulness

Impact of Safety Data Scaling

Measure of False Refusal

4.2.4 Context Distillation for Safety

Context Distillation with Answer Templates

Rejecting Context Distillation Errors with the Safety Reward Model

4.3 Safety Evaluation of Llama 2-Chat

Safety Human Evaluation

Truthfulness, Toxicity, and Bias

5. Discussion

5.1 Learnings and Observations

Beyond Human Supervision

In-Context Temperature Rescaling

Llama 2-Chat Temporal Perception

Tool Use Emergence

5.2 Limitations and Ethical Considerations

'자연어처리 > LM' 카테고리의 다른 글

티스토리툴바

Llama 2: Open Foundation and Fine-Tuned Chat Models (2)

4. Safety

4.1 Safety in Pretraining

Demographic Representation: Pronouns

Demographic Representation: Identities

Data Toxicity

Language Identification

Safety Benchmarks for Pretrained Models

4.2 Safety Fine-Tuning

4.2.1 Safety Categories and Annotation Guidelines

4.2.2 Safety Supervised Fine-Tuning

4.2.3 Safety RLHF

Better Long-Tail Safety Robustness without Hurting Helpfulness

Impact of Safety Data Scaling

Measure of False Refusal

4.2.4 Context Distillation for Safety

Context Distillation with Answer Templates

Rejecting Context Distillation Errors with the Safety Reward Model

4.3 Safety Evaluation of Llama 2-Chat

Safety Human Evaluation

Truthfulness, Toxicity, and Bias

5. Discussion

5.1 Learnings and Observations

Beyond Human Supervision

In-Context Temperature Rescaling

Llama 2-Chat Temporal Perception

Tool Use Emergence

5.2 Limitations and Ethical Considerations

'자연어처리 > LM' 카테고리의 다른 글

'자연어처리/LM' Related Articles

티스토리툴바