4. Safety
4.1 Safety in Pretraining
■ pretraining data에 무엇이 있는지 확인하는 것은 투명성을 높이고 잠재적인 편향과 같은 문제의 근본 원인을 파악할 수 있다.
■ 이 섹션에서는 pretraining data에 있는 distributions of languages, demographic representations 및 toxicity를 분석한다.

Demographic Representation: Pronouns
■ model generation의 편향은 training data 자체에 있는 편향으로 인해 발생할 수 있다.
■ 예를 들어, 대규모 텍스트 말뭉치에서 "사람"을 나타내는 단어가 "여성"을 나타내는 단어보다 "남성"을 나타내는 단어와 더 유사한 맥락에서 사용되는 경우가 많다는 것을 보여준 연구와, 과소대표된 인구 통계 그룹을 나타내는 데이터에 대해 모델이 어떻게 학습하는지에 따라 모델 성능이 크게 달라질 수 있음을 보여준 연구가 있다.
■ Table 9 (a)는 Llama 2의 English-language training corpus 내에서 가장 빈번하게 등장하는 영어 대명사의 빈도를 나타낸 것으로, He에 대한 대명사가 She 대명사에 비해 더 빈번하게 등장하는 것을 볼 수 있다.
■ 이는 모델이 pretraining 중에 She 대명사를 언급하는 문맥에 대해 덜 학습되고 있으며, 결과적으로 She 대명사보다 He 대명사를 더 높은 비율로 생성할 가능성이 있다.
Demographic Representation: Identities
■ Table 9 (b)는 이전 연구의 인구 통계학적 정체성 용어 사용 비율을 사용하여, pretraining data에 대해 각 용어에 대한 빈도를 계산한 결과이다. 종교, 성별 및 성, 국적, 인종 및 민족, 성적 지향 5개로 그룹화하고 각 범주의 상위 5개 용어를 볼 수 있다.
■ 저자들은 상위 5개 용어에서 "straight", "white", "black"과 같은 몇 가지 용어를 제거했는데, 이러한 용어가 인구 통계학적을 의미하는 용도 이외의 용도(예: 기본 색상 용어)로 빈번하게 쓰이고 있기 때문이다.
- 즉, 정확한 측정을 위해 색상이나 방향 등 다른 의미로도 쓰일 수 있는 "straight", "white", "black"과 같은 중의적 용어는 제외한 것
■ 국적, 인종 및 민족, 종교의 경우 서구권 문화에 편향되어 있음을 확인할 수 있다.
- 국적에서는 "American"이 69.4%를 차지하며 압도적인 비중을 차지하고,
- 인종 및 민족에서는 "European"이 다른 인종/민족보다 더 빈번하게 등장하며,
- 종교에서는 "Christian"이 가장 많이 언급되었으며, "Catholic"과 "Jewish"가 그 뒤를 따르는 것을 볼 수 있다.
■ 성적 지향의 경우 위와 같은 정제 과정을 거친 결과, 상위 5개 용어는 모두 LGBTQ+와 관련이 있는 것들이며 She 대명사보다 "females"이 더 많이 등장한 것을 볼 수 있다.
Data Toxicity

■ ToxiGen dataset에서 파인튜닝된 HateBERT classifier를 사용하여 pretraining corpus의 English-language 부분에서 toxicity의 prevalence를 측정하였다.
■ Fig 13은 전체 corpus의 10% random sample에서의 toxicity score를 나타낸 것으로, 평가된 데이터 중에서 0.5 이상의 likelihood를 가지는 데이터 비중이 0.2%로 pretraining data에 아주 소량의 toxicity가 있다.
Language Identification

■ pretraining data의 언어 구성을 파악하기 위해 fastText를 사용했으며 (임곗값 0.5 사용), 그 결과는 Table 10에서 볼 수 있다.
■ 이러한 데이터 구성은 Llama 2가 본질적으로 영어 중심으로 학습되었음을 의미한다. 그러므로 다른 언어를 처리하는 데에는 적합하지 않을 수 있다.
Safety Benchmarks for Pretrained Models
■ LM safety의 세 가지 주요 차원(Truthfulness, Toxicity, Bias)과 관련된 세 가지 자동 benchmarks에서 Llama 2의 safety capabilities를 평가한다.
- (1) Truthfulness: TruthfulQA를 사용하여 모델이 factuality 및 common sense에 입각한 신뢰할 수 있는 outputs을 얼마나 잘 생성할 수 있는지 측정한다.
- (2) Toxicity: ToxiGen을 사용하여 다양한 그룹에 걸쳐 toxic language 및 hate speech 생성량을 측정한다.
- (3) Bias: BOLD를 사용하여 인구 통계학적 속성에 따라 모델 생성의 sentiment가 어떻게 달라질 수 있는지 확인하다.

■ 이 실험에선 디코딩을 위해 temperature 0.1로 설정하고 top- \( p \)를 0.9로 설정한 nucleus sampling을 사용하여, Llama 2의 성능을 Llama 1, Falcon, MPT와 비교한다.
■ Table 11은 그 결과로, TruthfulQA의 경우 진실하면서 동시에 정보를 제공하는 결과의 비율 (높을수록 좋음), ToxiGen의 경우 측정지표에 의해 toxic로 간주되는 결과의 비율 (낮을수록 좋음)을 제시한 것이다. (details Appendix A.4.7)
■ Llama 2-7B는 Llama 1-7B에 비해 truthfulness and informativeness가 증가하고 toxicity가 감소한 것을 볼 수 있다.
■ 그리고 Llama 2-13B 및 70B에서는 toxicity가 증가하는 것을 볼 수 있는데, 이는 더 큰 pretraining data 또는 다른 dataset 혼합으로 인한 것일 수 있다.
■ 저자들은 Llama 2가 Toxicity에서 타 모델 대비 우위를 보이지 못한 이유는, pretraining data에서 유해한 내용을 무작정 필터링하지 않았으며, 이는 다음과 같은 이유로 인해 의도된 선택이라고 밝힌다.
■ 첫 번째는 downstream task에서의 성능인데, hate speech detection과 같은 task를 잘 수행하라면, 모델이 역설적으로 hate speech가 무엇인지 알고 있어야 하며, 이에 대한 데이터를 과도하게 정제하면 이러한 능력이 상실될 수 있다는 것이다.
■ 그리고 필터링 과정에서 특정 인구 집단의 언어나 문화가 실수로 배제되는 위험을 방지할 수 있다.
■ 이렇게 less aggressively filtered된 pretraining data에서 학습된 모델이, 이후 safety alignment 단계에서 적은 수의 examples만으로도 safety 기준을 달성할 수 있었다고 한다.
- 나쁜 것을 모델에게 가르칠 때(즉, alignment), 이미 나쁜 것을 알고 있는 모델이 아예 모르는 모델보다 더 적은 데이터로 빨리 배울 수 있음을 의미한다.
4.2 Safety Fine-Tuning
■ 이 섹션에서는 safety categories, annotation guidelines, 그리고 safety risks을 완화하기 위해 사용하는 techniques을 포함한 Llama 2의 safety fine-tuning approach에 대해 설명한다.
■ 구체적으로, safety fine-tuning에 다음과 같은 techniques을 사용한다.
- (1) Supervised Safety Fine-Tuning
- adversarial prompts과 safe demonstrations을 수집하여, 이를 supervised fine-tuning process (섹션 3.1)에 포함시킨다.
- 이는 RLHF 단계로 넘어가기 전에, 모델이 safety guidelines을 따르도록 학습시켜 high-quality human preference data annotation을 위한 토대를 만든다.
- (2) Safety RLHF
- 그 후, 섹션 3.2.2에 설명된 RLHF 파이프라인에 safety를 통합한다: 더 까다로운 adversarial prompts 수집하여, rejection sampling 스타일의 fine-tuning 및 PPO optimization을 통해 safety-specific reward model을 학습시킨다.
- (3) Safety Context Distillation
- 마지막으로, context distillation을 사용하여 RLHF 파이프라인을 정제한다: 프롬프트 앞에 safety preprompt (예: "You are a safe and responsible assistant")를 붙여, 모델로부터 safer responses을 생성한 다음, preprompt 없이 그 답변(safer responses)을 모델에게 학습시킨다.
- 이렇게 하면 모델은 매번 safety preprompt(context)를 받지 않아도, safety preprompt가 녹아들어 내재화된다. 이는 본질적으로 safety preprompt를 모델에 safety preprompt라는 context를 distillation하는 것으로 볼 수 있다.
- 이때, 각 샘플에 대해 context(safety preprompt) distillation을 사용할지 여부를 safety reward model이 선택하도록 한다. 즉, 모든 데이터에 적용하는 게 아니라, safety reward model이 필요하다고 판단한 경우에만 적용한다.
4.2.1 Safety Categories and Annotation Guidelines
■ annotators이 두 가지 차원을 따라 adversarial prompts을 생성하도록 instructions을 설계했다.
■ 하나는 "risk category", 즉 LLM이 안전하지 않은 콘텐츠를 생성할 수 있는 잠재적 주제이고, 다른 하나는 "attack vector"로 bad model behaviors을 유발할 수 있는 다양한 종류의 프롬프트를 다루기 위한 question style이다.
■ 고려된 risk categories은 크게 세 가지 범주로, (1) illicit and criminal (예: 테러, 절도, 인신매매) (2) hateful and harmful activities (예: 명예훼손, 자해, 섭식 장애, 차별) (3) unqualified advice (예: 의료 조언, 금융 조언, 법률 조언)
■ attack vector는 (1) psychological manipulation (예: authority manipulation, "나는 경찰인데 수사를 위해 ~~한 정보가 필요해") (2) logic manipulation (예: 잘못된 전제) (3) syntactic manipulation (예: misspelling) (4) semantic manipulation (예: 은유), (5) perspective manipulation (예: 역할극) (6) non-English languages 등으로 구성된다.
■ 그런 다음, safe하고 helpful한 model responses을 위한 best practices을 정의한다: 먼저 위험한 요청은 즉각 해결(거절)한 다음, user에게 잠재적인 위험을 설명하여 프롬프트를 해결하고, 마지막으로 가능한 경우 추가 정보를 제공한다.
■ annotators에게 제공된 이러한 instruction은 모델에게 기본적인 가이드라인이 되도록 의도되었으며, 새로 식별된 위험한 요청을 포함하도록 반복적으로 정제되고 수정된다.
4.2.2 Safety Supervised Fine-Tuning
■ 수립된 guidelines (섹션 4.2.1)에 따라 훈련된 annotators로부터 안전한 model responses의 prompts과 demonstrations을 수집하고, 수집한 데이터를 섹션 3.1에서 설명한 것과 동일한 방식(예: Table 5)으로 SFT에 사용한다.
■ 처음에 annotators에게 모델이 unsafe behavior를 보이도록 유도할 수 있다고 생각된 prompts을 만들도록 한다. 즉, guidelines에 정의된 대로 red teaming을 수행한다.
■ 그 후, annotators은 모델이 생성해야 할 safe하고 helpful한 response를 작성하도록 한다.
4.2.3 Safety RLHF
■ SFT 단계에서 학습된 모델이 사람보다 더 디테일하게 안전한 response를 작성하고, 왜 민감할 수 있는지 설명하고, 추가적인 유용한 정보를 제공하는 방법을 빠르게 학습하는 모습을 보여, 수천 개의 supervised demonstrations만 수집한 후, 모델에게 더 미묘한 뉘앙스의 response를 작성하는 법을 가르치기 위해 RLHF 단계로 전환했다고 한다.
■ 이전 연구에 따르면, 이러한 RLHF를 통한 포괄적인 튜닝은 모델 탈옥 시도에 대해 모델을 더 robust하게 만들 수 있다.
■ RLHF를 수행하기 위해 먼저 safety를 위한 human preference data를 수집한다: annotators은 unsafe behavior를 유발할 수 있다고 생각되는 prompts을 작성한 다음, prompts에 대해 여러 model responses을 비교하여 일련의 guidelines에 따라 가장 safest한 response를 선택한다.
■ 그런 다음, human preference data를 사용하여 safety reward model (섹션 3.2.2)을 학습시키고, RLHF 단계에서 adversarial prompts을 재사용한다.
Better Long-Tail Safety Robustness without Hurting Helpfulness

■ 저자들은 safety 문제가 주로 발생 빈도는 낮지만 매우 구체적인 소수의 케이스, 즉 롱테일에서 온다는 점에 주목했고, RLHF 단계에서 adversarial prompts 학습 여부에 따른 영향을 조사했다.
■ safety RM 및 helpfulness RM을 사용하여 test set에서 responses에 대한 점수를 매겼다. Fig 14는 safety test set에서 safety RM의 score distribution 변화와 helpfulness test set에서 helpfulness RM의 score distribution 변화를 나타낸 것이다.
■ Fig 14 left는 \( y = x \)를 기준으로 RLHF를 통한 safety tuning 전/후의 reward score의 변화를 나타낸 것이다. \( y = x \) 기준 왼쪽 상단 모서리를 보면, safety tuning 후 더 높은 점수에 reward scores이 분포하는 것을 볼 수 있다. 즉, RLHF를 통한 safety tuning 후 모델의 safety가 향상된 것이다.
■ Fig 14 right의 \( x \) 축과 \( y \) 축은 각각 safety RLHF를 진행했을 때 얻은 helpfulness RM score와 safety RM score이다. \( y = x \) 기준으로 데이터가 분포되어 있고, 분포가 변하지 않았음을 확인할 수 있다.
■ 이는 RLHF를 통한 safety tuning 후에도 helpfulness 능력이 보존됨을 나타낸다. 즉, RLHF를 통해 추가적인 safety 학습(즉, safety tuning)을 하더라도 helpfulness에 어떤 영향도 미치지 않는다는 것을 의미한다.
Impact of Safety Data Scaling

■ safety training data를 추가했을 때 모델 성능, 특히 helpfulness에 어떤 영향을 미치는지 자세히 확인하기 위해, RLHF 단계에서 사용되는 safety data의 양을 조절하여 safety data scaling 효과를 확인하는 실험을 수행한다.
■ 구체적으로, helpfulness training data의 양은 변경하지 않고(~0.9M samples), 모델 튜닝에 사용되는 safety data의 양을 0%에서 100% (~0.1M samples)까지 점진적으로 늘려 safety data scaling trend를 확인한다.
■ 구체적인 training data mix recipe의 경우, 섹션 3.1에 설명된 절차를 따랐으며, Llama 2 pretrained model을 2 epochs 동안 fine-tuning하였다.
■ 이렇게 하여 전체 safety data의 0%, 1%, 10%, 25%, 50%, 100%로 학습된 6가지 모델을 얻은 다음, 섹션 3.2.2에 설명된 safety 및 helpfulness reward model들을 사용하여 이 모델들을 평가한다.
- 6가지 모델들에 대해 safety 및 helpfulness reward model들을 사용하여 각각 Meta Safety 및 Helpful test set의 프롬프트에 해당하는 모델의 outputs에 대한 점수를 매긴다.
■ Fig 15 left에서 볼 수 있듯이, safety data의 비율을 늘리면 risky하고 adversarial한 prompts을 처리하는 모델의 성능이 극적으로 향상되면서, helpfulness 점수는 일정하게 유지되는 것을 볼 수 있다.
■ 그리고 Fig 15 right를 보면, safety data의 비율을 늘릴수록 safety가 낮은 생성물의 분포가 사라지고, safety가 높은 결과들의 분포가 높아지는 것을 볼 수 있다.
Measure of False Refusal

■ safety tuning을 했을 때 전반적인 helpfulness 저하는 보이지 않지만, 모델이 더 보수적인 방식으로 답변하는 것을 관찰했다고 한다.
■ 이에 모델이 정상적인 프롬프트에 대해서 거부(멀쩡한 질문도 위험하하다고 착각해서 대답 거부)하는 빈도를 측정하기 위해 'false refusal'를 측정 지표로 도입하여 사용한다.
■ false refusal은 모델이 사용자의 정상적인 프롬프트를 관련 없는 안전상의 우려로 잘못 거부하는 것으로 정의된다. 단, 사용자의 질문이 모델의 능력을 초과해서 답변을 거부하는 경우는 false refusal에 포함되지 않는다.
■ 이를 위해 model responses에서 refusal를 감지하는 classifier를 학습시키고, 이를 1) boundary testing 목적의 210개 샘플로 구성된 borderline test set에 적용시켰다.
- borderline dataset은 프롬프트가 adversarial한 것처럼 보이지만(예: 민감한 단어 포함, 마약(crack)), 실제로는 별로 위험하거나 민감하지 않은(예: Christmas Crack(과자 이름) 레시피) 것들로 구성되어 있다.
■ 모델 튜닝에 더 많은 safety data가 섞이면, 두 데이터셋 모두에서 false refusal 비율이 증가하지만, helpfulness dataset에서는 safety data를 100% 사용하더라도 False Refusal가 없는 수준(약 0.05%)이다.
■ 그러나 borderline set에서는 false refusal이 훨씬 커지는데, 저자들은 모델이 프롬프트(즉, context)가 안전한지 여부보다는 특정 단어(예: bomb, crack)에 과도하게 반응하기 때문임을 확인하였다.
4.2.4 Context Distillation for Safety
■ 저자들은 safety preprompt(예: "You are a safe and responsible assistant")를 앞에 붙이는 방식으로 context distillation을 적용하여 모델의 safety 기능을 효율적으로 향상시킬 수 있음을 관찰하였다.
■ 저자들이 사용한 방법은, adversarial prompt 앞에 safety preprompt를 붙여 safer response를 생성하게 한 다음, 이번에는 preprompt를 제거한 상태에서 (adversarial prompt, safer response) 쌍으로 모델을 다시 학습시키는 것으로, 결과적으로 모델은 safety preprompt 없이도 안전하게 대답하는 법을 학습하게 된다.
■ supervised safety fine-tuning과 마찬가지로, 이러한 safety context distillation은 model responses의 safety 향상에 도움이 된다.
■ 템플릿을 통해 자동 생성된 safety preprompt를 사용했으며, 저자들은 모델 답변에 긍정적인 특성이 반영되도록 "responsible", "respectful", "wise"와 같은 형용사들을 사용하였다. (Appendix Table 39)
Context Distillation with Answer Templates

■ 프롬프트 수집 단계에서 annotators에게 risk categories을 따라 프롬프트에 라벨을 붙이도록 했다. 이를 통해 각 risk categories에 따라 모델에게 adversarial prompts을 어떻게 처리해야 하는지에 대한 risk별 맞춤 답변 템플릿을 제공할 수 있다.
■ Fig 16 (a)를 보면, 일반적인 preprompt보다 각 risk categories에 맞는 구체적인 답변 템플릿을 사용한 경우 safety score가 훨씬 더 많이 오른 것을 볼 수 있다.
Rejecting Context Distillation Errors with the Safety Reward Model
■ helpful한 프롬프트에 safety context distillation을 수행하면 모델 성능이 저하되고 더 많은 false refusal들로 이어졌다고 한다.
■ 그래서 adversarial prompts에 대해서만 safety context distillation을 수행했지만, adversarial prompts에서도 context distillation이 때때로 응답의 품질을 저하시키는 것을 발견했다고 한다.
■ 이런 문제를 해결하기 위해 저자들은 safety RM을 필터로 사용하여, safety context distillation을 사용할지 여부를 결정했다.
■ 구체적으로 context distillation을 적용한 답변이 원래 답변보다 reward model score가 높은 경우, context distillation이 적용된 output을 그대로 사용한다.
■ 이렇게 했을 때, 모델이 취약한 프롬프트만 골라서 취약한 부분은 보완하되, 잘하는 부분의 성능 저하는 방지할 수 있었다고 한다.
4.3 Safety Evaluation of Llama 2-Chat
Safety Human Evaluation
■ 섹션 4.2.1의 safety categories에 따라 human evaluation을 위해 약 2,000개의 adversarial prompts을 수집하였다. 이 중 1,351개는 single-turn이고 623개는 multi-turn이다.
- evaluation prompts과 examples의 예는 Appendix A.4.6
■ 그런 다음, 평가자에게 다음 정의에 따라 5점 리커드 척도로 모델의 safety violation 여부를 판단하도록 하였다.

■ 여기서 1 또는 2를 'violation'으로 간주하고 violation percentage를 평가 지표로 사용하며, 평균 점수를 보조 지표로 사용한다.
■ 각 example에 대해 세 명의 annotators가 annotation을 달고 majority voting을 통해 모델 response의 violation 여부를 결정한다.

■ Fig 17에서 다양한 LLM의 violation percentage와 safety rating을 확인할 수 있다.
■ Llama 2-Chat은 모델 크기 전반에 걸쳐 비슷하거나 더 낮은 violation percentage를 보이며, ChatGPT와 Falcon이 그 뒤를 따른다.
■ 저자들이 직접 분석한 결과, Falcon의 response는 일반적으로 짧아서(1~2 문장) 안전하지 않은 콘텐츠를 생성할 가능성이 낮음과 동시에 덜 유용하다고 판단하였다.
■ 그리고 Falcon의 response에는 rating=3이 많이 포함되어 있었다고 한다. 결과적으로 Fig 17 (b)에서 볼 수 있듯이, Falcon의 average rating은 violation percentage가 비슷(3.88 vs 4.45)해 보임에도 불구하고 Llama 2-Chat 34B보다 훨씬 낮다.

■ Fig 18은 single-turn 및 multi-turn에서의 violation percentage를 나타낸 것으로, 모델 전반에 걸쳐 multi-turn이 안전하지 않은 response를 유발하기 더 쉽다는 것을 알 수 있다.
■ 그럼에도 Llama 2-Chat은 다른 베이스라인과 비교했을 때 잘 수행되는 편임을 확인할 수 있다.

■ Fig 19는 다양한 LLM의 카테고리별 safety violation percentage를 나타낸 것이다.
■ 다른 두 카테고리의 경우 Llama 2-Chat은 모델 크기에 관계없이 일관되게 비슷하거나 더 낮은 violation percentage를 달성하였다.
■ Llama 2-Chat은 unqualified advice 카테고리에서 다른 모델이 비해 낮긴 하나, 다른 카테고리와 비교했을 때, 상대적으로 더 많은 violation을 보인다.
■ 이는 모델이 advice를 할 때, disclaimer(예: "저는 전문가가 아닙니다")를 종종 포함하지 않는 실수를 포함해 다양한 이유 때문이다.
Truthfulness, Toxicity, and Bias

■ Table 14를 보면 fine-tuned된 Llama 2-Chat이 truthfulness(70B의 경우 50.18에서 64.14) 및 toxicity(70B의 경우 24.60에서 0.01)에서 단순히 pretrained된 Llama 2에 비해 큰 개선을 보여준다.
■ toxic generation의 비율은 모든 크기의 Llama 2-Chat에서 사실상 0%로 줄어들며, 이는 모든 비교 모델 중 가장 낮은 toxicity level이다.
5. Discussion
5.1 Learnings and Observations
Beyond Human Supervision

■ reinforcement learning은 학습이 불안정하다고 알려져 있어 다소 모호한 분야로 보였으나, 오히려 비용과 시간 효율성 측면에서 매우 뛰어났으며, 특히 사람과 LLM 간의 소통으로 시너지 효과를 내는 RLHF가 Llama 2 성공의 결정적인 요인이었다고 강조한다.
■ 숙련된 annotator라 할지라도, 각 개인은 상당한 편차를 가지고 있고 있기 때문에 모델의 성능은 annotator의 작문 능력에 의존한다.
■ 그리고 사람은 직접 글을 쓰는 것보다 두 개의 결과물을 비교하고 평가하는 데 훨씬 일관성이 뛰어나다. 그러므로 이 능력을 RLHF에서 사용하면, 모델이 사람의 feedback을 나침반 삼아 사람이 선호하는 이상적인 답변을 생성하도록 만들 수 있다.
■ 이 현상은 Fig 20에서 볼 수 있다. 최악의 답변(reward model의 score가 낮은 답변)이 점진적으로 제거되어 분포가 오른쪽으로 이동하는 것을 볼 수 있다.
■ 이런 결과들을 통해 저자들은 모델의 우수한 성능이 근본적으로 RLHF에 의해 주도된 것이며, 이러한 효과적인 방법론들이 등장하면서 이제는 더 이상 supervision이 gold standard가 아니라고 주장한다.
In-Context Temperature Rescaling

■ 저자들은 RLHF가 적용된 모델에서, 모델이 프롬프트의 성격(즉, context)에 따라 temperature의 영향력을 스스로 재조정(re-scaling)하는 것을 발견했다.
■ Fig 8에서 볼 수 있듯이 temperature는 RLHF의 영향을 받지만, 단 Fig 21과 같이 이러한 변화가 모든 프롬프트에 동일하게 적용되지 않는다는 것이다.
■ 예를 들어, "시를 써라"와 같이 창의성과 관련된 프롬프트의 경우 temperature가 증가함에 따라 다양한 답변을 계속 생성했으며, "?의 수도는 어디인가"와 같이 사실적 정보에 기반한 프롬프트의 경우 temperature와 상관없이 일관되게 정해진 답변을 생성했다고 한다.
Llama 2-Chat Temporal Perception

■ 모델이 최소한의 데이터(시간 순서가 섞인 상태)만으로도 knowledge를 시간 순서대로 조직화하는 능력을 갖추고 있음을 확인했다.
■ Llama 2-Chat에 시간 개념을 학습시키기 위해, 특정 날짜와 관련된 1,000개의 SFT examples을 수집하여 사용하였다. examples에는 "버락 오바마는 얼마나 오래전에 대통령이 되었나?"와 같은 질문들이 포함되어 있다.
■ 이런 example에는 두 가지 metadata가 포함되어 있다. 질문 시점과 사건 발생 시점이다.
- "버락 오바마는 얼마나 오래전에 대통령이 되었나?"에서
- 질문 시점: "오늘"이 언제인지에 따라 답변이 달라진다.
- 사건 발생 시점: 질문이 성립하기 위한 기준 시점이다.
■ Fig 22와 같은 결과는 데이터가 시간 순서를 고려하지 않고 무작위로 섞여 있는 상태에서, 오로지 next token을 예측하는 학습만 진행했음에도 불구하고 LLM이 훨씬 더 깊은 수준에서 시간의 개념을 내재화하고 있음을 시사한다.
Tool Use Emergence

■ tools을 쓰는 법을 가르치지 않았음에도(즉, zero-shot), 모델의 tool 사용이 자발적으로 발현되었다고 한다. (Fig 23)
■ Table 15의 결과는, 모델이 계산기에 접근할 수 있게 설정했을 때의 결과이다.

■ 이러한 결과는, 모델이 tools을 효과적으로 활용하도록 학습시키거나, 이를 위해 거대한 데이터셋이 필요하지 않을 수도 있음을 시사한다.
5.2 Limitations and Ethical Considerations
■ Llama 2-Chat도 사전학습 종료 시점 이후의 정보를 모르는 knowledge update cessation, hallucination, unqualified advice와 같은 non-factual generation 등 다른 LLMs에서도 잘 알려진 한계가 존재한다.
■ 그리고 주로 영어 데이터에 집중적으로 학습되었기 때문에, 비영어권 언어에 대한 숙련도는 제한적이다. (Table 10)
■ 다른 LLM과 마찬가지로 Llama 2는 공개적으로 사용 가능한 온라인 데이터셋에 대해 학습되었기 때문에, 유해하거나 공격적이거나 편향된 콘텐츠를 생성할 수 있다.
■ 저자들은 fine-tuning을 통해 이를 완화하려고 시도했지만, 사용가능한 데이터셋을 사용할 수 없었던 비영어권 언어에서는 여전히 문제가 잔존할 수 있다.
■ safety와 helpfulness 사이의 합리적인 균형을 맞추려고 했지만, 어떤 경우에는 safety tuning이 너무 과도하게 적용되어, 사용자의 특정 요청을 거절하거나 너무 많은 safety details을 응답하는 현상이 있다.
'자연어처리 > LM' 카테고리의 다른 글
| Textbooks Are All You Need II: phi-1.5 technical report (0) | 2025.12.17 |
|---|---|
| Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (0) | 2025.12.16 |
| Llama 2: Open Foundation and Fine-Tuned Chat Models (1) (0) | 2025.12.13 |
| LLaMA: Open and Efficient Foundation Language Models (0) | 2025.12.05 |
| BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (0) | 2025.11.18 |