■ LLaMA에서는 오직 공개적으로 사용 가능한 datasets만을 사용하여 SOTA 모델을 학습시키는 것이 가능함을 보여준다.
■ 특히, LLaMA-13B는 대부분의 벤치마크에서 175B GPT-3를 능가하며, LLaMA-65B는 당시 best models이었던 Chinchilla-70B 및 PaLM-540B와도 경쟁력 있는 성능을 달성하였다.
[2302.13971] LLaMA: Open and Efficient Foundation Language Models
LLaMA: Open and Efficient Foundation Language Models
We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, witho
arxiv.org
1. Introduction
■ 대규모 텍스트 말뭉치로 학습된 LLM은 textual instructions이나 few examples만으로 새로운 tasks을 수행할 수 있는 능력을 보여주었다. (GPT-3)
■ 이러한 few-shot 속성은 모델을 충분히 큰 크기로 확장했을 때 처음 나타났으며(OpenAI Scaling laws), 이후 연구들은 이러한 scaling laws 가정하에 모델 크기를 키우는 데 집중했다.
■ 그러나 Google의 Chinchilla에서는 주어진 compute budget 내에서 최고의 성능은 가장 큰 모델이 아니라, 더 많은 데이터로 학습된 더 작은 모델에 의해 달성될 수 있다는 것을 보여주었다.
■ Chinchilla에서 scaling laws의 objective는 training compute budget에 맞춰 dataset과 model size를 확장하는 방법으로 학습 비용에만 최적화된 scaling laws이다.
■ 그러나 실제 서비스 환경에서는 추론 비용이 훨씬 더 중요하다. 즉, Chinchilla에서는 LM을 대규모로 서비스할 때 중요한 "inference" budget을 다루지 않았다.
■ 이러한 맥락에서 모델 성능의 목표 수준이 어느 정도 정해졌을 때, 선호되는 모델은 학습 속도가 가장 빠른 모델이 아니라 추론 속도가 가장 빠른 모델이다.
■ 특정 성능 수준에 도달하기 위해서는 큰 모델을 학습시키는 것이 더 저렴할 수 있지만, 더 오래 학습된 작은 모델이 결과적으로 추론 시에는 비용적으로 더 저렴하다.
■ 추론 시점에서 추론 비용을 줄이는 일반적인 방법은 모델 크기(파라미터 수)를 줄이는 것이다. 그러나 성능은 유지해야 하므로, 저자들은 작은 모델을 Chinchilla가 권장하는 것보다 훨씬 더 오래(더 많은 데이터로) 훈련시키는 전략을 택했다.
- 예를 들어, 7B 모델의 경우 Chinchilla 법칙에 따르면 데이터 양을 늘려도 성능 향상이 멈춰야 하지만, LLaMA 연구진은 1T tokens까지 학습시켜도 성능이 계속 향상됨을 확인했다.
■ 저자들은 일반적으로 사용되는 것보다 더 많은 토큰으로 모델을 학습시켜, 다양한 inference budget 하에서 가능한 최고의 성능을 달성하는 언어 모델 시리즈를 구축하는데 초점을 두었다.
■ 그 결과물이 LLaMA라 불리는 모델 시리즈로, 7B부터 65B까지 다양한 크기를 가지며 당시의 최고 수준 LLM들과 비교해도 경쟁력 있는 성능을 달성하였다.
- LLaMA-13B는 GPT-3보다 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가
■ LLaMA의 한 가지 중요한 특징은, 다른 모델들(예: Chinchilla, PaLM, GPT-3)과 달리, 오직 공개적으로 사용 가능한 데이터만을 사용했다는 점이다.
- 기존의 best LLM들 중에는 비공개 데이터나 저작권 문제가 있는 데이터를 사용하여 이를 재현하거나 검증하기 어려웠다.

■ Fig 1에서 7B와 13B 모델을 보면, 1T 토큰을 넘어서도 training loss가 계속해서 줄어드는 것을 볼 수 있다. 이는 저자들이 주장한 "작은 모델도 데이터를 더 많이 주면 계속 성능이 오른다"는 가설을 뒷받침하는 결과이다. 또한, 모델 크기가 클수록 loss가 더 낮고 더 빠르게 떨어지는 것을 볼 수 있다.
2. Approach
■ LLaMA의 training approach는 GPT-3 및 PaLM에 기술된 methods과 유사하며, Chinchilla의 scaling laws에 영감을 받았다.
■ standard optimizer를 사용하여 대량의 텍스트 데이터로 large transformer를 학습시킨다.
2.1 Pre-training Data

■ LLaMA training에 사용한 training dataset은 Table 1에서 볼 수 있듯이 다양한 도메인을 포괄하는 여러 soruces의 mixture이다.
■ 중요한 점은, 다른 LLM들이 학습에 사용되었던 data sources을 사용하되, 오직 "공개적으로 사용 가능하며 open sourcing과 호환되는 데이터만을 사용한다는 제약"을 두었다는 점이다.
English CommonCrawl [67%]
■ 2017년부터 2020년까지의 5개 CommonCrawl 덤프를 CCNet 파이프라인을 사용하여 전처리한다.
■ 이 전처리 과정에서는 line 수준에서 데이터 중복을 제거하고, fastText linear classifier로 언어 식별을 수행함으로써 비영어권 페이지를 제거하며, n-gram 언어 모델로 저품질의 콘텐츠를 필터링한다.
■ 추가적으로, 저자들은 위키피디아에서 references로 사용된 페이지와 무작위 샘플링된 페이지를 분류하는 linear model을 학습시켜, references로 분류되지 않은 페이지는 제거하였다.
C4 [15%]
■ 저자들은 실험 과정에서 다양한 방식으로 전처리된 CommonCrawl 데이터셋을 사용하는 것이 성능 향상에 도움이 된다는 점을 관찰하였다.
■ 이러한 관찰에 기반하여, 공개적으로 사용 가능한 C4 데이터셋을 LLaMA 학습 데이터에 포함시켰다.
■ C4의 전처리 또한 중복 제거 및 언어 식별 단계를 포함한다. CCNet과의 주요 차이점은 품질 필터링인데, C4는 주로 문장 부호의 존재 여부나 웹페이지 내의 단어 및 문장 수와 같은 휴리스틱에 의존하였다.
Github [4.5%]
■ Google BigQuery에서 이용 가능한 공개 GitHub 데이터셋(단, Apache, BSD, MIT 라이선스로 배포된 프로젝트만)을 사용한다.
■ 추가적으로, 라인 길이나 영숫자 문자의 비율에 기반한 휴리스틱으로 저품질 파일을 필터링하고 정규 표현식을 사용해 헤더와 같은 boilerplate를 제거한 다음, 마지막으로 결과 데이터셋에 대해 파일 수준에서 정확히 일치하는 것끼리 중복 제거하였다.
Wikipedia [4.5%]
■ 2022년 6~8월 기간의 위키피디아 덤프를 사용한다. 여기에는 라틴 또는 키릴 문자를 사용하는 20개 언어가 포함되어 있다.
■ 하이퍼링크, 주석, 기타 서식 상용구를 제거하였다.
Gutenberg and Books3 [4.5%]
■ public domain에 있는 책들을 포함하는 Gutenberg Project와 공개적으로 사용 가능한 데이터셋인 ThePile의 Book3 섹션을 LLaMA 학습 데이터로 사용한다.
■ 내용이 90% 이상 겹치는 책들을 제거하였다.
ArXiv [2.5%]
■ arXiv Latex 파일들을 직접 처리하여 과학 데이터를 데이터셋에 포함시켰다.
■ 이전 연구를 따라, 첫 번째 섹션 이전의 모든 내용과 참고문헌을, 그리고 .tex 파일에서 주석을 제거하고, 논문 간의 일관성을 높이기 위해 사용자가 작성한 정의 및 매크로를 inline-expand하였다.
Stack Exchange [2%]
■ 컴퓨터 과학에서 화학에 이르기까지 다양한 도메인의 고품질 질의응답 데이터를 학습 데이터로 사용하기 위해, 고품질 질의응답 웹사이트인 Stack Exchange의 덤프를 포함시켰다.
■ 가장 큰 28개 웹사이트의 데이터만 유지하고, 텍스트에서 HTML 태그를 제거했으며, 점수 기준으로 답변을 내림차순 정렬하였다.
Tokenizer
■ SentencePiece implementation을 사용하여 byte pair encoding (BPE) 알고리즘으로 데이터를 토큰화한다.
■ 모든 숫자를 개별 자릿수로 분리하고(예: 2025 \( \rightarrow \) 2, 0, 2, 5), 알 수 없는 UTF-8 문자는 바이트 단위로 분해하여 처리하였다.
■ 토큰화 후 전체 training dataset에는 대략 1.4T tokens이 포함되었다.
■ 대부분의 training data에 대해, 각 토큰은 학습 중에 한 번만 사용(1 epoch)되며, 예외적으로 Wikipedia와 Books domains에 대해서는 대략 두 번의 에폭(2 epochs)을 수행하였다.
- 즉, 대부분의 데이터는 모델에 한 번만 학습시키고, Wikipedia와 Books은 두 번 학습시킨 것이다.
2.2 Architecture
■ 트랜스포머 아키텍처를 사용하며, PaLM처럼 구현상의 개선 기법들을 적용한다.
Pre-normalization [GPT3]
■ 학습 안정성을 향상시키기 위해, 트랜스포머 sub-layer의 input을 정규화한다.
■ 정규화에는 RMSNorm을 사용한다.
- RMS Normalization (RMSNorm)은 Layer Normalization의 변형 기법으로, 벡터의 평균과 표준편차를 계산하지 않고, 오직 벡터의 Root Mean Square (RMS)로만 정규화한다.
- 그러므로 LayerNorm보다 계산량을 줄이면서도 성능을 유지하고 더 안정적으로 학습할 수 있다.
- 더 안정적인 이유는 RMSNorm은 평균을 0으로 맞추지 않고, not zero mean이므로 그래디언트 소실 문제에 더 강건하기 때문이다.
- LayerNorm은 평균을 0으로 맞추기 때문에 역전파 과정에서 그래디언트 소실 문제가 발생할 수 있다. 초기에는 LayerNorm보다 RMSNorm의 그래디언트가 훨씬 크지만, 학습이 진행됨에 따라 결국 그 차이가 줄어들게 된다.
- 즉, RMSNorm은 LayerNorm에 비해 효율성(계산 비용 \( \downarrow \))과 학습 안정성(그래디언트 소실 문제 \( \downarrow \)) 측면에서 더 뛰어나다. 그러므로 깊은 network일수록 LayerNorm보다는 RMSNorm을 사용하는 것이 유리하다.
SwiGLU activation function [PaLM].
■ 성능 향상을 위해 activation function으로 ReLU 대신 SwiGLU를 사용한다.
■ PaLM에서와 같이 \( 4d \)를 사용하는 대신 \( \frac{2}{3} 4d \)의 차원을 사용한다.
Rotary Embeddings [GPTNeo]
■ 절대 위치 임베딩 대신, RoPE를 사용한다.
2.3 Optimizer
■ \( \beta_1 = 0.9, \beta_2 = 0.95 \)의 AdamW 옵티마이저와 cosine learning rate schedule을 사용한다. 그리고 2,000 warmup steps와 0.1의 weight decay와 1.0의 gradient clipping을 사용한다.
■ 학습률과 dimension 등의 하이퍼파라미터는 모델 크기에 따라 다르게 설정한다.

2.4 Efficient implementation
■ 모델의 학습 속도를 향상시키기 위해 다음과 같은 최적화 방법들을 사용한다.
■ 메모리 사용량과 실행 시간을 줄이기 위해 causal multi-head attention을 구현한 xformers 라이브러리를 사용한다.
■ 학습 효율성을 더 향상시키기 위해, gradient checkpointing 사용 시 backward pass에서 재계산되는 activations의 양을 줄였다. 구체적으로, linear layers의 outputs과 같이 계산 비용이 비싼 activations만 저장한다. 이를 위해 파이토치의 autograd를 쓰지 않고, Transformer layers에 대한 역전파 로직을 직접 구현하였다.
■ 그리고 모델의 메모리 사용량을 줄이고자 model 및 sequence parallelism를 사용하며, activations 계산과 network를 통한 GPU 간의 communication을 가능한 한 많이 overlap시켰다.
■ 65B 모델을 학습시킬 때, 80GB RAM을 가진 2048개의 A100 GPU에서 GPU당 초당 약 380 토큰을 처리했다고 한다.
- GPU 1개당 처리 속도가 380 tokens/second이므로, 2048개의 GPU를 사용했을 때, 초당 처리 속도는 778,240 tokens
- 65B 모델을 학습시키기 위해 사용한 토큰 수는 1.4T이므로, 1.4T 토큰을 처리하는 데 걸리는 시간(초)은 1.4T / 778,240이며, 초를 일(day)로 변환하면 하루는 86,400초이므로 1.4T / 778,240 / 86,400이며 대략 21일이 된다.
- 즉, 65B 모델의 경우 1.4T 토큰을 포함한 데이터셋에 대한 학습이 대략 21일 걸린다.
3. Main results
■ GPT-3를 따라, zero-shot 및 few-shot tasks을 고려하며, 총 20개의 벤치마크에 대한 결과를 reporting한다.
■ zero-shot에서는 task에 대한 텍스트 description과 하나의 test example을 input으로 사용하여, open-ended generation으로 answer을 생성하거나, 제안된 answers의 순위를 매긴다.
■ few-shot에서는 task에 대한 few examples(1개에서 64개 사이)와 하나의 test example을 input으로 받아 answer를 생성하거나 다른 선택지들의 순위를 매긴다.
■ LLaMA를 free-form generation tasks과 multiple choice tasks에서 평가한다.
■ multiple choice tasks에서 objective는 선택지들 중에서 주어진 문맥에 대해 가장 적절한 completion을 선택하는 것으로, 가장 높은 likelihood 값을 가진 completion을 선택한다. 그리고 이전 연구를 따라 완성된 문장의 문자 수로 정규화된 likelihood를 사용한다.
■ 단, OpenBookQA와 BoolQ는 예외인데, 이에 대해서는 GPT-3를 따라 \( P(\text{completion} \mid \text{context}) / P(\text{completion} \mid "Answer:") \) 방식으로 정규화된 likelihood를 사용한다.
3.1 Common Sense Reasoning
■ 8개의 standard common sense reasoning benchmarks을 통해 zero-shot 성능을 평가한다: BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC easy/challenge, OpenBookQA
■ 이 데이터셋들은 Cloze 및 Winograd style의 tasks뿐만 아니라 multiple choice question answering도 포함하고 있다.

■ Table 3에서 볼 수 있듯이, LLaMA-65B는 BoolQ를 제외한 모든 벤치마크에서 Chinchilla-70B보다 뛰어난 성능을 달성하였다. 그리고 BoolQ와 WinoGrande를 제외한 모든 벤치마크에서 PaLM-540B도 능가한 것을 볼 수 있다.
■ 또한 LLaMA-13B는 GPT-3보다 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가한다. 이는 "더 많은 데이터로 더 오래 학습하는 것"이 단순히 모델 크기를 키우는 것보다 훨씬 효율적일 수 있음을 보여주는 결과이다.
3.2 Closed-book Question Answering
■ closed-book question answering benchmark인 Natural Questions, TriviaQA에서 LLaMA를 평가한다.
■ 두 벤치마크 모두 closed book setting(모델이 question에 답할 evidence가 포함된 documents에 접근할 수 없음)에서의 exact match 성능을 측정한다.


■ 두 벤치마크 모두에서, LLaMA-65B는 zero-shot 및 few-shot 모두 SOTA를 달성하였다.
■ 중요한 포인트는 LLaMA-13B이 GPT-3 및 Chinchilla보다 5~10배 더 작음에도 불구하고 경쟁력 있는 성능을 달성했다는 것이다.
3.3 Reading Comprehension
■ RACE reading comprehension benchmark에서 LLaMA를 평가한다. 이 데이터셋은 중국 중·고등학생을 위해 설계된 영어 독해 시험에서 수집된 것이다. 이 평가에서는 GPT-3의 evaluation setup을 따른다.

■ LLaMA-65B는 PaLM-540B와 경쟁력이 있으며, LLaMA-13B는 GPT-3를 몇 퍼센트 차이로 능가한 것을 볼 수 있다.
3.4 Mathematical reasoning
■ mathematical reasoning benchmark인 MATH와 GSM8K에서 LLaMA를 평가한다. MATH는 LaTeX로 작성된 12K 개의 중·고등학교 수학 문제, GSM8K는 중학교 수준의 수학 문제로 구성되어 있다.

■ Table 7의 Minerva는 ArXiv와 수학 웹페이지에서 추출된 38.5B 토큰으로 파인튜닝된 PaLM 모델 시리즈이며, PaLM과 LLaMA는 수학 데이터로 파인튜닝되지 않은 상태이다.
- 즉, Table 7의 Minerva만 수학 전문 모델로 볼 수 있다.
■ 그리고 maj1@k는 각 문제에 대해 \( k \)개의 샘플을 생성하고 다수결 투표를 수행하는 평가 방식을 의미한다.
■ GSM8K에서, LLaMA-65B가 수학 데이터로 파인튜닝되지 않았음에도 불구하고 Minerva-62B의 성능을 능가하는 것을 볼 수 있다.
3.5 Code generation
■ HumanEval과 MBPP를 통해 자연어 설명으로부터 코드를 작성하는 능력을 평가한다. 이때 모델은 몇 문장으로 된 프로그램 설명과 함께 몇 개의 입출력 예시를 받는다.
■ HumanEval에서는 function signature도 받으며, 프롬프트는 텍스트 설명과 tests이 docstring에 포함된 자연스러운 코드 형식으로 구성된다. 모델은 프롬프트에 있는 텍스트 설명을 충족하면서 test cases을 만족시키는 파이썬 코드를 생성해야 한다.
■ pass@1 score를 통해 코드에 대해 파인튜닝되지 않은 PaLM과 LaMDA를 LLaMA와 비교한다. PaLM은 LLaMA와 비슷한 수의 코드 토큰을 포함하는 데이터셋으로 학습되었다.

■ Table 8에서 볼 수 있듯이, LLaMA는 모델 크기 대비 우수한 성능을 달성하였다. 특히 LLaMA-13B가 HumanEval 및 MBPP 모두에서 137B 모델을 능가한 것을 볼 수 있다.
■ Table 8의 pass@1 결과는 temperature 0.1을 사용하여 샘플링한 결과이다. 이는 모델이 가장 확신하는 답을 내놓게 하는 것이다. pass@100과 pass@80은 temperature 0.8을 사용하였다. 이는 모델이 창의적이고 다양한 코드를 생성하게 한다.
3.6 Massive Multitask Language Understanding
■ massive multitask language understanding (MMLU)는 인문학, STEM(science, technology, engineering, mathematics), 사회 과학을 포함한 다양한 지식의 도메인들을 포괄하는 multiple choice questions로 구성되어 있다.
■ 벤치마크에서 제공하는 examples을 사용하여 5-shot setting에서 평가를 수행하였다.

■ LLaMA-65B가 175B의 GPT-3보다는 우수하지만, Chinchilla-70B와 PaLM-540B보다 평균적으로, 그리고 대부분의 도메인에서 성능이 몇 퍼센트 뒤쳐져 있음을 볼 수 있다.
■ 저자들은 이러한 결과에 대해, pre-training data에 제한된 양의 책과 학술 논문을 사용했기 때문이라고 주장한다. 비교 모델들(Chinchilla, PaLM 등) 최대 2TB 규모의 책 데이터를 사용해 학습된 반면, LLaMA는 ArXiv, Gutenberg, Books3를 모두 합해도 약 177GB에 불과하다.
■ 이러한 해석은, 다른 벤치마크에서는 비슷한 성능을 보이던 Gopher가 MMLU에서는 GPT-3를 능가한 결과를 통해 뒷받침된다.
4. Instruction Finetuning
■ 이 섹션에서는 소량의 instructions data에 대해 짧게 파인튜닝하는 것만으로도 MMLU에서의 성능이 빠르게 향상될 수 있음을 보여준다.
■ instruction 학습을 위해 Flan-PaLM을 따 instruct model인 LLaMA-I를 학습시켰다.

■ LLaMA-I는 중간 크기의 OPT-IML 및 Flan-PaLM과 비교하여 더 우수한 성능을 달성했지만, GPT code-davinci-002에는 미치지 못하는 것을 볼 수 있다.
5. Bias,Toxicity and Misinformation
■ LLM은 training data에 존재하는 편향을 재생산하고 증폭시키며, 유해하거나 불쾌한 콘텐츠를 생성한다는 결과들이 여러 연구를 통해 보고되었다.
■ LLaMA에 사용된 training dataset은 웹에서 가져온 데이터의 비율이 높기 때문에, 문제가 되는 내용을 생성할 가능성이 있다.
■ 저자들은 LLaMA-65B의 잠재적인 유해성을 확인하기 위해, toxic content production과 stereotypes detection을 측정하는 다양한 벤치마크에서 평가를 수행한다. 단, 이러한 평가만으로는 이러한 유해성을 검증하기에는 충분하지 않다.
5.1 RealToxicityPrompts
■ 언어 모델은 toxic language(예: insults, hate speech, threats 등)를 생성할 수 있으며, 모델이 생성할 수 있는 toxic한 내용의 범위는 매우 넓어 완벽하게 유해성을 평가하기 어렵다.
■ 여러 연구들은 RealToxicityPrompts 벤치마크를 모델의 toxic 정도를 나타내는 지표로 고려해 왔다. RealToxicityPrompts는 모델이 완성해야 하는 약 100k 개의 프롬프트로 구성되며, toxicity score는 PerspectiveAPI에 요청을 보내 자동으로 평가된다.
■ 10만 개의 각 프롬프트에 대해, 저자들은 greedy decoding을 통해 모델이 내용을 생성하게 하고 toxicity score를 측정하였다. 프롬프트당 toxicity score는 0(non-toxic)에서 1(toxic) 사이이다.

■ Table 11에서 모델의 크기가 커질수록, Respectful 프롬프트에서 toxicity가 증가하는 것을 볼 수 있다. 이는 역설적인 결과이다. respectful하게 답하라는 프롬프트에도 불구하고, 오히려 toxicity가 증가하기 때문이다.
■ 저자들은 이러한 결과에 대해, 성능이 우수한 모델일수록 학습 데이터에 포함된 유해한 패턴까지도 더 정교하게 학습한 결과라고 주장한다.
5.2 CrowS-Pairs
■ CrowS-Pairs 데이터셋을 사용하여 모델의 편향을 평가한다. 이 데이터셋은 성별, 종교, 인종/피부색, 성적 지향, 나이, 국적, 장애, 신체적 외모, 사회경제적 지위의 9개 범주에서 편향을 측정할 수 있게 해준다.
■ 각 example은 stereotype 문장과 anti-stereotype 문장으로 구성되어 있다.
■ 저자들은 zero-shot setting에서 두 문장의 perplexity를 통해 stereotype 문장에 대한 모델의 선호도를 측정하였다. 그러므로 점수가 높을수록 편향이 높음을 나타낸다.

■ Table 12를 보면, LLaMA는 특히 종교 카테고리에 편향되어 있으며(OPT 대비 +10%), 나이와 성별이 그 뒤를 잇는다.
■ 저자들은 이 결과에 대해, 여러 단계의 필터링 과정을 거쳤음에도 불구하고 이러한 편향이 CommonCrawl에서 비롯된 것으로 추측한다.
5.3 WinoGender
■ 성별에 대한 LLaMA의 편향을 더 깊이 확인하기 위해, WinoGender로 모델의 co-reference resolution 성능이 대명사의 성별에 의해 영향을 받는지를 확인함으로써 편향을 평가한다.
■ 각 문장에는 "occupation", "participant", 그리고 occupation이나 participant 중 하나를 지칭하는 "pronoun"이 있다.
■ 저자들은 모델에게 그 관계를 결정하도록 프롬프트하고, 모델이 문장의 문맥에 따라 올바르게 수행하는지 측정하였다.
■ 예를 들어, "The nurse notified the patient that his shift would be ending in an hour.", 이 뒤에"'His'가 가리키는 것은?" 이라는 질문이 이어진다.
■ 이 질문에 대해 모델에게 'nurse'와 'patient'가 이어질 때의 perplexity를 비교하여 그 관계를 결정하도록 한다.
■ 저자들은 3가지 대명사를 사용할 때의 성능을 평가하였다: "her/her/she", "his/him/he", 그리고 "their/them/someone"

■ Table 13에서 LLaMA가 "her/her/she"나 "his/him/he"보다 성별 중립적인 "their/them/someone"이 나왔을 때 정답을 훨신 더 잘 맞춘 것을 볼 수 있다.
■ "her"나 "his"의 경우, 모델이 문장의 evidence를 사용하는 대신 직업의 다수 성별(예: 남자는 의사, 여자는 간호사)에 대한 정보를 사용하고 있을 수 있다.
■ 저자들은 이 가설을 확인하기 위해, WinoGender 데이터셋에서 "her" 및 "his" 대명사에 대한 "함정(gotcha)" cases을 사용하였다.
■ 이 cases은 대명사가 해당 직업의 다수 성별과 일치하지 않으면서(예: 남자는 간호사, 여자는 의사), 그것이 정답인 문장들에 해당한다. 즉, 고정관념과 반대되는 문장들이다.
■ Table 13을 보면 gotcha cases에서 LLaMA-65B의 성능이 떨어진 것을 볼 수 있다. 이는 LLaMA가 training data에 포함된 사회적 편향을 그대로 학습했음을 보여주는 결과이다.
■ 특히, 성능 저하가 "her"과 "his" 대명사 모두에 존재하는 것을 볼 수 있다. 이는 성별에 관계없이 편향이 존재한다고 볼 수 있다.
5.4 TruthfulQA
■ TruthfulQA는 모델의 truthfulness, 즉 어떤 주장이 참(true)인지를 식별하는 능력을 측정하기 위해 사용된다. 여기서 "true"는 real world에 대한 진실이다.
■ 즉, 이 벤치마크를 사용하면 모델이 잘못된 정보나 거짓 주장을 생성할 위험을 평가할 수 있다. questions은 다양한 스타일로 작성되어 있고, 38개의 카테고리를 포함하고 있다.

■ Table 14는 truthful model을 측정하기 위한 questions (Truthful)과, 진실되면서 동시에 유익한 questions (Truthful*Inf)에 대해서 평가를 수행한 결과이다.
■ GPT-3와 비교했을 때, LLaMA는 두 카테고리 모두에서 더 높은 점수를 기록했지만, 정답률은 여전히 낮다. 이는 LLaMA가 hallucinate할 가능성이 높다는 것을 보여주는 결과이다.
'자연어처리 > LM' 카테고리의 다른 글
| Llama 2: Open Foundation and Fine-Tuned Chat Models (2) (0) | 2025.12.14 |
|---|---|
| Llama 2: Open Foundation and Fine-Tuned Chat Models (1) (0) | 2025.12.13 |
| BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (0) | 2025.11.18 |
| T0: Multitask Prompted Training Enables Zero-Shot Task Generalization (0) | 2025.11.12 |
| OPT: Open Pre-trained Transformer Language Models (0) | 2025.11.10 |