■ 논문에서는 프롬프트 내에 몇 개의 chain of thought demonstrations을 exemplars로 제공하는 "chain-of-thought prompting (CoT prompting)"이라는 간단한 방법을 통해, LLM의 추론 능력을 향상시킬 수 있음을 보여준다.
■ 540B PaLM과 함께 사용된 CoT prompting은 여러 task에서 task-specific finetuned 모델들과 필적하는 성능을 보이며, GSM8K 벤치마크에서는 SOTA를 달성하였다.
■ 이 논문의 가장 중요한 발견 중 하나는, CoT를 통한 추론 능력이 모든 언어 모델에서 나타나는 것이 아니라, "충분히 큰" 모델에서만 발현된다는 것이다.
■ 단, 이러한 CoT가 인간의 사고 과정을 모방한 것은 맞지만, 이것이 신경망으로 하여금 실제로 "추론"하고 있는 것인지는 확실하지 않다. 또한, 추론 경로가 올바른지에 대한 보장이 없기 때문에, 결과가 정답과 오답 모두로 이어질 수 있다.
■ 또한, CoT prompting의 효과가 대규모 모델에서만 발현된다는 점은 실제 애플리케이션 서비스 관점에서 적합하지 않다. 따라서 더 작은 모델에서도 추론을 유도할 수 있는 방법이 필요하다.
[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in su
arxiv.org
1. Introduction
■ LM의 크기를 키우는 것(scaling up)은 성능 향상 및 샘플 효율성 개선과 같은 다양한 이점을 제공하는 것으로 나타났다.
■ 그러나, 단순히 모델의 크기만 키우는 것으로는 arithmetic, commonsense, symbolic reasoning과 같은 challenging tasks에서 높은 성능을 달성하기 어렵다는 것이 입증되었다.
■ 이에 저자들은 두 가지 아이디어에서 영감을 받은 방법을 통해 LLM의 추론 능력이 어떻게 unlocked될 수 있는지 탐구한다.
- (1) arithmetic reasoning은 final answer로 이어지는 natural language로 구성된 설명(rationales)들을 생성함으로써 이점을 얻을 수 있다.
- 이전 연구들은 자연어 대신, 처음부터 모델을 학습시키거나 사전학습된 모델을 파인튜닝하여 모델이 중간 단계(final answer로 이어지는 rationales)를 생성하도록 하였다.
- (2) LLM은 prompting을 통한 "in context few-shot learning"을 수행할 수 있다.
- 즉, 새로운 task를 위해 별도의 LM을 파인튜닝하는 대신, 해당 task를 demonstrating하는 몇 개의 input-output exemplars로 모델을 간단히 "prompting"할 수 있다. 이 방식은 간단한 QA task에서 그 효과가 입증되었다.
■ 위의 두 아이디어는 모두 한계를 가지고 있다. (1) rationale가 보강된 training 및 fine-tuning methods의 경우, 고품질의 large rationale dataset을 구축하는 데 비용이 많이 들며 (2) GPT-3에서 사용된 전통적인 few-shot prompting 방법의 경우, 추론 능력이 필요한 task에서 성능이 저조하며, LM의 크기가 커져도 성능이 실질적으로 개선되지 않는 경우들이 많았다.
■ 저자들은 두 아이디어의 강점을 결합하여, 이러한 한계를 피할 수 있는 방식을 제안한다.
■ 구체적으로, <input, chain of thought, output>의 triples로 구성된 프롬프트가 주어졌을 때, LM이 reasoning task에 대한 few-shot prompting을 수행하도록 한다.
■ "chain of thought"란 "final output으로 이어지는 일련의 intermediate natural language reasoning steps"을 말하며, 저자들은 이 접근 방식을 "chain-of-thought prompting"이라고 명명하였다. 예시 프롬프트는 Fig 1에서 볼 수 있다.

- Fig 1의 left는 standard prompting의 예시로, 모델의 input으로 한 쌍의 QA example과 마지막에 새로운 question을 추가하여 제공했을 때 output을 생성하는 과정을 보여준다.
- 그러나 이 경우 모델은 단순히 정답 형태만을 모방하기 때문에, 마지막 질문에 대해 잘못된 답을 출력하는 것을 볼 수 있다.
- right는 CoT prompting의 예시이다. 파란색으로 강조된 부분을 보면, standard prompting와 달리, 바로 정답("The answer is 11")을 사용하지 않고, "11"이 계산되기까지의 추론 과정들을 텍스트(자연어)로 생성한 다음(이 것이 바로 논문에서 말하는 chain of thought: intermediate natural language reasoning steps이다), "The answer is 11"이 그 뒤에 나오는 것을 볼 수 있다.
- 그리고 model의 input으로 이렇게 CoT를 넣었을 때, final output에서도 reasoning steps을 텍스트로 작성한 후, 가장 마지막에 정답을 생성하는 것을 볼 수 있다.
- 즉, answer를 직접 input으로 주는 standard prompting에서는 오답을 내던 문제가, 프롬프트에 CoT를 포함하자 모델이 스스로 reasoning steps을 거쳐 final output을 생성하며 정답을 맞출 수 있음을 보여준다.
■ 실험을 통해 CoT prompting이 standard prompting보다 성능이 뛰어난 것을 보여준다 (Fig 2).

■ 그리고 이러한 prompting only 방식은 대규모 training dataset 없이도, task에 대한 자연어 데이터를 포함한 소수의 examples을 통해 하나의 모델로 많은 tasks을 수행할 수 있다는 장점을 가진다.
2. Chain-of-Thought Prompting
■ multi-step math word problem과 같은 복잡한 reasoning task를 해결할 때, 사람의 경우 문제를 중간 단계들로 분해하고 최종 정답을 내기 전에 각각을 해결하는 것이 일반적인 사고 과정이다.
- 예: 엄마에게 꽃 2송이를 주고 나면 10송이가 남고, 그 후 아빠에게 3송이를 주면 7송이가 남으니 정답은 7이다.
■ 이와 유사한 chain of thought, 즉 문제에 대한 final answer로 이어지는 일련의 일관적인 intermediate reasoning steps을 생성할 수 있는 능력을 언어 모델에게 부여하는 것이 목표였으며,
■ 저자들은 실험을 통해 few-shot prompting을 위한 exemplars 내에 chain-of-thought reasoning에 대한 demonstrations이 제공된다면, 충분히 큰 언어 모델은 chains of thought를 생성할 수 있음을 보여준다.
■ chain-of-thought prompting은 언어 모델의 추론을 촉진하기 위한 접근 방식으로서 다음과 같은 특성들을 가진다.
- (1) CoT는 모델이 다단계 문제를 중간 단계들로 분해할 수 있게 해준다. 이는 더 많은 reasoning steps이 필요한 문제에 더 많은 계산량을 할당할 수 있음을 의미한다. (즉, 복잡한 추론 단계가 필요한 문제를 푸는 데 더 많이 생각할 시간(computation resource)을 쓸 수 있다.)
- (2) CoT는 모델의 행동을 들여다볼 수 있는 "interpretable window"를 제공한다. 비록 모델이 특정 정답을 선택한 내부 연산을 완전히 밝혀낼 수는 없지만, 모델이 어떤 과정을 거쳐 정답에 도달했는지를 확인할 수 있기 때문에 추론 경로 중 어디가 잘못되었는지 디버깅할 수 있다.
- (3) chain-of-thought reasoning은 math word problems, commonsense reasoning, symbolic manipulation과 같은 task에 사용될 수 있으며, 원칙적으로 인간이 '언어'를 통해 해결할 수 있는 어떤 task에도 잠재적으로 적용 가능하다.
- (4) CoT는 few-shot prompting의 exemplars에 chain of thought sequences 샘플을 포함시키는 것만으로도, off-the-shelf LM에 쉽게 적용할 수 있다. 즉 모델의 구조를 바꾸거나 가중치를 업데이트(학습)할 필요 없이, 그저 프롬프트에 예시 몇 줄을 추가하는 것만으로도 LM의 추론 능력을 향상시킬 수 있다.
3. Arithmetic Reasoning
3.1 Experimental Setup
Benchmarks
■ 다섯 가지 math word problem benchmarks을 고려하였다: (1) GSM8K (2) SVAMP (3) ASDiv (4) AQuA (5) MAWPS

Standard prompting
■ 베이스라인으로 standard few-shot prompting을 사용한다.
■ 모델에게 input-output pairs로 구성된 in-context examplars를 제공한다. 이때 exemplars은 Fig 1처럼 question과 answer의 형태로 서식화되며, 모델은 answer를 direct로 제시한다.
Chain-of-thought prompting
■ 저자들이 제안하는 접근법은 Fig 1 right에 묘사된 것처럼, few-shot prompting의 각 exemplar를 해당 answer에 대한 chain of thought로 보강하는 것이다.
■ 대부분의 dataset이 evaluation split만 가지고 있기 때문에, 저자들은 prompting을 위해 CoT가 포함된 8개의 few-shot exemplars을 작성하였다. Fig 1 right는 그 중 하나의 예시이며, 전체 예시는 Table 20에서 볼 수 있다.

■ 그리고 특정 exemplars에 대해, 최적의 프롬프트를 찾기 위해 프롬프트 엔지니어링을 수행하지 않았다. 이는 CoT의 robustness를 보여주기 위함이다. 즉, CoT의 효과가 프롬프트의 wording에 의존하는 것이 아님을 보여주기 위함이다. (Section 3.4와 Appendix A.2)
■ CoT prompting이 다양한 math word problems에 걸쳐 성공적인 추론 과정을 이끌어낼 수 있는지 확인하기 위해, 자유 응답형(free response)이 아닌 multiple choice인 AQuA를 제외한 모든 벤치마크에 대해 이 8개의 exemplars을 사용하였다.
- AQuA의 경우, Table 21에 기술된 것처럼 training set에서 가져온 4개의 exemplars와 solutions을 사용하였다.

Language models
■ 5가지 LLM에 대해 CoT를 사용하여 평가한다: (1) GPT-3, (2) LaMDA, (3) PaLM, (4) UL2 20B, (5) Codex
■ 그리고 greedy decoding으로 샘플링하였다.
- 후속 연구 "Self-Consistency"는 여러 번 샘플링한 생성 결과들에 대해 다수결로 최종 정답을 선택하는 방식으로, CoT prompting이 더욱 개선될 수 있음을 보여준다.
■ 초기에 5개의 랜덤 시드로 LaMDA에 대한 평균 결과를 측정했지만, LaMDA 실험에서 시드 간의 큰 분산이 나타나지 않아, 계산량을 절약하기 위해 다른 모델에 대해서는 하나의 예시 순서에 대한 결과를 측정하였다.
- 즉, LaMDA 실험에서 예시의 순서가 결과에 큰 영향을 미치지 않음을 확인한 후, 다른 모델들에 대해서는 계산 비용 절감을 위해 한 가지 순서만 실험하였다.
3.2 Results


■ CoT prompting의 결과는 Fig 4와 Table 2에서 확인할 수 있다.
■ 이 실험에서 중요한 결과 세 가지는
- (1) Fig 4에서 chain-of-thought prompting이 모델 크기에 따른 emergent ability임을 보여준다.
- Fig 4 그래프 x축의 왼쪽 부분(약 10B 이하)을 보면, 파란선(CoT)이 검은선(standard)보다 아래에 있는 것을 볼 수 있다.
- 즉, CoT는 작은 모델들의 성능에는 긍정적인 영향을 미치지 않으며, 약 100B 이상의 모델들과 함께 사용될 때만 좋은 결과를 낸다.
- 저자들은 더 작은 규모의 모델들에 대해서 CoT를 적용한 결과, 작은 모델들은 유창하지만 비논리적인 chain of thought를 생성하여 standard prompting보다 낮은 성능을 보인다는 것을 확인했다.
- 즉, CoT prompting은 모든 크기의 모델에서 효과적으로 작동하는 방식이 아니다. 작은 모델은 겉보기에는 그럴듯한 사고 과정을 생성하지만, 이를 자세히 살펴보면 비논리적인 연결로 이루어져 있어 오답을 낼 가능성이 높아진다.
- (2) CoT는 더 복잡한 문제에서 더 큰 성능 향상을 보인다.
- 예를 들어Table 2를 보면, 베이스라인(standard few-shot prompting)의 성능이 가장 낮은 GSM8K에서, 가장 큰 GPT 및 PaLM 모델의 성능이 두 배 이상 증가한 것을 볼 수 있다.
- 반면, 문제 해결을 위해 single step만 필요한 MAWPS의 가장 쉬운 SingleOp에서, 성능 향상은 부정적이거나 매우 미미하다. (Appendix Table 3)
- (3) GPT-3 175B와 PaLM 540B를 통한 CoT prompting은, 라벨링된 training dataset에 대해 task-specific model을 finetuning한 기존의 SOTA와 비교해도 손색이 없다. (Table 2)
■ 그리고, 모델이 틀린 답을 제시한 50개의 샘플에 대해 조사한 결과, chains of thought 중 46%는 사소한 실수(계산기 오류, 기호 매핑 오류, 또는 하나의 추론 단계 누락)를 제외하면 거의 올바랐으며, 나머지 54%는 의미론적 이해(semantic understanding)나 일관성에서 중대한 오류를 가지고 있었다. (Appendix D.2 Table 10, 11)


■ scaling(모델 크기 증가)이 왜 chain-of-thought reasoning ability를 향상시키는지 확인하기 위해, PaLM 62B가 범한 오류와 그러한 오류들이 PaLM 540B로 스케일링되었을 때 수정되었는지에 대한 분석을 수행했다.
■ 그 결과, PaLM을 540B로 스케일링하는 것은 62B 모델에서 발생한 '한 단계 누락'이나 '의미론적 이해' 오류의 상당 부분을 수정하였다.
- 62B에서 540B로 키우자 모델의 실수가 더 줄었다는 것이며, 이는 (1)의 결과와 유사한 결과이다. 즉, CoT는 모델 크기가 커질수록 더 잘 작동한다.
Appendix A.1 Why does increasing model scale improve chain-of-thought prompting?

■ Fig 9에서 볼 수 있듯이 PaLM을 540B로 확장했을 때, 세 가지 범주 모두에서 오류의 상당 부분이 수정되었다. 이 결과는 언어 모델이 model scale의 function으로서 scale을 키우기만 해도 광범위한 semantic understanding과 logical reasoning skills을 습득할 수 있다는 가설과 일치하는 것으로 보인다.
■ 저자들은 small LM의 CoT prompting 실패 원인을 크게 세 가지로 분석한다.
- (1) symbol mapping failure
- small LM은 비교적 쉬운 기호 매핑 task에서도 실패한다.
- few-shot exemplars에 주어진 것과 동일한 chain of thought 논리 구조를 사용하여 새로운 exemplars을 푸는(즉, 단순히 주어진 논리 구조만 흉내내면 되는) symbolic reasoning tasks에서 small LM은 어려움을 겪는다. (Section 5)
- (2) weak arithmetic ability
- small LM은 본질적으로 더 약한 arithmetic ability을 가지는 것으로 보인다. GPT-3에서 보여주었듯이, semantic understanding이 필요 없는 단순한 산술 연산을 수행하는 능력조차도 충분히 큰 모델 크기를 요구한다.
- (3) small LM은 결코 최종 정답에 도달하지 못하는 비논리적인 CoT를 생성하는 경우가 많다.
■ small LM에서는 CoT prompting이 실패하다가 특정 크기를 넘어서는 지점에서 성공하기 시작한다는 결과는, CoT prompting의 성공이 모델 크기가 커짐에 따라 발현되는 창발적 능력(의미론적 이해, 기호 매핑, 산술 능력 등)에 기반함을 시사한다.
3.3 Ablation Study
■ 이 섹션에서는 다른 유형의 prompting을 통해서도 CoT prompting과 동일한 성능 향상을 얻을 수 있는지에 대한 ablation study를 보여준다.
■ 구체적으로, 아래와 같은 세 가지 가설을 검증한다: (1) 수학적 수식의 도움이 컸다 (2) 더 어려운 문제에 대해 더 많은 계산을 소비할 수 있게 해준 영향이 크다 (즉, 생각할 시간을 많이 줘서 좋은 성과를 낸다) (3) CoT 프롬프트가 모델이 사전학습에서 습득한 관련 지식에 더 잘 접근할 수 있게 도와주기 때문이다.
Equation only
■ CoT prompting이 도움이 된 이유는 수학적 수식을 생성하기 때문일 수 있다.
■ 이를 검증하고자, 오직 수학적 수식만을 출력하도록 프롬프트되는 변형을 만들어서 테스트하였다.
- 여기서 말하는 변형은 예를 들어, "철수가 사과를 2개 먹었으니..."와 같은 자연어 설명을 빼고, 오직 "5-2=3"과 같은 수학적 수식만 프롬프트되도록 만드는 것을 의미한다.

■ Fig 5를 보면, 수식만 사용하는 prompting이 GSM8K에서는 큰 도움이 되지 않음을 볼 수 있다. 이는 GSM8K questions의 semantic이 chain of thought에 있는 자연어 추론 단계 없이는 수식으로 직접 변환하기에 너무 어렵다는 것을 시사한다.
■ 그러나, 1단계 또는 2단계 문제로 구성된 데이터셋의 경우, question으로부터 수식을 쉽게 도출할 수 있기 때문에 수식만 사용하는 프롬프팅도 성능을 향상시킨다는 것을 발견하였다. (Table 6)

Variable compute only
■ CoT prompting의 성공은, 모델로 하여금 더 어려운 문제에는 더 많은 계산을 사용하도록 허용하기 때문일 수 있다.
■ 이러한 가변적인 계산량의 효과를 검증하기 위해, 모델이 문제를 해결하는 데 필요한 수식의 문자 수만큼 점(...)을 출력하도록 프롬프트되는 구성을 만들어 답을 내게 하였다. 이렇게 했을 때, 베이스라인과 거의 동일한 성능을 보였다.
- 즉, chain-of-thought reasoning을 분리하여 순수한 가변 계산량 효과만을 확인하기 위해서, chain-of-thought reasoning 과정을 점(...)을 찍게 하는 것으로 교체한 것이다.
■ 이는 가변 계산량 그 자체는 CoT prompting의 성공 요인이 아니며, 자연어를 통해 중간 단계를 표현하는 것으로부터 오는 이점이 존재함을 시사한다.
Chain of thought after answer
■ CoT prompting의 성공은 어떤 문제에 대한 프롬프트가 모델이 사전학습 중에 습득한 관련 지식(문제와 관련된 지식)에 더 잘 접근하도록 도와주기 때문일 수 있다.
■ 이를 검증하고자, chain of thought prompt가 정답 후에 주어지는 구성을 만들어서, 최종 정답을 내기 위해 생성된 chain of thought에 실제로 의존하는지를 확인하였다.
- 여기서 사용한 프롬프트는, 예를 들어 Fig. 1에서 파란색으로 강조된 CoT 프롬프트의 구성 순서를 뒤집어, 정답인 "The answer is 11."을 먼저 제시하고 그 뒤에 "Roger started … 5 + 6 = 11."과 같은 CoT 내용을 배치한 형태이다.
■ 이 변형도 베이스라인과 거의 동일한 성능을 보이며, 이는 chain of thought에 구현된 순차적인 추론이 단순히 지식을 활성화하는 것 이상으로 유용하다는 것을 시사한다.
3.4 Robustness of Chain of Thought
■ 프롬프팅 접근법에서 고려해야 할 것은 exemplars에 대한 민감성, 즉 프롬프트 워딩이 바뀜에 따라 성능이 바뀌는 것이다.
■ 프롬프트의 워딩이 조금만 달라져도 성능이 크게 변할 수 있기 때문에, 프롬프팅 접근법에서 고려해야 할 중요한 점은 exemplars에 대한 민감성이다.
- 예를 들어, few-shot exemplars의 순서를 바꾸는 것만으로도 SST-2에 대한 GPT-3의 정확도가 54.3%(찍기 수준)에서 94.3%까지 상승하였다.
■ 저자들은 서로 다른 annotators이 작성한 chain of thought에 대한 robustness를 평가하였다.
■ 두 명의 annotator가 동일한 few-shot exemplars에 대해 독립적으로 chain of thought을 작성하게 하였다. Fig 6은 다양한 스타일의 CoT에 대한 GSM8K와 MAWPS에서의 LaMDA 137B의 결과이다.

■ 스타일마다 chain of thought annotations 간에 분산이 존재하지만(점수 차이는 있지만), 어떤 스타일이든 간에 chain of thought를 쓰지 않는 standard prompting보다는 월등히 좋은 점수를 내는 것을 볼 수 있다.
■ 이 결과는 chain of thought의 성공이 특정한 언어적 스타일에 의존하지 않음을 시사한다. 즉, golden exemplars를 찾기 위해 튜닝할 필요가 없다.
■ CoT prompting이 다른 exemplars에도 성공적으로 작동하는지 확인하기 위해, GSM8K training set에서 무작위로 샘플링한 8개의 exemplar가 포함된 3개의 set을 사용하여 실험을 수행했다.
- GSM8K training set의 examples은 이미 chain of thought와 같은 추론 단계들을 포함하고 있다.
■ Fig 6에서 이러한 프롬프트들이 수동으로 작성한 exemplars과 비슷하게 작동되었으며, 마찬가지로 standard prompting을 상당히 능가한 것을 볼 수 있다.
■ 또한, 추가 실험을 통해 arithmetic reasoning을 위한 CoT prompting이 exemplars의 순서를 섞거나 개수를 바꿔도 견고하게 작동한다는 것을 발견하였다. (Appendix A.2)
4. Commonsense Reasoning
■ chain of thought은 math word problems에서 특히 강점을 보이지만, 언어 기반이라는 특성 덕분에 배경지식을 전제로 물리적 및 인간적 상호작용에 대해 추론하는 광범위한 commonsense reasoning problems에도 적용할 수 있다.
Benchmarks

■ 다양한 범위의 commonsense reasoning 유형들을 포괄하는 다섯 가지 datasets을 고려하였다
- (1) CSQA: 사전 지식을 필요로 하는 복잡한 semantics을 포함하여 세상에 대한 상식적인 질문
- (2) StrategyQA: 질문에 답하기 위해 다단계 추론
- (3) BIG-bench effort에서 두 가지의 evaluation sets을 선택하였다: 주어진 문맥에서 날짜를 추론하는 Date Understanding과 스포츠와 관련된 문장이 타당한지 타당하지 않은지를 결정하는 Sports Understanding
- (4) SayCan: 자연어로 구성된 명령과 그에 따른 로봇 행동 시나리오로 매핑
Prompts
■ 이전 섹션과 동일한 실험 설정을 따른다: CSQA와 StrategyQA의 경우, training set에서 무작위로 examples을 선택하고, 이를 few-shot exemplars로 사용하기 위해 chains of thought를 작성한다.
■ 두 가지 BIG-bench tasks은 training set이 없으므로, evaluation set에서 처음 10개의 examples을 few-shot exemplars로 선택하고 나머지 evaluation set으로 평가한다.
■ SayCan의 경우 이전 연구에서 사용된 training set에서의 6개 examples을 사용하고, chains of thought를 작성한다.
Results

■ Fig 7은 PaLM으로 실험한 결과이다. 모든 tasks에서 모델 크기를 키우는 것은 standard prompting의 성능을 향상시켰다.
■ CoT prompting은 추가적인 성능 향상을 이끌어냈으며, 그 향상은 PaLM 540B에서 가장 큰 것을 볼 수 있다. 이는 CoT prompting이 다양한 상식 추론 능력을 요구하는 tasks에서도 성능을 향상시킬 수 있음을 입증하는 결과이다.
■ 단, CSQA에서는 CoT prompting이 큰 효과를 보지 못했는데, 이는 지식의 유무가 중요한 문제에서는 CoT가 굳이 필요하지 않을 수 있다고 생각된다.
5. Symbolic Reasoning
■ 인간에게는 간단하지만 언어 모델에게는 잠재적으로 어려울 수 있는 상징적 추론(symbolic reasoning)에 대한 CoT prompting 성능을 평가한다.
■ CoT prompting이 언어 모델이 standard prompting으로는 해결하기 어려운 symbolic reasoning tasks을 수행할 수 있게 할 뿐만 아니라, few-shot exemplars에서 보았던 것보다 더 긴 입력에 대해서도 추론 시 길이에 대해 잘 일반화할 수 있음을 보여준다.
Tasks
■ 실험에서 아래와 같은 두 가지 toy tasks을 사용한다.
- (1) Last letter concatenation: 이 task는 단어들의 마지막 글자를 이어붙이는 것(예: "Amy Brown" \( \rightarrow \) "yn")이다. 이는 단순히 단어의 첫 번째를 합치는 것보다 어려운 task이다.
- (2) Coin flip: 동전을 던지거나 던지지 않은 후, 동전의 앞면이 여전히 위를 향하고 있는지(즉, 동전이 앞면인지 뒷면인지) 맞추는 task이다.
- 예: "A coin is heads up. Phoebe flips the coin. Osvaldo does notflipthe coin. Is the coin still heads up?" \( \rightarrow \) "no")
■ 각 task에 대해 두 가지 test set을 고려한다: training/few-shot exemplars와 동일한 steps 수를 가진 examples로 구성된 in-domain test set과 exemplars보다 많은 steps를 가지는 evaluation examples로 구성된 out-of-domain (OOD) test set을 사용하여, OOD에 대해 평가한다.
■ 저자들은 추론 시 few-shot에서 보지 못한, 더 긴 길이의 입력에 대해서도 잘 일반화할 수 있는지 확인하기 위해,
- 두 단어로 된 예시(예: 이름이 2개일 때 마지막 글자를 연결하는 예시)만 모델에게 보여주고 (few-shot), test에서는 3단어와 4단어로 된 이름에 대해서 마지막 글자를 이어붙이게 하였다.
- 동전을 던지는 횟수에 대해 동일한 방식(few-shot exemplars에서 본 것보다 동전 뒤집는 횟수가 더 많은 상황)으로 테스트하였다.
Results

■ Fig 8은 PaLM을 사용했을 때의 결과이다. PaLM 540B를 사용하면 Letter Concat: 4의 경우를 제외하고 CoT prompting을 통해 거의 100%의 solve rate를 달성하는 것을 볼 수 있다.
■ 이 문제들은 인간에게는 너무 쉬우며, 예시에서도 답을 구하는 패턴을 다 보여준다. 즉, 모델이 할 일은 test example의 새로운 symbol에 대해 동일한 단계를 반복하는 것 뿐이다. 그럼에도 불구하고, small model들은 여전히 저조한 성능을 보인다.
■ OOD 상황에서 CoT prompting과 반대로 standard prompting의 성능은 모두 저조한 것을 볼 수 있다. 이는 CoT prompting이 충분히 큰 언어 모델에서는, 학습 시 보았던 chain of thought보다 더 긴 길이에 대해서도 추론 과정에서 일반화할 수 있음을 보여주는 결과이다.