chain-of-thought-prompting-elicits-reasoning-in-large-language-models

카테고리 없음 2026. 5. 4. 21:13

type: knowledge
created: 2026-04-16
source: https://arxiv.org/abs/2201.11903

Chain of Thought Prompting Elicits Reasoning in Large Language Models

항목	내용
저자	Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed H. Chi, F. Xia, Quoc Le, Denny Zhou
연도	2022
arXiv	2201.11903
분야	Computer Science
인용 수	17184 (Semantic Scholar 기준)

1. 배경 및 문제 정의

대형 언어 모델(LLM, Large Language Model)은 규모를 키울수록 일반적인 성능과 샘플 효율이 올라간다. 그러나 산술, 상식, 기호 추론처럼 복잡한 과제에서는 모델 크기만 키워도 성능이 충분히 개선되지 않는다고 선행 연구가 보고했다. "규모 확장이 곧 만능 해법"이라는 가설은 추론 능력에 대해서는 성립하지 않으며, 이 관찰이 논문 전체의 출발점이다.

이 문제를 해소하기 위해 두 가지 선행 아이디어가 각각 탐색되어 왔다.

첫째, 자연어 중간 풀이(rationale)를 생성하도록 모델을 학습시키면 산술 추론에 도움이 된다는 접근이다. Ling et al. (2017)과 Cobbe et al. (2021)이 대표적이다. 그러나 이 방법은 고품질 풀이 과정을 대규모로 어노테이션(annotation, 사람이 직접 정답과 풀이를 작성하는 작업)해야 하므로 비용이 크다.

둘째, few-shot 프롬프팅(소수의 예시만 제공하여 모델이 태스크를 수행하게 하는 기법)은 파인튜닝(fine-tuning, 특정 태스크용 추가 학습) 없이 다양한 태스크를 수행하게 한다. 그러나 추론이 필요한 태스크에서는 성능이 낮고, 모델 규모를 키워도 크게 향상되지 않는다.

본 논문은 이 두 아이디어를 결합한다. few-shot 프롬프팅의 예시에 중간 추론 단계(chain of thought)를 포함하는 방식이다. 입력-추론 과정-출력의 트리플 $\langle \text{input, chain of thought, output} \rangle$ 을 프롬프트 예시로 제공한다. 이렇게 하면 대규모 어노테이션 없이, 기존 모델 체크포인트 하나로 여러 태스크에 적용할 수 있다. Rationale 학습의 비용 문제와 표준 few-shot의 추론 약점을 동시에 우회하는 구조다.

GSM8K(초등~중등 수준 다단계 산술 추론 벤치마크)에서 PaLM 540B에 CoT 프롬프팅을 적용한 결과, 표준 프롬프팅을 크게 상회하며 당시 최고 성능(state-of-the-art)을 달성했다. CoT의 효과는 모델 규모가 충분히 클 때에만 나타나는 창발적 특성(emergent property, 임계 규모 이상에서 갑자기 출현하는 능력)임을 시사하며, 표준 few-shot 프롬프팅은 LLM 추론 능력의 하한선에 불과하다는 함의를 갖는다.

서론에서는 역효과를 직접 서술하지 않으나 두 가지 구조적 한계를 명시한다. 첫째, CoT 프롬프팅은 어노테이션 비용을 회피하지만, 모델이 스스로 올바른 중간 단계를 생성할 능력을 갖춰야 한다는 전제가 따른다. 둘째, CoT는 충분히 큰 모델에서만 나타나는 능력이며, 소규모 모델에서는 CoT를 제공해도 오히려 성능이 저하될 수 있다.

2. Chain-of-Thought 프롬프팅의 정의

인간이 복잡한 문제를 풀 때는 "Jane이 꽃 2송이를 주면 10개 남고, 3송이를 또 주면 7개"처럼 중간 단계를 거친다. 이 논문은 이 사고 과정 자체를 LLM에게 예시로 보여줘서 유사한 추론을 유도하는 것이 CoT 프롬프팅의 핵심이라고 정의한다. 구체적으로 few-shot 예시를 $\langle \text{input, chain of thought, output} \rangle$ 트리플 형식으로 구성하면 된다. 파인튜닝 없이 추론을 삽입하는 방식이다.

논문은 이 중간 단계를 "풀이(solution)"가 아닌 "사고의 연쇄(chain of thought)"라고 명명한다. 기존 작업에서 solution이나 explanation은 보통 최종 답변 이후에 등장하지만, CoT는 최종 답변 이전에 추론 과정을 배치한다. 기존 "solution" 개념과 구별하여 사고 과정을 선행시키는 새로운 형식임을 명확히 한다.

3. CoT의 네 가지 특성

저자들은 CoT 프롬프팅의 실용적 특성을 네 가지로 제시한다.

1) 단계적 분해를 통한 적응적 계산 배분. 문제가 복잡할수록 더 많은 추론 단계가 필요하고, 모델은 자연히 더 많은 연산을 투입하게 된다. 단순 입출력 매핑에서는 얻을 수 없는 특성이다.

2) 해석 가능성. 중간 추론이 자연어로 노출되므로 어느 단계에서 추론이 틀렸는지 추적할 수 있다. 다만 논문 자체가 "모델 내부 계산 전체를 완전히 특성화하는 것은 미해결 문제"라고 인정한다. CoT 체인이 사후 합리화(post-hoc rationalization, 올바른 답을 먼저 찾고 그럴듯한 설명을 나중에 생성하는 현상)일 가능성을 배제하지 못한다.

3) 광범위한 적용성. 산술, 상식, 기호 조작 전반에 적용되며, 인간이 언어로 풀 수 있는 모든 태스크에 원칙적으로 확장 가능하다. 다만 "원칙적으로(in principle)"라는 단서가 붙으며, 실증되지 않은 일반화 주장이다.

4) 쉬운 유도 — 핵심 전제 조건. 파인튜닝 없이 few-shot 예시만으로 CoT를 유도할 수 있다. 단, "충분히 큰(sufficiently large)" 모델에서만 성립한다. 이것이 창발성 주장의 핵심 근거이며, 소규모 모델에서는 이 특성 자체가 성립하지 않는다.

네 가지 특성 모두 "충분히 큰 모델"을 전제한다. 이후 산술, 상식, 기호 추론 실험 섹션들은 이 전제를 실증하는 구조로 배치된다.

논문 부록은 CoT 실험의 완전한 재현 패키지를 두 축으로 구성한다. Full Prompts(모델에 제공된 프롬프트 전문)와 Input/Output Examples(모델이 실제로 출력한 결과)다. Input/Output Examples는 7개 태스크의 CoT 예시를 별도 파일로 분리 수록한다.

태스크	분류
마지막 글자 연결	기호 추론
동전 뒤집기 상태 추적	기호 추론
CommonsenseQA	상식 추론
StrategyQA	상식 추론
날짜 계산	상식 추론
스포츠 규칙 이해	상식 추론
SayCan 로봇 행동 계획	상식+도구 추론

이 중 SayCan은 CoT를 자연어 추론의 영역을 넘어 물리적 affordance(로봇이 실제로 수행 가능한 행동 집합)를 고려한 로봇 행동 선택에 적용한 사례다. 3번 특성("인간이 언어로 풀 수 있는 모든 태스크에 원칙적으로 확장 가능")의 실증 사례에 해당하며, CoT의 범용 적용 가능성 주장을 가장 극단적으로 밀어붙인 예시다.

4. 산술 추론 실험

4.1 실험 설계

수학 단어 문제(math word problems)는 인간에게는 단순하지만, 언어 모델이 오랫동안 어려움을 겪어온 태스크다. 기존 접근법은 태스크별 파인튜닝이었으며, 대규모 레이블 데이터와 훈련 비용을 요구했다.

산술 추론 프롬프트는 두 파일로 구성된다. appendix-mwp-prompt는 GSM8K/ASDiv/MAWPS 계열 수학 단어 문제용으로 8-shot CoT 예시를 포함한다. appendix-aqua-prompt는 AQUA-RAT(대수 추론 벤치마크)용으로 역시 8-shot CoT 예시를 포함한다. 어노테이터 변이 검증용 대안 버전(appendix-mwp-prompt-alt, appendix-mwp-prompt-alt-b)도 추가로 존재하며, CoT 성능이 특정 어노테이터의 문체에 과적합되지 않았음을 검증하는 용도로 사용된다.

4.2 주요 결과

CoT 프롬프팅과 PaLM 540B 조합은 파인튜닝 없이 태스크별 파인튜닝 모델과 비교 가능한 성능을 달성했다. GSM8K에서는 당시 최고 성능을 기록했다.

모델	태스크	조건	성능
LaMDA 137B	GSM8K	CoT	14.3%
LaMDA 137B	GSM8K	CoT + Python 계산기	17.3% (+21% 상대 향상)
PaLM 540B	GSM8K	CoT	SOTA 달성

LaMDA 137B 규모에서 CoT만으로는 14.3%에 그쳤다. 외부 도구(Python 계산기)를 결합하면 17.3%로 향상된다. PaLM 540B + CoT가 GSM8K SOTA를 달성한 것과 대비하면, 모델 크기가 LaMDA 137B와 PaLM 540B 간 성능 격차의 주요 원인이다. 동일한 CoT 기법이라도 모델 규모가 작으면 효과가 제한적이며, 이는 "창발적 능력" 정의를 수치로 뒷받침한다.

4.3 외부 도구 통합

CoT 실패는 두 종류로 나뉜다.

추론 실패: 논리적 단계 자체가 틀린 경우
계산 실패: 논리는 올바르지만 산술 연산(덧셈, 곱셈 등)에서 실수한 경우

계산 실패는 Python eval()로 교정 가능하다. LLM의 추론 경로(CoT 체인)는 유지하되 수식 평가만 외부로 위임한다. 여러 수식이 한 체인에 나올 때는 문자열 매칭으로 앞 수식의 결과를 뒤 수식에 전파한다. 대부분의 태스크에서 CoT 성능이 유의미하게 향상되지만, 일부 태스크에서는 개선이 없거나 방해가 될 수 있다는 점이 "대부분(most tasks)"이라는 표현에 함축되어 있다.

이는 순수 신경망 추론과 기호 계산기의 하이브리드 접근이며, 파인튜닝 없이 추론 후처리만으로 구현된다. 언어 모델 자체의 산술 계산 능력이 여전히 한계가 있으며, 외부 도구 결합이 보완 수단이 될 수 있음을 시사한다. 단, 도구 결합은 프롬프팅만으로 해결되지 않는 추가 인프라를 요구한다는 트레이드오프가 있다.

4.4 어노테이터 독립성

어노테이터 A의 CoT(99.6%)와 어노테이터 C의 CoT(71.4%) 모두 표준 프롬프팅(50.0%) 대비 유의미한 향상을 보인다. 두 어노테이터 간 성능 격차는 28.2%p이며, CoT 예시 품질(구체성, 논리 전개 명확성)이 결과에 영향을 미침을 시사한다. 그러나 두 어노테이터 모두 기준선을 초과하므로, CoT 효과가 특정 어노테이터에 과적합된 결과가 아니라는 결론을 지지한다.

5. 상식 추론 실험

5.1 CoT의 자연어 확장성

CoT 프롬프팅은 수식 계산보다 자연어 기반 추론에 더 자연스럽게 확장된다. 산술 추론에서 CoT가 효과적임이 먼저 확인되었고, 산술 추론의 CoT 역시 본질적으로 자연어 단계들("먼저 A를 구하면…")로 이루어진다. 상식 추론도 같은 자연어 단계 형식으로 표현 가능하므로, CoT는 산술에 국한되지 않고 물리적·사회적 상식을 요구하는 태스크에도 적용 가능하다는 것이 이 섹션의 핵심 주장이다.

5.2 벤치마크 선정

단일 벤치마크 결과는 데이터셋 특성에 과적합된 효과일 수 있으므로, 논문은 성격이 다른 5개 벤치마크를 선정했다.

벤치마크	특성	출처
CSQA	복잡한 세계 상식, 선택형	학술 벤치마크
StrategyQA	다중 홉(multi-hop) 전략 추론	학술 벤치마크
Date Understanding	문맥에서 날짜 추론	BIG-bench
Sports Understanding	스포츠 관련 문장의 사실성 판단	BIG-bench
SayCan	자연어 명령을 로봇 행동 시퀀스로 매핑	로봇 데이터셋

과제 유형(선택형, 추론형, 계획형)과 출처가 모두 다르므로, 다섯 곳 전체에서 CoT가 효과를 보인다면 범용성 주장이 강화된다.

5.3 프롬프트 구성 방식의 차이

각 벤치마크마다 프롬프트 구성 방식이 달랐다.

CSQA, StrategyQA: 훈련셋에서 무작위 선택 후 수동으로 CoT 작성 (표준 8-shot 방식)
Date, Sports Understanding: 훈련셋이 없어 평가셋 앞 10개를 few-shot 예시로, 나머지로 평가 (잠재적 데이터 오염 가능성 존재)
SayCan: 훈련셋 6개 예시 + 수동 CoT 작성 (다른 태스크보다 shot 수가 적음)

이 비균일성은 실험 조건이 완전히 통제되지 않았음을 의미하며, 태스크별 결과 비교 시 주의가 필요하다.

상식 추론 프롬프트는 5개 파일(appendix-commonsenseqa-prompt, appendix-strategyqa-prompt, appendix-date-understanding-prompt, appendix-sports-understanding-prompt, appendix-saycan-prompt)로 구성된다.

5.4 주요 결과

모델 / 조건	태스크	성능
PaLM 540B + CoT	StrategyQA	75.6%
기존 SOTA	StrategyQA	69.4%
PaLM 540B + CoT	Sports Understanding	95.4%
인간(비전문가)	Sports Understanding	84%

StrategyQA: 절대 차이 +6.2%p로 기존 SOTA를 추월했다. StrategyQA는 다중 홉 추론이 필요한 태스크이므로, 중간 단계를 명시하는 CoT의 구조("먼저 X를 확인하고, 그 다음 Y를 확인하면…")가 multi-hop 전략과 구조적으로 동형이어서 효과가 두드러진다.

Sports Understanding: 모델이 인간(비전문가)을 초과한 사례다. 단, "비전문가 스포츠 애호가(unaided sports enthusiast)"라는 비교 기준이 제한적이므로 전문가 대비 성능은 별도 검토가 필요하다.

참고로, GPT-3의 SST-2(감성 분류 벤치마크) 기준 few-shot 예시 순서만 바꿨을 때 성능이 최선 93.4%, 최악 54.3%로 39.1%p 변동한 사례가 있다. 상식 추론 태스크가 아니지만, few-shot 예시 순서 선택이 결과에 미치는 영향을 보여주는 교차 근거로 활용 가능하다.

5.5 스케일 효과의 재확인

산술 추론에서 관찰된 패턴이 상식 추론에서도 반복된다. 모델 크기를 키우면 표준 프롬프팅 성능이 오르고, CoT 프롬프팅은 그 위에 추가 향상을 제공하며, 향상 폭은 PaLM 540B에서 가장 크게 나타난다.

5.6 CSQA에서의 제한적 효과

CSQA에서는 CoT 적용 후 향상이 최소 수준이었다. CSQA는 복잡한 세계 상식을 묻는 선택형(multiple-choice) 태스크로, 중간 추론 단계 없이도 답을 찍을 수 있어 CoT의 이점이 희석될 수 있다. 또한 CSQA가 요구하는 암묵적 지식(implicit knowledge)의 범위가 넓어, CoT 예시가 포괄하기 어려운 지식 유형이 많을 수 있다. 이는 CoT가 모든 상식 추론 태스크에서 균일하게 효과적이지 않다는 반례다.

6. 기호 추론 실험

6.1 기호 추론의 의의

CoT 프롬프팅의 범용성을 주장하려면 산술·상식 추론에 이어 구조가 명확하게 정의된(well-defined) 추론 도메인에서도 검증이 필요하다. 기호 추론은 인간에게는 단순하지만 LM에게는 추상 심볼을 규칙에 따라 조작해야 한다는 점에서 별도 검증 가치가 있다. 이 섹션의 핵심 목적은 CoT가 학습 시 보지 못한 더 긴 시퀀스(OOD, out-of-distribution)로의 길이 일반화를 가능하게 하는지 검증하는 것이다.

6.2 두 태스크의 설계

마지막 글자 이어붙이기(Last Letter Concatenation)

"Amy Brown" → "yn": 각 단어의 마지막 글자를 순서대로 이어붙이는 규칙이다. 이름은 상위 1,000개 성·이름 센서스 데이터(namecensus.com)에서 무작위 조합하여 생성된다. 첫 글자 이어붙이기는 CoT 없이도 LM이 이미 수행 가능하므로, 마지막 글자 이어붙이기는 의도적으로 더 어려운 변형으로 설계되었다. OOD 설정에서는 예시가 2-word 이름으로만 구성되고, 테스트는 3-4 word 이름으로 진행된다.

동전 뒤집기(Coin Flip)

"동전이 앞면이다. Phoebe가 뒤집는다. Osvaldo는 뒤집지 않는다. 아직 앞면인가?" → "아니오". 동전 상태는 앞면/뒷면의 이진(binary) 결과이므로, 규칙을 추적하지 못하면 무작위 추측(50%)과 다르지 않다. 50%는 "틀렸다"가 아니라 정보 없는 추측의 하한선이다. OOD 설정에서는 few-shot 예시의 플립 횟수보다 더 많은 플립이 포함된 문제로 구성된다.

기호 추론 프롬프트는 appendix-letter-concat-prompt(문자 이어붙이기)와 appendix-coinflip-prompt(동전 뒤집기 추적) 두 파일로 구성되며, 각각 8-shot CoT 예시를 포함한다.

6.3 In-domain 결과

In-domain 설정에서는 few-shot 예시와 동일한 단계 수의 문제가 제시된다. 논문은 이 설정이 완벽한 풀이 구조가 이미 CoT 예시에 제공되어 있어 모델이 새로운 심볼에 대해 같은 단계를 반복하기만 하면 되는 "toy task"라고 인정한다. 그럼에도 소규모 모델은 여전히 실패한다. 이것이 핵심 논거다: 구조가 주어져 있어도 실패한다는 것은 해당 능력이 구조 모방이 아니라 추상 심볼 조작 능력 자체임을 의미한다. 이 능력은 약 100B 파라미터 이상에서만 출현하며, 창발적 능력의 또 다른 실증 사례다.

모델	태스크	방법	정확도
PaLM 540B	기호 추론 in-domain	CoT	거의 100%
PaLM 540B	동전 뒤집기 in-domain	표준 프롬프팅	해결됨
LaMDA 137B	동전 뒤집기 in-domain	표준 프롬프팅	실패

PaLM 540B는 표준 프롬프팅만으로도 동전 뒤집기 in-domain을 해결할 수 있으나, LaMDA 137B는 해결하지 못한다. CoT의 필요성이 태스크뿐 아니라 모델 크기에도 조건부임을 의미한다.

6.4 OOD 일반화 결과

OOD 설정에서는 few-shot 예시보다 긴 입력이 제시된다. 표준 프롬프팅은 두 태스크 모두에서 실패한다. 반면 CoT 프롬프팅은 OOD에서도 모델 크기에 따라 성능이 오르는 스케일링 곡선을 보인다. 다만 in-domain보다는 낮은 수준이다.

이는 CoT가 단순한 패턴 암기가 아니라 구성적(compositional) 추론 절차를 유도한다는 근거가 된다. 모델이 "Amy Brown → yn"이라는 예시를 외운 것이 아니라, "각 단어의 마지막 글자를 추출하고 이어붙이는" 절차 자체를 내재화했을 가능성이 높다.

6.5 어노테이터 간 분산

동전 뒤집기 CoT의 정확도가 어노테이터에 따라 크게 갈린다.

모델	태스크	방법	정확도
LM (미특정)	동전 뒤집기	CoT (어노테이터 A)	99.6%
LM (미특정)	동전 뒤집기	CoT (어노테이터 C)	71.4%
LM (미특정)	동전 뒤집기	표준 프롬프팅	50.0%

어노테이터 A와 C의 격차는 28.2%p다. 동일 CoT 기법이라도 예시 작성자의 추론 스타일에 따라 결과가 크게 달라지며, 이는 CoT의 재현성(reproducibility) 문제를 실증한다. 표준 프롬프팅의 50%와 비교하면 어노테이터 C의 CoT(71.4%)도 의미 있는 개선이나, 어노테이터 A(99.6%)와의 격차는 크다.

7. 논의: 세 도메인의 통합과 창발성

7.1 세 도메인 통합

논문은 Discussion에서 세 도메인 실험을 하나의 논리 체인으로 묶는다.

산술 추론에서 CoT는 다른 모든 ablation(파인튜닝 없이 예시만 변형하는 실험)보다 큰 폭의 성능 향상을 보였으며, 어노테이터·예시 구성·모델 종류가 달라도 결과가 안정적이었다.
상식 추론에서는 CoT가 자연어 기반이라는 특성 덕분에 수학 외 영역에도 일반적으로 적용 가능함이 확인됐다.
기호 추론에서는 CoT가 학습 시 보지 못한 더 긴 시퀀스(OOD)로의 길이 일반화를 가능하게 했다.
세 도메인 모두 파인튜닝 없이 오프-더-셸프(off-the-shelf, 추가 학습 없이 바로 사용하는) 모델에 CoT 예시만 제공하는 방식으로 달성됐다. 이 논문 작성 과정에서 파인튜닝된 언어 모델은 없다.

7.2 창발성 논거

표준 프롬프팅은 모델 규모가 커져도 성능 곡선이 거의 평탄하다. 반면 CoT 프롬프팅은 충분한 규모(약 100B 이상)에서 성능 곡선이 급격히 우상향한다. 이는 CoT 추론이 규모에 의존하는 창발적 능력임을 의미한다. 따라서 표준 프롬프팅 성능은 LLM 능력의 하한(lower bound)에 불과하다는 결론이 도출된다.

7.3 CoT 프롬프팅의 견고성

GPT-3의 SST-2 감성 분석 태스크에서 few-shot 예시 순서만 바꿨을 때 성능이 54.3%(최악)에서 93.4%(최선)로 39.1%p 변동한 사례가 있다. 이는 표준 few-shot 프롬프팅이 예시 구성에 극도로 민감할 수 있음을 보여준다. 반면 CoT는 다른 어노테이터·예시에 대해 견고하다고 명시되어 있으므로, SST-2 감도 데이터는 CoT의 견고성 주장을 뒷받침하는 대조 근거로 기능한다.

8. 한계

저자들은 네 가지 한계를 명시하며, 각각 서로 다른 수준의 문제를 다룬다.

1) "진짜 추론인가"

CoT가 인간 추론 과정을 모방하지만, 신경망이 실제로 추론하는지는 열린 질문이다. 관찰된 행동과 내부 메커니즘의 괴리 문제로, 저자들 스스로 미해결 과제로 남겨두었다.

2) 어노테이션 비용의 비대칭

few-shot 설정에서는 CoT 예시 작성 비용이 최소(약 8개)지만, 파인튜닝을 위해 대규모 CoT 데이터셋을 구축하려면 비용이 폭증한다. 합성 데이터 생성이나 zero-shot 일반화로 우회 가능성이 언급된다.

3) 오류 전파

중간 추론 경로가 잘못되면 최종 답도 틀릴 수 있다. 올바른 추론 경로를 보장하는 메커니즘이 없으며, 이는 CoT 결과를 신뢰하는 다운스트림 시스템에서 오류로 이어질 수 있다.

4) 서빙 비용

창발성이 대규모 모델에서만 나타나므로 거대 모델 운영 부담이 크다. 실제 서비스 환경에서의 배포 비용이 실용적 장벽이 된다.

소규모 모델에서의 역효과

PaLM 8B에서는 CoT가 오히려 성능을 저하시킨 사례가 보고된다. 기호 추론 실험에서 100B 미만 모델은 CoT 예시를 제공해도 실패했다. 소규모 모델에 CoT를 적용하면 역효과가 발생할 수 있으므로, 모델 규모 확인 없이 무분별하게 적용해서는 안 된다.

미래 질문

모델 규모가 더 커지면 추론 능력이 얼마나 더 향상될 수 있는가?
CoT 외에 LLM이 해결할 수 있는 과제의 범위를 넓히는 다른 프롬프팅 방법은 무엇인가?

9. 관련 연구

논문은 CoT 프롬프팅이 다섯 갈래의 선행 연구 흐름에서 영감을 받았다고 밝힌다.

방향 1: 중간 단계를 활용한 추론

Ling et al. (2017)은 자연어 근거를 이용해 수학 단어 문제를 단계별로 풀었다. 이 접근은 당시 주류였던 형식 언어(formal language) 기반 추론 — 기호 논리, SQL, 프로그램 합성 등 — 과 대비된다. Cobbe et al. (2021)이 이를 확장해 대형 사전학습 모델을 더 큰 데이터셋으로 파인튜닝했고, Nye et al. (2021)은 Python 프로그램의 중간 연산 결과를 한 줄씩 예측하는 방식(스크래치패드 기법)이 최종 출력을 바로 예측하는 것보다 낫다는 것을 보였다. 세 연구 모두 "최종 답 직접 예측"보다 "중간 과정 명시"가 추론 성능에 유리함을 지지하나, 모두 파인튜닝 또는 전용 데이터셋 구축을 전제한다. 본 논문은 파인튜닝 없이 few-shot 예시만으로 동일 효과를 낸다는 점에서 차별화된다.

방향 2: 프롬프팅 개선

Brown et al. (2020, GPT-3)이 few-shot 프롬프팅을 대중화한 이후, 프롬프트 입력부를 자동 학습하거나(Lester et al., 2021), 태스크 설명 명령어를 앞에 붙이는(FLAN, InstructGPT 등) 방식이 등장했다. 이들은 입력(prompt input) 측을 강화한다. 본 논문은 이와 직교(orthogonal)하는 방향 — 출력(model output) 측에 추론 체인을 붙이는 방식 — 을 택한다. 따라서 두 방향은 경쟁이 아니라 조합 가능한 관계다.

방향 3-5: 프로그램 합성/실행, 수치·논리 추론, 중간 언어 단계가 나머지 세 방향이며, 상세 논의는 확장 관련 연구(Extended Related Work) 부록으로 미뤄진다.

10. 결론

결론부는 단 3문장으로 논문 전체를 압축한다. 이 간결함 자체가 핵심 기여가 두 가지 개념으로 환원될 만큼 명료하다는 의미다.

첫 번째 개념: "단순하고 범용적"

"단순함"의 근거는 파인튜닝 불필요, 8개의 예시만으로 적용 가능, 오프-더-셸프 모델에 즉시 동작한다는 점이다. "범용성"의 근거는 산술·상식·기호 추론의 세 범주, 여러 벤치마크에서의 검증이다. 단, 범용성의 전제 조건(충분히 큰 모델)이 결론 한 문장에 함축되어 있다.

두 번째 개념: "창발적 능력"

창발적 특성이란 모델 크기를 늘려도 선형적으로 나타나지 않고, 특정 임계점 이상에서 갑자기 출현하는 능력이다. 실험 결과가 이를 지지한다:

PaLM 8B: CoT가 오히려 성능을 저하시키거나 무효
PaLM 540B: GSM8K에서 표준 프롬프팅 대비 대폭 향상, StrategyQA에서 기존 SOTA(69.4%) → 75.6%
기호 추론: 약 100B 파라미터 이상에서만 추상 심볼 조작 능력 출현

이 비선형 임계 현상을 "창발"이라 부른다. CoT는 단순 프롬프트 엔지니어링이 아니라, 대형 모델이 내재적으로 보유한 추론 능력을 표면으로 끌어내는 인터페이스다. "표준 프롬프팅으로 성능이 개선되지 않는다고 해서 모델이 해당 추론 능력이 없다고 결론 내릴 수 없다. CoT를 시도해야 진짜 능력 상한이 드러난다"는 실용적 함의가 따른다.

마지막 문장 "언어 기반 추론 접근법에 대한 추가 연구를 촉발하길 바란다"는 암묵적 대비를 내포한다. 대비 대상은 기호 논리, 외부 추론 엔진, 별도의 파인튜닝 기반 접근법이다. "자연어 그 자체가 범용 추론 매체가 될 수 있는가"라는 질문을 열어 두는 것이다.

결론이 다루지 않는 예외들도 존재한다. 소규모 모델에서의 역효과, 어노테이터 간 성능 격차(28.2%p), CSQA에서의 제한적 향상은 모두 결론에서 생략된다. "충분히 큰 모델"의 정확한 임계값도 결론에서는 수치로 명시되지 않는다.

11. 부록 및 재현성

11.1 실험 재현 패키지

논문 부록은 9개 전체 프롬프트 파일과 7개 Input/Output Examples 파일을 공개한다.

산술 추론 프롬프트:
- appendix-mwp-prompt (GSM8K/ASDiv/MAWPS 계열, 8-shot CoT)
- appendix-aqua-prompt (AQUA-RAT 대수 추론, 8-shot CoT)

상식 추론 프롬프트:
- appendix-commonsenseqa-prompt, appendix-strategyqa-prompt, appendix-date-understanding-prompt, appendix-sports-understanding-prompt, appendix-saycan-prompt

기호 추론 프롬프트:
- appendix-letter-concat-prompt, appendix-coinflip-prompt

각 프롬프트 파일에는 질문, 중간 추론 단계, 최종 답변으로 구성된 CoT 예시가 포함되어 있다. 어노테이터 변이 검증용 대안 버전(appendix-mwp-prompt-alt, appendix-mwp-prompt-alt-b)도 존재한다.

11.2 재현성 한계

GPT-3는 API로 외부 접근 가능하므로 "완전 재현 가능"이라 서술되었지만, LaMDA는 Google 내부 모델이므로 외부 연구자가 직접 재현할 수 없다. LaMDA 관련 결과(137B 모델의 산술 추론 성능 등)는 공개된 입출력 예시로 확인하는 수준에 그치며, 독립 검증이 근본적으로 불가능하다.

11.3 오류 막대 설계

LaMDA 137B에서 여러 시드를 사용해 표준편차를 측정했으며, "시드 하나 = 예시들의 무작위 순서 하나"다. few-shot 프롬프팅에서 예시 순서가 성능에 영향을 준다는 사실을 저자들이 인지하고 있었음을 의미한다. 다만 예시 내용(어떤 8개를 고르는지)에 따른 분산은 별도로 보고되지 않아, 예시 선택 민감도는 미탐구 영역으로 남는다.

11.4 CoT의 팩트성 한계

저자들은 CoT를 사실 정보원으로 사용하거나 실제 서비스 환경에 적용하는 것을 권장하지 않는다고 명시했다. CoT가 추론 정확도를 높이는 도구이지, 출력된 추론 과정 자체가 신뢰 가능한 설명임을 보장하지 않는다. 모델이 맞는 답을 내놓더라도 그 중간 추론 단계가 실제로 올바른 논리적 경로인지는 별개의 문제다.

11.5 신규 데이터셋

동전 뒤집기와 마지막 글자 이어붙이기 두 개의 기호 추론 데이터셋이 이 논문에서 처음 공개되었다. 인간 데이터를 수집하지 않았으므로 IRB 승인이나 개인정보 이슈가 없다. 인공적으로 생성 가능한 기호 조작 문제들로, 논리적 일반화 능력을 테스트하는 데 설계되었다.

11.6 논문 개정 이력

논문은 V1에서 V6까지 총 6회 개정되었다.

버전 전환	주요 변경 내용
V1 → V2	PaLM 결과 추가 (LaMDA 단독 → 다중 모델)
V2 → V3	GPT-3, SVAMP, AQuA, SayCan, 확장 관련 연구, ablation, FAQ, raw results 추가
V3 → V4	타이포 수정, 인용 추가
V4 → V5	Codex, UL2 결과 추가, 문체 수정
V5 → V6	타이포 수정

V1(LaMDA 단독) → V2(PaLM 추가) → V3(GPT-3 및 다중 벤치마크) → V5(Codex, UL2 추가)의 흐름은 저자들이 "CoT 효과의 보편성"을 입증하는 방향으로 점진적으로 증거를 쌓았음을 보여준다. 최종본은 Google과 OpenAI 양쪽 모델, 디코더 전용 및 인코더-디코더 아키텍처, 수학·상식·기호·로봇 계획 등 복수 도메인을 포괄한다.

V3에서 ablation과 FAQ를 대량 추가한 것은 초기 버전이 "왜 CoT가 작동하는가"에 대한 설명이 부족했음을 시사한다. 현상 보고 중심에서 설명 책임 강화로 방향이 전환되었다.

감사의 말(Acknowledgements)에서 Sid Maxwell이 원고의 수동 오류 분석에서 실수를 발견해 알려줬다고 명시되어 있다. 이는 초고 이후 수정 과정을 거쳤음을 의미하며, 오류 분석 결과 수치 또는 해석 일부가 초고와 달라졌을 가능성이 있다. 구체적으로 어떤 수치나 분석이 수정되었는지는 밝혀져 있지 않다.

12. 수치 종합 테이블

논문 전체에서 보고된 주요 수치를 종합한다.

산술 추론

모델	태스크	조건	성능
LaMDA 137B	GSM8K	CoT	14.3%
LaMDA 137B	GSM8K	CoT + Python 계산기	17.3%
PaLM 540B	GSM8K	CoT	SOTA 달성

상식 추론

모델	태스크	조건	성능
PaLM 540B	StrategyQA	CoT	75.6%
기존 SOTA	StrategyQA	-	69.4%
PaLM 540B	Sports Understanding	CoT	95.4%
인간(비전문가)	Sports Understanding	-	84.0%

기호 추론

모델	태스크	조건	성능
LM (미특정)	동전 뒤집기	CoT (어노테이터 A)	99.6%
LM (미특정)	동전 뒤집기	CoT (어노테이터 C)	71.4%
LM (미특정)	동전 뒤집기	표준 프롬프팅	50.0%
PaLM 540B	기호 추론 in-domain	CoT	거의 100%

프롬프팅 민감도 참조

모델	태스크	조건	성능
GPT-3	SST-2	few-shot (최선 순열)	93.4%
GPT-3	SST-2	few-shot (최악 순열)	54.3%

13. 미확인 및 미해결 항목

논문 분석 과정에서 확인이 불가능했거나 논문 자체가 열어 둔 질문들을 정리한다.

PaLM 540B의 GSM8K 구체 수치: 본문에서 "SOTA 달성"이라고만 언급되며 정확한 수치가 명시되지 않는다.
LaMDA 137B의 표준 프롬프팅 기준선: GSM8K에서 CoT 14.3% 대비 표준 프롬프팅이 얼마인지 명시되지 않아 절대 향상 폭을 계산할 수 없다.
어노테이터 비교 수치의 모델 명세: 동전 뒤집기 실험의 어노테이터 비교(99.6% vs 71.4%)에 사용된 모델이 PaLM 540B인지 다른 모델인지 명시되지 않는다.
"충분히 큰"의 정확한 임계점: 실험 결과를 종합하면 약 100B 파라미터가 경험적 임계처럼 보이지만, 논문은 이 수치를 공식적으로 정의하지 않는다.
CoT 체인의 실제 추론 여부: CoT 체인이 모델의 실제 추론 과정을 반영하는지, 올바른 답을 찾은 후 사후 합리화를 생성하는 것인지는 논문이 명시적으로 열어 둔 질문이다.
CSQA의 구체적 수치: "최소한의 향상"이라고 서술되었지만 CoT 대비 표준 프롬프팅의 정확한 수치 차이가 본문에 제시되지 않는다.
인간 기준선의 대표성: Sports Understanding에서의 84% 인간 기준이 "비전문가 스포츠 애호가"로 한정되어 있어, 전문가나 일반 인간 집단 대비 결론이 달라질 수 있다.
계산기 역효과 발생 태스크: 계산기 추가가 "대부분(most tasks)"에서 도움이 된다고 명시했으나, 예외 태스크가 구체적으로 어떤 것인지 서술되지 않는다.
SayCan의 CoT 표현 형식: SayCan 예시가 CoT 추론 단계를 자연어 서술 방식으로 표현하는지, 행동 목록(action list) 형식으로 표현하는지는 부록 파일 내용 없이 확정할 수 없다.
OOD 성능 저하의 원인: CoT가 OOD에서 성공하지만 in-domain보다 낮은 이유가 모델의 길이 편향인지, 추론 단계 수 증가에 따른 오류 누적인지 명시적으로 분석되지 않는다.
Additional Analysis 섹션 내용 누락: 부록의 "Additional Analysis" 섹션은 헤더만 존재하는 빈 청크로, CoT 체인 정오 분석 및 추가 견고성 분석 내용이 청크 분할 과정에서 누락된 것으로 판단된다.

참고: 핵심 선행 연구

연구	기여	CoT와의 관계
Brown et al. (2020)	few-shot 프롬프팅(GPT-3) 대중화	CoT의 기반 프레임워크 제공
Ling et al. (2017)	자연어 rationale을 이용한 수학 단어 문제 풀이	CoT의 "중간 단계" 아이디어의 직접적 선행
Cobbe et al. (2021)	대형 모델 + 대규모 데이터셋 파인튜닝으로 rationale 학습 확장	CoT가 파인튜닝 없이 동일 효과를 내는 것과 대비
Nye et al. (2021)	스크래치패드 기법 — 중간 연산 결과를 단계별 예측	CoT의 "단계별 기록" 개념을 자연어로 옮겨온 것과 대응
Rae et al. (2021)	모델 규모 확장이 추론 과제에서는 불충분함을 보고	CoT 논문의 출발점이 되는 문제 정의
Lester et al. (2021)	프롬프트 입력부 자동 학습	CoT의 출력 측 증강과 직교하는 접근
Wei et al. (FLAN)	태스크 설명 명령어를 통한 instruction tuning	입력 강화 방식으로 CoT와 조합 가능

ABOUT ME