large-language-models-are-zero-shot-reasoners

카테고리 없음 2026. 5. 4. 21:30

type: paper
source: https://arxiv.org/abs/2205.11916

Large Language Models are Zero-Shot Reasoners

항목	내용
저자	Takeshi Kojima, S. Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa
연도	2022
arXiv	2205.11916
분야	Computer Science
인용 수	6807 (Semantic Scholar 기준)

1. 배경 및 문제 정의

1.1 언어 모델의 규모 확장과 프롬프팅 패러다임

언어 모델(Language Model)의 목적은 텍스트에 대한 확률 분포를 추정하는 것이다. 모델 파라미터 수가 수백만(2016년대) → 수억(BERT 수준) → 수천억(GPT-3 등) 규모로 확장되면서, 대형 모델에서 이전에 관찰되지 않던 능력이 나타나기 시작했다.

특히 1,000억(100B) 이상의 파라미터를 가진 모델은 인-컨텍스트 학습(in-context learning) 이 가능해진다. 인-컨텍스트 학습이란 모델의 파라미터를 업데이트(학습)하지 않고, 프롬프트 내에 예시를 제공하는 것만으로 새로운 태스크를 처리하는 방식이다. 이로 인해 "사전학습 → 파인튜닝" 패러다임에서 "사전학습 → 프롬프팅" 패러다임으로 전환이 이루어졌다.

이 논문은 프롬프팅을 두 가지로 명확히 정의한다.

Few-shot 프롬프트: 태스크 예시(입력-출력 쌍)를 컨텍스트에 명시적으로 포함하는 방식
Zero-shot 프롬프트: 예시 없이 템플릿(지시문)만 사용하는 방식

1.2 Few-shot CoT의 등장

다단계 산술·논리 추론 벤치마크(benchmark)는 스케일링 법칙(scaling law, 모델 크기와 데이터 증가에 따라 성능이 예측 가능하게 향상되는 법칙)의 예외 영역이다. 즉, 모델을 키워도 이 유형의 태스크에서는 성능이 거의 오르지 않았다.

Chain-of-Thought(CoT) 프롬프팅은 이 문제를 해결하기 위해 등장했다. Wei et al.이 제안한 CoT 프롬프팅은 few-shot 예시의 답변 부분을 단계별 추론 과정으로 교체하는 기법이다. 기존의 (입력 → 출력) 쌍 대신 (입력 → 추론 과정 → 출력) 트리플을 예시로 제공하여, 모델이 중간 추론 단계를 생성하도록 유도한다.

이 방식은 PaLM처럼 매우 큰 모델과 결합될 때 어려운 벤치마크에서 큰 성능 향상을 달성한다.

1.3 Few-shot CoT의 한계와 연구 공백

Few-shot CoT는 효과적이지만 두 가지 근본적 한계를 안고 있다.

첫째, 태스크 종속성 문제. 태스크마다 단계별 추론 예시를 수작업으로 작성해야 하므로, 태스크 수가 늘수록 엔지니어링 비용이 선형적으로 증가한다.

둘째, zero-shot 기준선의 부재. Wei et al.의 원본 CoT 연구에서는 zero-shot baseline 성능조차 보고하지 않았다. Few-shot learning이 이런 난이도 높은 태스크를 다루는 당연한 전제로 받아들여졌기 때문이다.

이 두 공백이 본 논문의 직접적인 출발점이 된다. 연구 커뮤니티가 zero-shot 추론 가능성을 전혀 탐색하지 않았다는 사실 자체가, LLM 내부에 잠재된 추론 능력이 적절한 프롬프트 신호만으로 활성화될 수 있는지를 검증할 동기를 제공한다.

2. 제안 방법: Zero-shot Chain-of-Thought

2.1 핵심 아이디어

Zero-shot-CoT의 핵심은 단순하다. "Let's think step by step" 이라는 단일 고정 문구를 답변 앞에 삽입하여, 모델이 중간 추론 과정을 생성하도록 유도하는 것이다.

이 방법은 두 가지 선행 접근법과 명확히 구분된다.

비교 대상	Zero-shot-CoT와의 차이
Few-shot-CoT (Wei et al.)	단계별 추론 예시(few-shot examples) 자체가 불필요
기존 템플릿 프롬프팅 (Liu et al.)	태스크에 무관하게(task-agnostic) 작동하며, 단일 템플릿으로 다중 추론 단계를 유도

즉, Zero-shot-CoT는 "예시도 없고, 태스크 전용 설계도 없다"는 점에서 이전의 모든 접근과 구분된다.

2.2 Two-Stage 구조

Zero-shot-CoT는 두 단계로 작동한다.

Stage 1 — 추론 생성 단계.
입력 프롬프트 끝에 "Let's think step by step" (또는 유사 문구)을 삽입한다. 모델은 이 신호에 반응하여 중간 추론 과정(step-by-step reasoning)을 텍스트로 생성한다.

Stage 2 — 답변 추출 단계.
Stage 1에서 생성된 추론 텍스트를 포함한 전체 문맥을 다시 모델에 입력하여 최종 답을 추출한다. Stage 2의 구체적 메커니즘(추출 프롬프트 포맷, 디코딩 전략, 답변 파싱 방식)은 본문에서 상세히 기술되지 않으며, 개요 그림과 부록에서 보완된다.

2.3 설계 특성

Zero-shot-CoT의 세 가지 핵심 특성은 다음과 같다.

Few-shot 예시 불필요 — 단일 고정 문구로 작동한다.
Task-agnostic 단일 템플릿 — 태스크 유형별 커스터마이징이 없다.
Multi-hop reasoning(다단계 추론) 유도 가능 — 다단계 중간 상태를 명시적으로 생성한다.

이 한 줄의 문구가 CoT를 활성화한다는 것은, LLM 내부에 추론 능력이 이미 잠재되어 있으며 적절한 프롬프트 신호만으로 표면화될 수 있다는 가설을 함의한다.

2.4 프롬프트 템플릿 민감도

본 논문은 "Let's think step by step" 외에도 유사한 텍스트들을 별도 표에서 함께 실험했음을 명시한다. 특정 문구 선택이 임의적이지 않으며, 프롬프트 문구 자체의 민감도를 평가했음을 뜻한다. 역으로 말하면, 잘못된 문구를 선택하면 효과가 달라질 수 있음을 연구자 스스로 인지하고 있다.

3. 실험 설계 및 결과

3.1 실험 목적

실험 섹션은 두 가지 핵심 질문에 답하기 위해 설계되었다.

단순 프롬프트 삽입만으로 few-shot 예시 없이도 추론 성능이 유의미하게 향상되는가?
이 효과가 특정 태스크 유형에 국한되지 않고 범용적인가?

이 두 질문에 답하기 위해 산술·기호·논리 추론 등 이질적인 태스크 유형에 걸쳐 text-davinci-002와 PaLM 540B를 공통 베이스라인으로 사용하였다.

3.2 산술 추론 결과

MultiArith 벤치마크:

조건	정확도
Zero-shot (baseline)	17.5%
Zero-shot-CoT	78.7%
향상폭	+61.2%p

단 하나의 고정 프롬프트로 61%p 이상의 절대적 향상이 발생하였다.

(※ MultiArith Zero-shot baseline 수치는 논문 내부에서 불일치가 존재한다. 실험 본문에서는 17.5%로, 초록·서론에서는 17.7%로 보고되어 있다. 원인은 평가 시드 차이, 반올림, 또는 실험 variant 차이로 추정되나 본문에 명시되지 않았다.)

GSM8K (Grade School Math) 벤치마크:

조건	정확도
Zero-shot (baseline)	10.4%
Zero-shot-CoT	40.7%
향상폭	+30.3%p

MultiArith보다 절대 향상폭은 작지만, 베이스라인 대비 약 3.9배 성능 상승이다. GSM8K는 MultiArith보다 문제 복잡도가 높아 절대 수치는 낮지만, 비율적 향상은 여전히 크다.

스케일 맥락 비교 (PaLM 540B, GSM8K):

조건	정확도
Standard few-shot	17.9%
Few-shot CoT prompting	58.1%

PaLM 540B에서도 CoT 효과가 극적으로 나타난다. Zero-shot-CoT(text-davinci-002)가 달성한 40.7%는 PaLM 540B의 few-shot baseline(17.9%)을 이미 크게 상회한다.

3.3 기호 추론 결과

Last Letter Concatenation (4단어):

조건	정확도
Zero-shot (baseline)	~0%
Zero-shot-CoT	57.6%
향상폭	+57.6%p

이 태스크는 4개 단어의 마지막 글자를 순서대로 연결하는 작업으로, 직관적 처리(패턴 매칭)로는 거의 불가능하다. 베이스라인이 사실상 0%라는 것은 이 태스크가 중간 추론 단계 없이는 해결 불가능함을 의미한다. Stage 1이 바로 이 중간 상태를 명시적으로 생성하도록 모델을 유도하는 메커니즘이다.

Coin Flip:

조건	정확도
Zero-shot (baseline)	53.8%
Zero-shot-CoT	91.4%
향상폭	+37.6%p

Coin Flip은 동전의 뒤집기 순서를 추적하는 태스크로, 상태 추적(state tracking)이 핵심이다. 베이스라인 53.8%는 이진 태스크의 무작위 추측(50%) 수준에 가깝다. 즉 모델이 추론 없이 거의 찍기 수준으로 응답하고 있었으나, "Let's think step by step"을 추가하자 91.4%로 급상승했다.

3.4 태스크 유형 간 공통 패턴

산술(MultiArith, GSM8K)과 기호(Last Letter, Coin Flip) 두 유형 모두에서 대폭 향상이 관찰된다. 이 태스크들은 공통적으로 다단계 중간 상태(multi-step intermediate states) 를 필요로 한다. Two-stage 구조의 Stage 1이 바로 이 중간 상태를 명시적으로 생성하도록 모델을 유도하며, 이 공통 패턴이 Zero-shot-CoT의 task-agnostic 특성을 뒷받침한다.

모델이 내부에 잠재된 추론 절차를 갖고 있었으나, 활성화 신호가 없어 단답 모드로 응답하고 있었다는 가설은 이 결과들로 간접 지지된다.

3.5 전체 수치 요약

text-davinci-002 기준 주요 결과:

태스크	Zero-shot baseline	Zero-shot-CoT	향상폭
MultiArith	17.5%*	78.7%	+61.2%p
GSM8K	10.4%	40.7%	+30.3%p
Last Letter Concat (4단어)	~0%	57.6%	+57%p 이상
Coin Flip	53.8%	91.4%	+37.6%p

*논문 내 17.5%와 17.7% 두 수치가 혼재 — 논문 내부 불일치

3.6 수치 불일치 사항

논문 내부에서 동일 항목에 대해 상이한 수치가 보고되는 경우가 존재한다.

항목	위치 A	위치 B	차이
MultiArith Zero-shot baseline	초록·서론: 17.7%	실험 본문: 17.5%	0.2%p
GSM8K Zero-shot baseline	단독 실험: 10.4%	Self-Consistency 비교 실험: 12.5%	2.1%p

GSM8K의 2.1%p 차이는 비교 실험 구성이 달랐거나, Zero-shot-CoT-v2 variant 사용에 따른 차이로 추정되나, 본문에서 원인이 명시되지 않았다.

4. 추가 실험: Self-Consistency와 PaLM 540B

4.1 Self-Consistency의 개념

Self-consistency(Wang et al.)는 Zero-shot-CoT의 단일 추론 경로가 가진 오류 취약성을 보완하기 위한 앙상블(ensemble) 기법이다. 무작위 샘플링(random sampling)으로 N회 추론 경로를 생성한 뒤, 다수결(majority voting) 로 최종 답을 결정한다.

따라서 Zero-shot-CoT + self-consistency = "템플릿 1개 × N회 sampling → 다수결"이 되어 추론 안정성이 높아진다.

4.2 GSM8K Self-Consistency 결합 결과

방법	GSM8K 정확도
Standard Zero-shot	12.5%
Zero-shot-CoT-v2 + Self-Consistency	70.5%
Few-shot CoT (Wei et al.) + Self-Consistency	74.4%
Zero-shot과 Few-shot 격차	-3.9%p

Self-consistency를 결합하면 zero-shot 방법과 few-shot 방법의 성능 격차가 3.9%p로 좁혀진다. 이는 Zero-shot-CoT의 한계가 추론 능력 자체의 부재가 아니라, 단일 추론 경로의 분산(variance)에 기인함을 시사한다.

4.3 Zero-shot-CoT-v2

논문의 주석(commented-out) 영역에서 Zero-shot-CoT-v2라는 변형이 확인된다. 이 방법의 절차는 다음과 같다.

학습 데이터에서 소수 문제를 샘플링
Zero-shot-CoT로 해당 문제의 추론 경로 및 답을 자동 생성
이 Q/A 쌍(추론 텍스트 포함)을 few-shot 예시로 삽입

즉, Zero-shot-CoT-v2는 수작업 예시 없이 Zero-shot-CoT가 자동 생성한 추론 경로를 few-shot 예시로 재활용하는 자기 부트스트래핑(self-bootstrapping) 구조다. Zero-shot과 Few-shot의 경계를 흐리는 접근이다.

다만, Zero-shot-CoT-v2는 학습 데이터에서 문제를 샘플링하므로 순수 zero-shot이 아니라 학습 데이터 접근을 전제로 한다. "Zero-shot"이라는 용어의 엄밀한 정의와 충돌할 수 있다. 또한 이 내용이 최종 출판본에 포함되었는지 여부는 주석 처리 상태로 인해 불분명하다.

4.4 Self-Consistency의 비용 트레이드오프

Self-consistency는 추론 경로를 N회 샘플링하므로 추론 비용이 N배 증가한다. 효율성과 정확도 간 트레이드오프가 존재하며, N의 구체적 값은 본문에 명시되지 않았다.

5. 결론 및 논문의 한계

5.1 결론의 핵심 주장

결론부는 두 개의 독립적 주장 레이어로 구성된다.

레이어 1: 회고적 클레임 — 무엇을 달성했는가.

논문은 Zero-shot-CoT를 "미니멀리스트(minimalist)이자 가장 강력한 zero-shot baseline"으로 규정한다.

"미니멀리스트"의 의미: 태스크별 수작업 예시가 필요 없는 단일 고정 프롬프트만 사용한다.
"가장 강력한"의 근거: MultiArith +61.2%p, GSM8K +30.3%p, Coin Flip +37.6%p 향상이 실험으로 확인되었다.
핵심 기여 구조: 최소 비용과 최고 성능이 동시에 성립한다는 파레토 우위(Pareto improvement, 한 측면을 개선하면서 다른 측면을 악화시키지 않는 상태) 주장이다.

"스케일링 법칙을 오랫동안 벗어났던 태스크들"이라는 수식어는 중요한 함의를 담고 있다. 산술·기호 추론 등 system-2 태스크(의식적·분석적 사고를 요구하는 태스크)는 모델을 키워도 성능이 거의 오르지 않는 영역이었다. Zero-shot-CoT는 추가 파라미터 없이 프롬프트만으로 이 정체를 돌파했다. 따라서 결론은 단순히 "좋은 방법을 찾았다"가 아니라 "기존 스케일링으로 해결 안 되던 문제를 해결했다"는 더 강한 클레임을 내포한다.

레이어 2: 전향적 제언 — 커뮤니티에 무엇을 요구하는가.

"좁은 태스크 특화 스킬 대신, 광범위한 인지 능력을 끌어내는 multi-task 프롬프트 발굴"을 촉구한다.

논리 구조는 다음과 같다. Zero-shot-CoT가 단일 프롬프트로 여러 태스크에서 효과를 보였다 → LLM 내부에는 task-agnostic한 추론 잠재력이 있다 → 이를 일반적으로 활성화하는 더 나은 프롬프트를 찾을 수 있다.

단, 결론은 "어떻게 찾는가"에 대한 구체적 방법론을 제시하지 않으며, 순수한 연구 방향 제시 수준에 그친다.

5.2 결론에서 삭제된 한계

결론 초고의 LaTeX 주석에서 commonsense reasoning(상식 추론)에 대한 한계 언급이 발견된다. Zero-shot 기반 CoT 방법이 commonsense reasoning과 같은 일부 추론 태스크에서 효과적이지 않다는 내용이다.

이 내용은 최종 제출본에서 삭제되었으므로, 공식 결론은 한계를 명시하지 않는다. 독자가 결론만 읽으면 Zero-shot-CoT의 적용 범위 제한을 파악하기 어렵다.

5.3 실제 한계 정리

논문 전체를 종합하면, Zero-shot-CoT의 한계는 다음과 같이 정리된다.

1. Commonsense reasoning에서의 제한.
결론 초고 주석에서 확인되는 바와 같이, commonsense reasoning 태스크에서 Zero-shot-CoT는 효과가 제한적이다.

2. 모델 규모 의존성.
CoT 효과는 대규모 모델(text-davinci-002, PaLM 540B)에서 두드러지게 나타난다. 결론의 "strongest zero-shot baseline" 클레임은 대형 모델에 국한되며, 소규모 모델(PaLM 8B 등)에서는 CoT 유도가 효과가 없거나 역효과를 낼 수 있다. 결론이 이 조건을 명시하지 않아 일반화 오류를 유발할 수 있다.

3. Few-shot CoT 대비 열위.
Self-consistency와 결합해도 Zero-shot-CoT(70.5%)는 Few-shot CoT + Self-consistency(74.4%)에 미치지 못한다. "strongest zero-shot baseline"이라는 클레임은 zero-shot 설정 내에서만 유효하며, few-shot 방법과의 절대 비교에서는 여전히 뒤처진다.

4. 프롬프트 문구 선택의 민감도.
"Let's think step by step" 외 다양한 문구를 실험했다는 것은, 문구 선택에 따라 성능이 달라질 수 있음을 의미한다. 단일 문구의 보편성에 대한 보증은 제한적이다.

6. 방법론적 특성

6.1 순수 실증 연구

본 논문은 수학적 증명이나 정리를 포함하지 않는다. 순수 실증(empirical) 연구로서, "왜 'Let's think step by step'이 작동하는가"에 대한 이론적 설명은 제공되지 않는다. 메커니즘 해석은 여전히 열린 문제로 남는다.

6.2 오차 막대 부재와 그 정당성

실험에서 오차 막대(error bar)가 보고되지 않았다. 그 이유로 "GPT-3 API에서 greedy decoding을 사용했으며, 실험에 무작위성이 없다"를 명시했다.

Greedy decoding은 온도(temperature) 파라미터를 0으로 설정하여 항상 가장 확률이 높은 토큰을 선택하는 디코딩 전략이다. 따라서 동일 입력에 대해 항상 동일 출력이 생성되므로 반복 실험이 불필요하다.

이 선택은 재현 가능한 단일 점(single point) 추정이라는 점에서 정당하다. 다만, API 버전 업데이트나 프롬프트 문구의 미세 변화에 따른 성능 분산은 측정되지 않았다. 프롬프트 표현 변화(예: "Let's think step by step" vs "Think step by step")에 대한 민감도 분석 부재가 일반화 가능성에 의문을 남긴다.

6.3 인간 평가 부재

크라우드소싱이나 인간 주석(annotation)이 사용되지 않았다. 전적으로 자동화된 벤치마크 평가이며, 모델 출력의 정성적 품질은 정확도(exact match)로만 측정된다.

6.4 재현성 자료 공개

코드, 데이터, 실험 지시사항이 공개되었다. 프롬프트의 정확한 표현이 성능에 직접 영향을 미치는 프롬프팅 연구 특성상, 이는 중요한 기여다. 다만, PaLM 540B 실험은 Google 내부 인프라를 통해 수행되었으므로 공개 자료만으로는 재현이 불가능하다.

7. 연구 인프라 및 재현성

7.1 자금 및 기관 지원

이 연구는 도쿄대학교에 설치된 MbSC2030(Mohammed bin Salman Center for Future Science and Technology for Saudi-Japan Vision 2030)의 지원을 받았다. 사우디-일본 비전 2030 이니셔티브의 일환으로, 일본 학계와 중동 자금이 결합된 연구 기반이다.

7.2 컴퓨팅 자원의 물리적 분리

PaLM을 제외한 실험에는 AIST(National Institute of Advanced Industrial Science and Technology)가 운영하는 ABCI(AI Bridging Cloud Infrastructure)가 사용되었다.

PaLM 실험은 Google 내부 인프라를 통해 별도로 진행되었다. Jason Wei, Denny Zhou가 PaLM 실험 실행에 직접 관여했고, Sharan Narang, Aakanksha Chowdhery가 인프라를 지원했다.

이는 두 실험 환경이 물리적으로 분리되어 있음을 의미한다.

7.3 재현 가능성 제약

PaLM 540B 관련 수치는 Google 연구진과의 협력 없이는 독립적으로 재현하기 어렵다. 논문 본문에서 PaLM 재현 관련 프로토콜이 명시되지 않았기 때문이다. 이 점은 결과의 신뢰성 자체보다는 재현 가능성(reproducibility) 측면의 제약으로 이해해야 한다.

8. 부록: 정성적 분석 자료의 구조

8.1 부록 인덱스 구성

부록의 추가 실험 결과 섹션은 수치가 아닌 생성 텍스트의 정성적(qualitative) 비교를 제공하기 위해 구성되었다. 포함된 테이블 항목은 다음과 같다.

데이터셋별 생성 예시 텍스트
답변 추출 템플릿별 생성 예시 텍스트
모델 크기별 생성 예시 텍스트 (두 개 테이블로 분리 — 소형 모델과 대형 모델 비교)
Few-shot 기준 모델의 생성 예시 텍스트
Few-shot-CoT의 생성 예시 텍스트
다른 태스크의 예시를 사용한 Few-shot-CoT (예: CommonsenseQA 예시를 MultiArith에 적용)
Zero-Plus-Few-Shot-CoT 예시
PaLM 540B에서의 다양한 결과 시나리오 비교

8.2 주목할 항목

다른 태스크 예시의 전용(transfer) 실험:
CommonsenseQA의 예시를 MultiArith 태스크에 적용한 실험이 포함되어 있다. Few-shot-CoT는 태스크마다 수작업 예시가 필요한데, 다른 태스크의 예시를 사용해도 성능이 유지되는지를 검증하는 것이 목적이다.

Zero-Plus-Few-Shot-CoT:
Zero-shot-CoT로 생성한 추론 체인을 few-shot 예시로 재활용하는 하이브리드 방식으로 추정된다. 위에서 기술한 Zero-shot-CoT-v2와 관련된 변형일 가능성이 있으나, 정확한 정의는 주요 실험 섹션에서 확인이 필요하다.

PaLM 540B 다양한 결과 시나리오:
"different outcome scenarios"라는 표현은 Zero-shot-CoT가 모든 모델-태스크 조합에서 일관되게 우수하지 않을 수 있음을 시사한다. 논문이 이를 별도 테이블로 수록한 것은 실패 사례나 비일관적 사례를 숨기지 않겠다는 의도로 해석된다.

8.3 LaTeX 소스 주석 처리

제공된 LaTeX 소스에서 부록 테이블 입력 명령 5건이 주석(%) 처리되어 있다. 주석 처리된 테이블은 프롬프트 템플릿별, 모델 크기별, 데이터셋별, Few-shot, Few-shot-CoT 생성 예시다. 이들이 주석 처리된 이유가 출판 지면 절약인지, 내용 미완성인지, arXiv 업로드 시점의 초안 상태인지는 확인할 수 없다.

9. 미해결 사항 종합

#	항목	상태
1	MultiArith baseline 17.5% vs. 17.7% 불일치 원인	논문 내부 불일치, 원인 미명시
2	GSM8K Zero-shot baseline 10.4% vs. 12.5% 이중 보고 이유	실험 구성 차이로 추정, 미확인
3	Zero-shot-CoT-v2의 정확한 정의 및 출판본 포함 여부	주석 영역 출처, 불분명
4	Stage 2 답변 추출 방식의 구체적 메커니즘	개략적 역할만 확인, 상세 미명시
5	Self-consistency 샘플링 횟수(N)	본문 미명시
6	"Let's think step by step"이 작동하는 이론적 메커니즘	실증적 확인만 존재, 이론적 해명 미제공
7	Commonsense reasoning 한계 기술이 결론에서 삭제된 의도	의도적 범위 축소인지 편집 과정의 생략인지 불명확
8	Task-agnostic 주장의 정확한 적용 범위	효과가 제한되는 태스크 범주의 체계적 분석 미포함
9	Zero-Plus-Few-Shot-CoT의 정확한 정의	본문 확인 필요
10	소규모 모델에서의 역효과 정도	PaLM 540B, text-davinci-002 외 모델 결과 부재

참고: 핵심 선행 연구

선행 연구	본 논문과의 관계
Wei et al. — Chain-of-Thought Prompting	Few-shot CoT 원본. 단계별 추론 예시를 few-shot에 삽입하는 방식 제안. Zero-shot baseline을 보고하지 않아 본 논문의 직접적 동기가 됨
Wang et al. — Self-Consistency	다수결 기반 추론 경로 앙상블. Zero-shot-CoT와 결합 시 Few-shot CoT와의 격차를 3.9%p로 축소
Brown et al. — GPT-3	100B+ 모델의 인-컨텍스트 학습 능력 발견. "사전학습 → 프롬프팅" 패러다임 전환의 기반
Chowdhery et al. — PaLM	540B 파라미터 모델. 본 논문에서 대형 모델 검증에 사용. GSM8K에서 few-shot 17.9% → CoT 58.1% 달성
Liu et al. — Template Prompting	태스크별 템플릿 프롬프팅 연구. Zero-shot-CoT는 이와 달리 task-agnostic 단일 템플릿으로 multi-hop reasoning을 유도한다는 점에서 구분됨

ABOUT ME