Self-Consistency Improves Chain of Thought Reasoning in Language Models

카테고리 없음 2026. 5. 4. 21:31

type: paper
source: https://arxiv.org/abs/2203.11171

Self-Consistency Improves Chain of Thought Reasoning in Language Models

항목	내용
저자	Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou
연도	2022
arXiv	2203.11171
분야
인용 수	0 (Semantic Scholar 기준)

1. 배경 및 문제 정의

복잡한 추론 문제에는 정답에 도달하는 경로가 하나만 존재하지 않는다. "사과 3개에서 2개를 먹으면 몇 개 남는가?"라는 문제를 풀 때, 뺄셈으로 접근할 수도 있고 남은 것을 세는 방식으로 접근할 수도 있지만, 올바른 추론이라면 결국 같은 답(1개)에 수렴한다. Self-consistency는 이 직관을 디코딩 전략으로 정형화한 것이다.

기존 Chain-of-thought의 구조적 취약점

Chain-of-thought(CoT) 프롬프팅은 greedy decoding을 사용한다. Greedy decoding이란 매 토큰 생성 시 확률이 가장 높은 하나만 선택하는 방식으로, 단일 추론 경로만 생성한다. 이 방식은 해당 경로에서 실수가 발생하면 최종 답이 틀려지는 구조적 취약점을 갖는다. 한 번의 추론 실패가 전체 결과를 결정하며, 복구 메커니즘이 존재하지 않는다.

기존 대안의 한계

Verifier(검증기)나 re-ranker(재순위기)를 사용하는 방법은 별도의 학습 데이터와 fine-tuning이 필요하다. 이는 추가 모델 학습, 파라미터 조정, 보조 데이터셋 구축 등 상당한 비용을 수반한다. Self-consistency는 이 모든 과정 없이, 기존 CoT 프롬프트를 그대로 사용하면서 디코딩 전략만 교체하는 완전 비지도(unsupervised) 방식이다.

2. Self-Consistency 방법론

수학적 정의

Self-consistency(SC)는 CoT 프롬프팅에서 단일 greedy decoding 대신, 언어 모델의 디코더로부터 다수의 추론 경로를 샘플링한 뒤 최종 답변에 대해 다수결 투표(majority vote)를 수행하는 디코딩 전략이다.

핵심 수식은 다음과 같다:

$\hat{a} = \arg\max_{a} \sum_{i} \mathbf{1}(a_i = a)$

여기서 각 기호의 의미는 다음과 같다:
- $r_i$ : 샘플링된 개별 추론 경로(잠재 변수)
- $a_i$ : 해당 경로에서 도출된 최종 답변
- $\mathbf{1}(a_i = a)$ : 지시 함수(indicator function)로, $a_i$ 가 특정 답 $a$ 와 같으면 1, 아니면 0을 반환

이 수식의 의미는 추론 경로 $r_i$ 를 주변화(marginalize)하고, 답변 $a_i$ 에 대해서만 집계한다는 것이다. 어떤 경로를 거쳤는지는 무시하고, 최종 답변이 가장 많이 등장한 것을 선택한다.

3단계 절차: Sample-and-Marginalize

샘플링: 언어 모델의 디코더에서 temperature 등을 조절하여 다양한 추론 경로를 복수 생성한다.
답 추출: 각 추론 경로에서 최종 답변을 파싱한다.
다수결 투표: 가장 많이 등장한 답을 최종 답으로 선택한다.

이 절차의 핵심 원리는 다음과 같다. 올바른 답변은 여러 경로에서 일관되게(consistently) 도출될 가능성이 높은 반면, 잘못된 답변은 경로마다 다른 오답을 내놓아 표가 분산된다. 저자들은 이를 "self-ensemble"이라 부르는데, 단일 모델 내에서 다양한 출력을 앙상블하는 효과를 얻기 때문이다.

작동 예시

산술 추론 문제 "Janet's ducks lay 16 eggs per day..."에 대해 temperature를 높여 3회 샘플링하면:

경로 1: "16 − 3 = 13, 13 − 4 = 9, 9 × 2 = 18" → 답: 18
경로 2: "하루 16개 중 아침 3개 소비, 머핀 4개 소비, 남은 9개를 $2에 판매 → 9 × 2 = 18" → 답: 18
경로 3: "16 − 3 = 13, 13개 중 4개를 머핀에 사용... 계산 오류 ..." → 답: 20 (오류 경로)

다수결로 2/3이 18이므로 최종 답은 18이 선택된다. Greedy decoding이었다면 경로 3이 선택될 수도 있었을 상황에서, 다수결이 오류를 상쇄한다.

샘플링 호환성

SC는 다양한 샘플링 전략과 호환된다:

Temperature sampling: 온도 파라미터를 높여 출력 다양성을 증가시키는 방식
Top-k sampling: 확률 상위 $k$ 개 토큰에서만 샘플링하는 방식
Nucleus (top-p) sampling: 누적 확률이 $p$ 이하인 토큰 집합에서 샘플링하는 방식

이 유연성은 SC가 특정 디코딩 방식에 종속되지 않으며, 기존 인프라에 쉽게 통합 가능함을 의미한다.

3. 답변 집계 전략 비교

SC는 단순 다수결(majority vote) 외에도 여러 집계 전략을 실험하여, 어떤 집계 방식이 가장 효과적인지를 체계적으로 검증했다.

6가지 집계 전략

Greedy decode: 기존 CoT 방식. 가장 높은 확률의 토큰을 순차적으로 선택하여 단일 경로만 생성.
Weighted average (unnormalized): 각 추론 경로의 로그 확률을 가중치로 사용하여 답변의 가중 평균을 계산. 정규화 없이 사용.
Weighted average (normalized): 위와 동일하되, 시퀀스 길이로 로그 확률을 정규화.
Weighted sum (unnormalized): 각 답변에 대해 해당 답을 생성한 경로들의 로그 확률 합. 정규화 없음.
Weighted sum (normalized): 위와 동일하되, 길이 정규화 적용.
Majority vote (unweighted): 단순 다수결. 확률 가중치 없이 빈도만 카운트.

PaLM-540B 기준 집계 전략별 정확도 (%)

방법	GSM8K	SVAMP	AQuA	ARC-c	StrategyQA	ARC-e
Greedy decode	56.5	79.0	35.8	85.2	75.3	95.3
Weighted avg (unnorm)	56.3	56.8	29.5	78.7	67.8	91.2
Weighted avg (norm)	22.1	44.7	25.2	76.1	65.3	89.8
Weighted sum (unnorm)	59.9	80.1	38.6	84.9	74.1	95.1
Weighted sum (norm)	74.1	87.8	45.3	88.7	79.2	96.8
Majority vote	74.4	86.6	48.3	88.7	81.6	96.4

핵심 분석

Majority vote와 normalized weighted sum이 거의 동일한 성능을 보였다 (GSM8K에서 74.4 vs 74.1). 이는 대형 언어 모델의 출력 확률이 각 생성에 대해 유사하게 높게 분포하여, 확률 기반 가중치가 실질적으로 균등 가중치와 큰 차이를 만들지 못함을 시사한다. 즉, 대형 모델의 확률 보정(calibration)이 답변의 정확도를 신뢰성 있게 반영하지 못한다.

Normalized weighted average의 극단적 성능 저하: GSM8K에서 22.1%로, greedy decode(56.5%)보다 34.4%p나 낮은 성능을 기록했다. 가중 평균은 수치 답변을 확률로 가중 평균하는 방식인데, 정답이 "18"이고 오답이 "100"일 때 가중 평균이 "59"처럼 의미 없는 값을 산출한다. 이는 집계 전략의 선택이 성능에 치명적 영향을 미칠 수 있음을 보여준다.

Unnormalized 방식의 일관된 열위: 정규화를 적용하지 않은 weighted sum은 greedy decode와 비슷하거나 약간 나은 수준에 그쳤다. 긴 추론 경로는 토큰 수가 많아 로그 확률의 절대값이 커지므로, 정규화 없이는 짧은 경로에 부당한 편향이 생기기 때문이다.

4. 산술 추론 실험 결과

실험 설정

4개 언어 모델을 대상으로 실험을 수행했다:

UL2-20B: 200억 파라미터 규모의 비교적 소형 모델
GPT-3-175B: 1750억 파라미터 모델. code-davinci-001과 code-davinci-002 두 버전 사용
LaMDA-137B: 1370억 파라미터 대화 모델
PaLM-540B: 5400억 파라미터 모델로 실험 중 최대 규모

프롬프팅은 few-shot 방식으로 8개의 예시(exemplar)를 제공했다. 각 예시는 문제-풀이과정-답변의 CoT 형태로 구성된다. 샘플링 시 temperature $T = 0.5$ 또는 $0.7$ , top- $k = 40$ 을 사용했다.

평가 태스크 6종

AddSub: 덧셈/뺄셈 문장제 문제
MultiArith: 다단계 산술 문장제 문제
ASDiv: 다양한 유형의 산술 문장제 문제
AQuA: 대수적 단어 문제 (객관식)
SVAMP: 구조 변형을 통한 산술 추론 난이도 강화 벤치마크
GSM8K: 초등 수학 수준의 다단계 추론 문제 (가장 높은 난이도)

산술 추론 정확도 (%)

모델	방법	AddSub	MultiArith	ASDiv	AQuA	SVAMP	GSM8K
Previous SoTA	-	92.0	60.0	75.3	37.9	57.4	55.0
UL2-20B	CoT	48.1	27.2	42.7	20.5	36.4	4.1
UL2-20B	SC	51.0	33.7	45.7	23.6	39.4	7.0
LaMDA-137B	CoT	52.9	51.8	49.0	20.6	39.9	17.1
LaMDA-137B	SC	58.7	63.3	56.0	25.2	53.4	27.7
GPT-3 code-001	CoT	57.2	59.5	52.7	18.9	39.8	14.6
GPT-3 code-001	SC	67.8	82.7	61.9	25.6	54.5	23.4
GPT-3 code-002	CoT	87.6	96.8	79.6	42.1	76.4	60.1
GPT-3 code-002	SC	92.7	100.0	87.8	52.0	86.8	78.0
PaLM-540B	CoT	91.9	94.7	74.0	35.8	79.0	56.5
PaLM-540B	SC	93.7	99.3	81.9	48.3	86.6	74.4

핵심 발견: 모델 스케일과 SC 이득의 관계

모델 크기가 클수록 SC의 이득이 극적으로 증가한다. UL2-20B에서는 CoT 대비 +3~6%p 수준의 소폭 향상에 그쳤으나, 1000억 파라미터 이상 모델에서는 대폭 향상을 보였다. 이는 소형 모델에서는 산술 추론 능력 자체가 충분히 발현되지 않아, 다양한 경로를 샘플링해도 올바른 추론 경로의 비율이 낮기 때문이다.

GPT-3 code-davinci-002에서는 MultiArith에서 100.0%라는 완벽한 정확도를 달성했다. 이는 코드 학습 데이터가 산술 추론에 특히 유리하게 작용한 결과로 해석된다.

이미 높은 기준선에서의 포화 현상

AddSub처럼 CoT 기준선이 이미 90%를 넘는 경우(PaLM-540B CoT 91.9% → SC 93.7%), 절대적 향상폭은 +1.8%p로 축소된다. SC의 이점은 모델이 "거의 맞추지만 가끔 틀리는" 영역에서 극대화되며, 이미 포화 상태이거나 아예 능력이 부족한 양극단에서는 효과가 제한적이다.

5. 상식 추론, 기호 추론 및 NLP 태스크 결과

상식 추론

CommonsenseQA(CSQA), StrategyQA, ARC-easy, ARC-challenge 4개 태스크에서 SC는 모든 모델 스케일에 걸쳐 greedy CoT 대비 일관된 정확도 향상을 보였다.

상식/기호 추론 정확도 (%)

태스크	UL2 CoT	UL2 SC	GPT-3 CoT	GPT-3 SC	LaMDA CoT	LaMDA SC	PaLM CoT	PaLM SC	PaLM+code CoT	PaLM+code SC
CSQA	55.8	61.0	73.5	76.7	57.9	63.1	79.0	80.7	81.0	82.3
StrategyQA	54.7	59.4	65.4	74.0	65.4	70.0	75.3	81.6	77.8	82.9
ARC-easy	78.2	82.2	89.2	92.0	77.3	83.5	95.3	96.4	95.8	96.8
ARC-chall	42.2	45.6	60.5	63.5	48.7	54.6	85.2	88.7	86.4	90.1
Letter(4)	0.0	0.0	59.0	72.4	24.2	36.0	65.8	70.8	86.2	93.6
Coinflip(4)	50.0	55.0	69.8	84.2	52.8	63.2	88.2	91.2	99.6	100.0

기호 추론과 OOD 일반화

Last Letter Concatenation과 Coinflip 태스크는 프롬프트에서 2개 항목으로 예시를 보여주고, 테스트 시 4개 항목으로 확장하는 OOD(Out-of-Distribution) 설정이다. Coinflip(4)에서는 SC가 성능을 끌어올리지만, Letter(4)에서 UL2-20B는 CoT 자체가 0.0%이므로 SC를 적용해도 0.0%에 머문다. 기저 모델의 추론 능력이 근본적으로 부족하면 다양한 경로를 샘플링해도 올바른 답이 후보군에 포함되지 않기 때문이다.

CoT가 역효과를 내는 NLP 태스크에서의 SC 회복 효과

자연어 추론(NLI) 계열인 ANLI R1·R2·R3, e-SNLI, RTE와 질의응답인 BoolQ, HotpotQA에서 CoT 프롬프팅이 standard 프롬프팅보다 오히려 정확도가 낮아지는 현상이 관찰된다. 이 태스크들은 복잡한 다단계 추론보다 패턴 매칭이나 직관적 판단이 유리한 경우로, CoT가 불필요한 추론 단계를 삽입하여 오류를 유발한다.

그러나 SC를 적용하면 다수결 투표가 이런 산발적 오류 경로를 걸러내어, standard 프롬프팅은 물론 CoT까지 넘어서는 정확도를 회복한다.

CoT 역효과 태스크에서의 SC 회복 (PaLM-540B, 정확도 %)

태스크	Standard	CoT	SC
ANLI R1	69.1	68.8	78.5
ANLI R2	55.0	53.8	62.5
ANLI R3	55.4	56.5	64.2
e-SNLI	85.8	81.0	88.4
RTE	84.8	79.1	86.3
BoolQ	88.0	87.8	90.6
HotpotQA	35.2	33.8	36.4

ANLI R1에서 standard 69.1% → CoT 68.8%(−0.3%p) → SC 78.5%(+9.7%p), e-SNLI에서 85.8% → 81.0%(−4.8%p) → SC 88.4%(+7.4%p)로 대폭 회복된다. 다만 HotpotQA는 35.2% → 36.4%(+1.2%p)로 개선폭이 매우 작은데, 다중 문서 기반 복합 추론 태스크에서는 경로 다양성만으로 충분한 정답 수렴이 어려울 수 있음을 시사한다.

Greedy decode 오류를 SC가 수정하는 실제 예시

산술 추론 예시:
- 문제: "Olivia has $23. She bought five bagels for$ 3 each. How much money does she have left?"
- Greedy 경로(오답): "She bought 5 bagels for $3 each. This means she spent$ 3. $23 −$ 3 = $20." → **$ 20 (5개를 샀는데 1개 가격만 차감하는 오류)
- Sampled 경로(정답): "She bought 5 bagels for $3 each. So she spent$ 15. $23 −$ 15 = $8." → **$ 8
- SC는 다수의 sampled 경로에서 $8이 반복 등장하므로 다수결로 정답을 선택한다.

상식 추론 예시:
- 질문: "Yes or No: Would a vegetarian enjoy a typical Thanksgiving dinner?"
- Greedy 경로(오답): "A typical Thanksgiving dinner includes turkey, which is a vegetable. So a vegetarian would enjoy it." → Yes (turkey를 vegetable로 잘못 분류)
- Sampled 경로(정답): "A typical Thanksgiving dinner includes turkey. Turkey is meat. A vegetarian does not eat meat." → No
- 다수의 샘플 경로에서는 올바른 세계 지식이 활성화되어 다수결로 정답에 수렴한다.

6. 대안 디코딩/앙상블 전략과의 비교

Sample-and-Rank

Sample-and-rank는 여러 샘플을 생성한 뒤 로그 확률이 가장 높은 하나를 선택하는 방식이다. GPT-3(code-davinci-001)에서 동일한 샘플 수를 사용했을 때, SC가 큰 폭으로 우세했다. 로그 확률 기반 순위는 "가장 유창한 답"을 고르는 반면, SC의 다수결 투표는 "가장 많은 추론 경로가 수렴하는 답"을 고른다. 유창성(fluency)과 정확성(correctness)은 다른 기준이며, SC는 후자에 최적화된다.

Beam Search

Beam search는 디코딩 시 상위 $k$ 개 후보를 유지하며 탐색 공간을 넓히는 전통적 방법이다. UL2-20B 모델에서 beam size를 1~40으로 변화시키며 비교한 결과, beam search의 다양성 부족 문제가 드러났다.

Beam search vs Self-consistency (UL2-20B, 정확도 %)

방법	Beam size	AQuA	MultiArith
Top beam	1	23.6	33.3
Top beam	5	22.4	32.2
Top beam	10	18.5	32.7
Top beam	20	14.2	31.7
Top beam	40	10.2	30.5
SC (beam)	40	26.8	44.0
SC (sampling)	40	35.8	51.0

AQuA에서 beam size를 1→40으로 키우면 top beam 정확도가 23.6%→10.2%로 급락하는 역효과가 관찰되었다. Beam search는 확률이 높은 경로 주변만 탐색하므로 생성되는 추론 경로들이 서로 유사하다. SC의 작동 원리가 "다양한 경로의 수렴"에 기반하므로, 다양성이 낮은 beam search 출력은 SC의 이점을 살리지 못한다. 온도 기반 샘플링이 beam search보다 SC에 더 적합하다.

프롬프트 앙상블

LaMDA-137B에서 두 가지 프롬프트 앙상블 전략과 비교했다.

Prompt ensemble vs Self-consistency (LaMDA-137B, GSM8K, 정확도 %)

방법	정확도
Greedy CoT	17.1
Prompt permutation (40회)	19.2
Multiple prompts (3세트)	21.5
SC (40 샘플)	27.7

프롬프트 순서 변경은 표면적 다양성만 제공하고 추론 경로의 실질적 다양성은 제공하지 못한다. SC는 샘플링 온도를 통해 디코더 수준에서 다양성을 확보하므로, 프롬프트 조작보다 근본적으로 더 다양한 추론을 유도한다.

모델 앙상블

서로 다른 모델들의 출력에 다수결 투표를 적용하는 모델 앙상블과 비교했다. PaLM-540B 단일 모델의 SC 정확도가 74.4%인 반면, PaLM을 포함한 3개 모델 앙상블은 33.3%로 급락했다. 약한 모델 2개가 오답에 동의하면 강한 모델 1개의 정답이 묻히는 "dragging-down" 효과 때문이다. 모델 앙상블은 참여 모델의 역량이 균질할 때만 효과적이며, 역량 격차가 큰 경우 오히려 최강 모델 단독보다 못한 결과를 낳는다.

SC와 앙상블 결합

SC에 프롬프트 앙상블 등을 추가로 결합했을 때, 추가 이득은 미미했다. SC가 이미 샘플링 다양성을 통해 앙상블이 제공하는 이득의 대부분을 내재적으로 확보하고 있기 때문이다. 즉, SC 자체가 일종의 암묵적 앙상블(implicit ensemble)로 기능한다.

7. 강건성 분석

샘플링 하이퍼파라미터에 대한 강건성

PaLM-540B 모델을 사용한 GSM8K 실험에서, temperature $T$ 를 0.3~1.0, top- $k$ 와 nucleus sampling의 $p$ 값을 다양하게 설정해도 SC는 일관되게 greedy decoding 대비 성능 향상을 보였다. 실무 적용 시 하이퍼파라미터 튜닝 부담이 크게 줄어든다.

모델 스케일별 효과 (LaMDA 시리즈)

LaMDA 모델 시리즈의 전 스케일(422M, 2B, 8B, 68B, 137B)에서 SC를 적용한 결과, 모든 스케일에서 greedy CoT 대비 개선이 확인되었다. 다만 소형 모델(422M, 2B 등)에서는 이득 폭이 상대적으로 작았다. 모델이 클수록 SC의 이득이 커지는 스케일링 효과가 관찰되었다.

불완전 프롬프트에서의 강건성

Few-shot 예시 내의 숫자를 랜덤한 값으로 교체하여 질문-추론-답변 간 논리적 정합성이 깨진 프롬프트를 사용하는 실험을 수행했다. 이 조건에서 greedy CoT는 GSM8K 정확도가 14.9%로 크게 하락했으나, SC를 적용하면 23.4%로 상당 부분 회복되었다. 다만 정상 프롬프트(74.4%) 대비 여전히 크게 낮으므로, SC가 프롬프트 오류를 완전히 상쇄하지는 못하며 프롬프트 품질은 여전히 중요하다.

비자연어(방정식) 추론 경로

CoT 경로를 자연어 대신 방정식 형태로 생성하도록 유도한 경우, SC의 이득은 5.0% → 6.5%로 매우 제한적이었다. 방정식 경로가 자연어 경로에 비해 훨씬 짧고 정형화되어 있어, 샘플링된 경로 간 다양성이 부족하기 때문이다.

Zero-shot CoT와의 결합

Zero-shot CoT("Let's think step by step")에 SC를 결합한 결과, PaLM-540B GSM8K에서 43.0% → 69.2% (+26.2%p)라는 대폭적인 개선이 달성되었다. SC가 few-shot 설정뿐 아니라 zero-shot 설정에서도 강력하게 작동하며, 두 기법이 상보적임을 입증한다.

불완전 프롬프트 및 추론 경로 변형 실험 (PaLM-540B, GSM8K, 정확도 %)

조건	Greedy CoT	SC
정상 프롬프트 (자연어 경로)	56.5	74.4
숫자 랜덤 교체 프롬프트	14.9	23.4
방정식 추론 경로	5.0	6.5
Zero-shot CoT	43.0	69.2

프롬프트 세트에 대한 강건성

서로 다른 3개의 프롬프트 세트를 사용해도 SC는 +16.4% ~ +17.9% 범위에서 일관된 이득을 보였다. SC의 성능 향상이 특정 프롬프트 설계에 의존하지 않음을 확인해준다.

샘플 수와 정확도 관계

샘플링 경로를 1개에서 40개까지 늘리면 정확도가 단조 증가하다가 점차 수렴한다. 대부분의 태스크에서 10~20개 경로면 이득의 대부분을 확보할 수 있으며, 40개를 넘어가면 추가 이득이 미미해진다.

일관성 수준과 정확도의 상관관계

다수결 투표 시 최다 득표 답변의 투표 비율(일관성 수준)이 높을수록 해당 답변이 정답일 확률도 높았다. SC의 일관성 수준 자체가 모델의 불확실성 추정(uncertainty estimation) 지표로 활용 가능하다. 일관성이 낮은 문제는 모델이 확신이 없는 문제로 판별하여, 사람에게 위임하거나 추가 검증을 수행하는 데 활용할 수 있다.

8. 종합: 벤치마크별 CoT 대비 최대 향상폭

벤치마크	유형	CoT 대비 최대 향상폭
GSM8K	산술 추론	+17.9%p
SVAMP	산술 추론	+11.0%p
AQuA	산술 추론	+12.2%p
StrategyQA	상식 추론	+6.4%p
ARC-challenge	과학 추론	+3.9%p

위 수치는 각 벤치마크에서 가장 높은 성능을 보인 모델 기준의 최대 향상폭이며, 모두 해당 벤치마크의 새로운 SoTA를 기록했다.

9. 한계 및 주의사항

계산 비용의 선형 증가

SC는 한 질문에 대해 여러 번 디코딩을 수행하므로 추론 비용이 샘플 수에 비례하여 증가한다. 40개 경로 기준 단일 greedy decoding 대비 약 40배의 생성 비용이 발생한다. 실험에서 5~10개 경로만으로도 대부분의 이득을 확보할 수 있었으나, 실시간 서빙 환경에서는 여전히 부담이 된다.

소규모 모델에서의 제한적 효과

CoT 자체가 충분히 작동하지 않는 소규모 모델(예: UL2-20B 수준)에서는 다양한 경로를 샘플링해도 대부분이 오류 경로일 수 있어 다수결의 이점이 축소된다. SC는 "모델이 가끔은 맞출 수 있는" 수준의 능력을 전제로 한다.

고정 답변 집합 제약

다수결 투표는 답변이 이산적(discrete)이고 비교 가능해야 작동한다. 개방형 생성(open-ended generation), 요약, 번역 등 답변 공간이 열린 과제에서는 동일 의미의 답변이 표면적으로 다르게 표현되어 표가 분산되며, 직접 적용이 제한된다. 유사 답변 클러스터링을 통한 확장 가능성이 논의되지만, 구체적 구현은 향후 연구 과제로 남는다.

비사실적 추론 경로 생성

최종 답이 맞더라도 개별 추론 경로가 사실에 기반하지 않을 수 있다. 대표적 예시로, StrategyQA에서 "Hamster의 평균 수명은 약 10년이다"라는 사실 오류를 포함한 경로가 우연히 정답에 도달하는 경우가 관찰되었다 (실제 hamster 수명은 2~3년). 이는 SC를 근거 설명(explanation) 목적으로 활용할 때 신뢰도를 저해하는 요인이다.

추론 경로 다양성 부족 시 효과 감소

Temperature가 너무 낮거나 모델이 특정 패턴에 과적합되어 있으면 샘플링해도 유사한 경로만 반복 생성되어, 다수결의 오류 보정 효과가 사라진다. 방정식 추론 경로 실험(5.0→6.5, 이득 +1.5%p)이 이를 실증한다.

동률 발생

샘플 수가 적거나 오답 분포가 균등하면 다수결에서 동률이 발생할 수 있으며, 이 경우 답 선택이 임의적이 된다.

10. 관련 연구

언어 모델 추론

기존 연구는 산술·상식·기호 추론 각각에 특화된(task-specific) 모듈이나 학습 파이프라인을 설계하는 방식이 주류였다. SC는 프롬프트만으로 동작하며 추가 학습 없이 모델 종류·규모·과제 유형에 무관하게 적용할 수 있는 범용 디코딩 전략이라는 점에서 차별화된다.

샘플링 및 Re-ranking 기법

Temperature 조절, top- $k$ 샘플링, nucleus 샘플링, MBR 디코딩(후보 간 기대 손실 최소화) 등 디코딩 다양성을 확보하는 기존 기법이 존재한다. 여기에 Cobbe et al.은 별도의 verifier 모델을 학습시켜 풀이의 정답 여부를 판별하고, LaMDA는 re-ranker를 두어 후보 응답 품질을 재순위화한다. SC는 이들과 달리 별도 모델 학습 없이 다수결 투표만으로 후보를 선택한다.

추론 경로 추출과 다양성

시맨틱 그래프나 RNN 기반 검색을 활용해 추론 과정을 명시적으로 추출하는 연구에서도 다양한 추론 경로 확보가 정확도에 중요하다는 관찰이 있었지만, task-specific 학습 환경에 한정되었다. SC는 프롬프팅만으로 다양성을 확보한다는 점에서 이들을 일반화한다.

일관성 연구

대화 시스템의 응답 일관성, 설명의 일관성, 사실 추출에서의 비일관성 등 언어 모델의 일관성 문제를 다룬 선행 연구가 존재한다. SC는 이러한 일관성 개념을 디코딩 전략에 직접 통합한 첫 시도다.

11. 결론: 핵심 기여 3가지

정확도 향상 — 추가 학습 없이 CoT 대비 대폭 성능 향상 (GSM8K +17.9%p, SVAMP +11.0%p, AQuA +12.2%p 등). 다수의 벤치마크에서 SoTA 갱신.
근거 수집 — 다수결로 선택된 답에 도달한 여러 추론 경로가 자연스럽게 해당 답의 근거 집합이 되어, 다각적 설명을 제공.
불확실성 추정 — 투표 분포 자체가 모델의 확신도를 반영. 투표가 고르게 분산되면 모델이 불확실하다는 신호로 활용 가능하며, 사람에게 위임하거나 추가 검증을 수행하는 판단 기준이 된다.

향후 방향

SC로 생성한 고품질 정답 데이터를 fine-tuning에 활용하는 자기 학습(self-training) 가능성
추론 경로의 사실 기반(factual grounding) 향상 연구
Open-text 답변에 대한 유사 답변 클러스터링 기반 확장

참고: 핵심 선행 연구

Chain-of-Thought Prompting (Wei et al., 2022): few-shot 예시에 중간 추론 과정을 포함시켜 언어 모델의 추론 능력을 유도하는 프롬프팅 기법. SC가 대체하는 기존 디코딩 방식(greedy decoding)의 기반.
Verifier 기반 접근 (Cobbe et al., 2021): 수학 문제 풀이에 대해 별도의 검증 모델을 학습시켜 정답 여부를 판별하는 방식. SC와 달리 추가 학습이 필요하다.
LaMDA (Thoppilan et al., 2022): 대화 모델에 re-ranker를 두어 후보 응답의 품질을 재순위화하는 방식. SC의 비학습 기반 접근과 대비된다.
Minimum Bayes Risk (MBR) Decoding: 후보 번역/생성 간 기대 손실을 최소화하는 디코딩 전략. SC는 MBR의 복잡한 유사도 계산 대신 단순 다수결로 후보를 선택한다.
Zero-shot CoT (Kojima et al., 2022): "Let's think step by step"이라는 단일 프롬프트로 추론을 유도하는 기법. SC와 결합 시 GSM8K에서 43.0% → 69.2%로 대폭 향상되어 상보성이 입증되었다.

ABOUT ME

Self-Consistency Improves Chain of Thought Reasoning in Language Models

1. 배경 및 문제 정의

기존 Chain-of-thought의 구조적 취약점

기존 대안의 한계

2. Self-Consistency 방법론

수학적 정의

3단계 절차: Sample-and-Marginalize

작동 예시

샘플링 호환성

3. 답변 집계 전략 비교

6가지 집계 전략

PaLM-540B 기준 집계 전략별 정확도 (%)

핵심 분석

4. 산술 추론 실험 결과

실험 설정

평가 태스크 6종

산술 추론 정확도 (%)

핵심 발견: 모델 스케일과 SC 이득의 관계

이미 높은 기준선에서의 포화 현상

5. 상식 추론, 기호 추론 및 NLP 태스크 결과

상식 추론

기호 추론과 OOD 일반화

CoT가 역효과를 내는 NLP 태스크에서의 SC 회복 효과

Greedy decode 오류를 SC가 수정하는 실제 예시

6. 대안 디코딩/앙상블 전략과의 비교

Sample-and-Rank

Beam Search

프롬프트 앙상블

모델 앙상블

SC와 앙상블 결합

7. 강건성 분석

샘플링 하이퍼파라미터에 대한 강건성

모델 스케일별 효과 (LaMDA 시리즈)

불완전 프롬프트에서의 강건성

비자연어(방정식) 추론 경로

Zero-shot CoT와의 결합

프롬프트 세트에 대한 강건성

샘플 수와 정확도 관계

일관성 수준과 정확도의 상관관계

8. 종합: 벤치마크별 CoT 대비 최대 향상폭

9. 한계 및 주의사항

계산 비용의 선형 증가

소규모 모델에서의 제한적 효과

고정 답변 집합 제약

비사실적 추론 경로 생성

추론 경로 다양성 부족 시 효과 감소

동률 발생

10. 관련 연구

언어 모델 추론

샘플링 및 Re-ranking 기법

추론 경로 추출과 다양성

일관성 연구

11. 결론: 핵심 기여 3가지

향후 방향

참고: 핵심 선행 연구

티스토리툴바