Distilling the Knowledge in a Neural Network

카테고리 없음 2026. 5. 6. 21:08

type: paper
source: https://arxiv.org/abs/1503.02531

Distilling the Knowledge in a Neural Network

항목	내용
저자	Geoffrey E. Hinton, O. Vinyals, J. Dean
연도	2015
arXiv	1503.02531
분야	Mathematics, Computer Science
인용 수	23861 (Semantic Scholar 기준, 작성일 기준)

1. 배경 및 문제 정의

곤충은 애벌레 단계에서 영양분을 흡수하기에 적합한 형태로 살아가다가, 번데기를 거쳐 비행과 번식에 최적화된 성충으로 변태한다. 이 논문은 동일한 비유가 대규모 머신러닝 모델에도 적용된다고 본다. 즉, 학습 단계와 배포 단계는 본질적으로 다른 요구사항을 가진다.

학습 단계: 매우 크고 중복이 많은 데이터셋에서 구조(structure)를 추출하는 것이 목적이다. 실시간 응답이 필요 없고, 대규모 계산 자원을 자유롭게 사용할 수 있다. 따라서 앙상블이나 강력한 정규화를 적용한 대형 신경망처럼 거추장스러운(cumbersome) 모델이 유리하다.
배포 단계: 사용자에게 서비스를 제공하는 단계로, 지연 시간(latency)과 메모리·연산 자원 측면에서 매우 엄격한 제약이 있다. 따라서 작고 효율적인 모델이 필요하다.

이 두 단계의 요구사항이 충돌하기 때문에, 학습용 대형 모델이 보유한 일반화 능력을 작은 모델에 그대로 옮기는 방법이 필요하다. 이 논문은 이 이전(transfer) 절차를 지식 증류(Knowledge Distillation) 라고 명명한다.

지식을 옮기기 위해서는 먼저 "지식이란 무엇인가"를 재정의해야 한다. 일반적으로 학습된 모델의 지식은 파라미터 값과 동일시되지만, 이 논문은 더 추상적인 관점을 채택한다. 즉, 지식은 특정 파라미터 인스턴스가 아니라, 입력 벡터에서 출력 벡터로의 학습된 매핑(learned mapping) 이라고 본다. 이 관점은 작은 모델이 큰 모델과 동일한 매핑을 흉내 낼 수만 있다면, 파라미터 구조가 달라도 동일한 지식을 보유한 것으로 간주할 수 있게 한다.

2. 핵심 아이디어: 소프트 타겟과 일반화 정보

표준적인 분류기 학습은 입력에 대해 정답 클래스 하나를 1로, 나머지를 0으로 표시한 하드 타겟(Hard Target) 을 사용한다. 그러나 학습이 끝난 교사 모델이 출력하는 확률 분포에는 단일 정답을 넘어서는 풍부한 정보가 담겨 있다. 예를 들어 BMW 차량 이미지에 대해 교사 모델은 "쓰레기 트럭"보다 "당근"이 정답일 확률을 더 낮게 매길 수 있는데, 이 미세한 상대적 확률 차이가 곧 모델이 학습한 클래스 간 유사 구조 를 의미한다.

이 분포를 소프트 타겟(Soft Target) 이라고 부른다. 소프트 타겟이 가지는 두 가지 핵심 특성은 다음과 같다.

정보 밀도(Information density): 소프트 타겟이 높은 엔트로피를 가질 때, 한 학습 사례당 하드 타겟보다 훨씬 많은 정보를 제공한다. 즉, 같은 데이터로 더 많은 일반화 신호를 추출할 수 있다.
그래디언트 분산 감소: 학습 사례 간 그래디언트의 분산이 크게 줄어든다. 이로 인해 작은 모델은 원래의 거대 모델보다 훨씬 적은 데이터, 그리고 훨씬 높은 학습률(learning rate)로 효율적으로 학습할 수 있다.

다만 잘 학습된 교사 모델은 보통 정답 클래스에 99% 이상의 확률을 부여하고 나머지 클래스에는 거의 0에 가까운 값을 분배한다. 이 상태에서는 소프트 타겟이 사실상 하드 타겟과 다르지 않아 정보 이득이 사라진다. 이 문제를 해결하기 위해 도입되는 장치가 바로 온도(Temperature) 다.

3. 방법론: 온도와 목적 함수

3.1 Softmax와 온도 파라미터

신경망의 마지막 분류 계층은 logit $z_i$ 를 softmax 함수로 통과시켜 확률 $q_i$ 를 생성한다. 표준 softmax는 다음과 같다.

$q_i = \frac{\exp(z_i)}{\sum_j \exp(z_j)}$

여기에 온도 파라미터 $T$ 를 도입하면 다음과 같이 일반화된다.

$q_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}$

$z_i$ : 클래스 $i$ 에 대한 로짓(logit)
$q_i$ : 클래스 $i$ 의 출력 확률
$T$ : 온도. $T=1$ 이면 일반 softmax, $T$ 가 커질수록 분포가 평탄(soft)해진다.

$T$ 가 높아질수록 확률 분포가 부드러워져, 정답이 아닌 클래스들 사이의 상대적 크기 관계가 더 또렷이 드러난다. 이것이 곧 교사 모델이 학습한 암묵적 클래스 유사도(dark knowledge) 다.

3.2 학습 절차

교사 모델(cumbersome model)에 높은 $T$ 를 적용해 부드러운 타겟 분포를 생성한다.
학생 모델(distilled model)은 동일한 높은 $T$ 로 자신의 소프트 출력을 만들고, 이 출력이 교사의 소프트 타겟과 일치하도록 학습한다.
추론 시점에는 학생 모델의 $T$ 를 1로 되돌려 표준 분류를 수행한다.

3.3 하드 타겟 결합과 가중치

정답 레이블이 존재하는 경우, 소프트 타겟만 사용하기보다 하드 타겟을 함께 사용하는 편이 성능이 좋다. 손실 함수는 두 항을 가중 평균한 형태가 된다.

① 소프트 타겟 손실: 학생 모델과 교사 모델이 모두 동일한 높은 $T$ 로 출력한 분포 간 교차 엔트로피
② 하드 타겟 손실: 학생 모델이 $T=1$ 로 출력한 분포와 정답 레이블 간 교차 엔트로피

실험적으로 두 손실의 가중치를 조정한 결과, 소프트 타겟 항에 훨씬 큰 가중치를 두는 것이 최적 임이 확인되었다. 즉 하드 타겟은 보조적 신호로 작동한다.

3.4 그래디언트 스케일링

소프트 타겟에 의한 그래디언트의 크기는 $1/T^2$ 에 비례해 작아진다. 따라서 두 손실을 결합할 때 소프트 타겟 항에 $T^2$ 를 곱해 스케일을 보정해야 한다.

$\mathcal{L} = T^2 \cdot \mathcal{L}_{\text{soft}} + \mathcal{L}_{\text{hard}}$

$\mathcal{L}_{\text{soft}}$ : 소프트 타겟과의 교차 엔트로피 손실
$\mathcal{L}_{\text{hard}}$ : 하드 타겟과의 교차 엔트로피 손실
$T^2$ : 온도 변화에 따른 그래디언트 스케일 보정 계수

이 보정 덕분에 $T$ 값을 변경하더라도 두 손실의 상대적 기여도가 일정하게 유지되며, 하이퍼파라미터 튜닝이 쉬워진다.

4. MNIST 예비 실험

지식 증류의 효과를 가장 직관적으로 확인할 수 있는 실험은 MNIST 손글씨 숫자 분류이다.

4.1 모델 구성과 기본 결과

모델	구조	정규화	테스트 에러
교사 모델	은닉층 2개, 각 1,200 ReLU 유닛	Dropout, 가중치 제약, 최대 2픽셀 지터링	67
학생 모델 (baseline)	은닉층 2개, 각 800 ReLU 유닛	없음	146
학생 모델 (distilled)	은닉층 2개, 각 800 ReLU 유닛	소프트 타겟 ( $T=20$ )	74

정규화 없이 학습된 800-unit 학생 모델은 146개의 테스트 에러를 보였으나, 동일한 학생 모델이 교사의 소프트 타겟( $T=20$ )을 추가로 학습하자 에러가 74개로 절반 수준으로 감소했다. 이는 교사 모델의 정규화 효과까지 소프트 타겟을 통해 전달되었음을 의미한다.

4.2 온도와 모델 용량의 상호작용

학생 모델이 각 은닉층에 300개 이상의 유닛을 가지면, $T \geq 8$ 범위에서 모두 비슷한 성능을 보였다.
학생 모델이 각 은닉층에 30개만 가질 정도로 매우 작아지면, $T \in [2.5, 4]$ 범위에서 가장 좋은 결과가 나왔고, 그 위·아래 온도에서는 성능이 떨어졌다.

이는 모델 용량이 작을수록 더 평탄한(소프트한) 타겟을 흡수할 여력이 부족해 최적 온도가 낮아진다는 것을 시사한다.

4.3 학습 데이터에서 누락된 클래스 복원

지식 증류의 일반화 능력을 가장 극적으로 보여주는 실험이다.

숫자 '3' 전체 제거: 전이용 학습 데이터에서 숫자 '3'에 해당하는 모든 예시를 빼고 학생 모델을 학습시켰다. 그 결과 학생 모델은 테스트셋에서 206개의 에러를 냈고, 그중 133개가 1,010개의 '3' 이미지에서 발생했다. 학생 모델은 '3' 클래스의 이미지를 한 번도 본 적이 없음에도 불구하고, 교사의 소프트 타겟 분포 안에 담긴 '3과 다른 숫자의 관계'만으로 일정 수준 분류를 학습한 것이다.
bias 보정: '3' 클래스의 학습된 바이어스가 너무 낮다는 것이 원인이었다. 이 클래스의 bias를 3.5만큼 올려주자 에러가 109개로 줄었고, 그중 '3' 이미지에서의 에러는 14개에 불과했다. 결과적으로 학생 모델은 한 번도 본 적 없는 '3' 클래스에서 약 98.6% 의 정확도를 달성했다.

4.4 극단적 데이터 결손

전이용 학습 데이터에 '7'과 '8'만 포함시켰을 때, 학생 모델의 테스트 에러율은 47.3%였다.
'7'과 '8' 클래스의 bias를 7.6만큼 낮춰 다른 클래스로 출력이 흐를 수 있게 하자, 에러율은 13.2% 까지 떨어졌다.

이 실험은 교사 모델의 일반화 구조가 소프트 타겟에 거의 그대로 코드화되어 있어, 학생이 데이터의 일부분만 보더라도 전체 분류 능력의 상당 부분을 회복할 수 있음을 보여준다.

4.5 한계

bias를 3.5 또는 7.6만큼 조정한 것은 휴리스틱이며, 이 값을 자동으로 찾는 방법은 논문에서 다루지 않는다.
모델 용량이 작을수록 온도 선택에 민감해져, 적정 $T$ 범위가 좁아진다.

5. 음성 인식 실험

이 섹션은 자동 음성 인식(ASR) 시스템에서 지식 증류의 실용성을 검증한다.

5.1 시스템 아키텍처

8개의 은닉층, 각 층 2,560 ReLU 유닛
최종 softmax 출력층: 14,000개의 HMM(Hidden Markov Model) 상태 레이블
입력: 26 프레임 × 40 Mel-scaled 필터뱅크 계수, 프레임당 10ms 간격
예측 대상: 입력 프레임 시퀀스의 21번째 프레임에 해당하는 HMM 상태
총 파라미터 수: 약 85M (8천 5백만 개)

DNN 어쿠스틱 모델은 다음 목적 함수를 따라 학습된다.

$\theta = \arg\max_{\theta'} P(h_t \mid s_t; \theta')$

$h_t$ : 시각 $t$ 에서의 정답 HMM 상태
$s_t$ : 시각 $t$ 의 입력 프레임 컨텍스트
$\theta$ : 신경망 파라미터

학습은 분산 확률 경사 하강법(distributed SGD)으로 진행되며, 학습 데이터는 약 2,000시간의 영어 음성 데이터에서 추출된 약 7억 개의 학습 예시이다.

5.2 베이스라인 성능

프레임 단위 정확도(Frame Accuracy): 58.9%
단어 오류율(Word Error Rate, WER): 10.9%

이 베이스라인은 이후 앙상블 모델 및 증류 모델과의 비교 기준으로 사용된다.

6. 전문가 앙상블 학습

6.1 앙상블의 비용 구조

앙상블은 병렬 계산을 활용하기 쉽고, 단일 모델보다 일반화 성능이 좋은 경우가 많다. 그러나 두 가지 비용 문제가 있다.

테스트 시 비용: 추론 시점에 여러 모델을 동시에 실행해야 하므로 자원과 지연 시간이 늘어난다.
학습 시 비용: 모델 자체가 크고 데이터셋도 거대한 경우, 여러 모델을 동시에 학습시키는 것이 현실적으로 불가능할 수 있다.

테스트 시 비용은 지식 증류로 해결된다. 즉, 앙상블의 출력을 소프트 타겟으로 삼아 단일 학생 모델로 압축하면 배포 효율을 회복할 수 있다.

6.2 전문가(Specialist) 모델의 도입

학습 시 비용은 모든 전문가가 전체 클래스를 다루는 대신, 각자 혼동하기 쉬운 클래스 부분 집합(confusable subset) 에 집중하도록 만들어 해결한다.

제너럴리스트 모델 하나가 전체 분류를 담당한다.
각 전문가 모델은 제너럴리스트가 자주 헷갈리는 클래스 클러스터에 특화된다.
이렇게 하면 한 전문가 모델이 학습해야 하는 결정 경계의 복잡도가 작아지고, 학습량이 분산된다.

6.3 JFT 데이터셋 결과

모델 구성	Conditional Test Accuracy	Test Accuracy
Baseline	43.1%	25.0%
Baseline + 61 Specialists	45.9%	26.1%

61개의 전문가 모델을 추가했을 때 절대 정확도는 25.0% → 26.1%로, 클래스 후보를 좁힌 조건부 정확도는 43.1% → 45.9%로 개선되었다. 큰 데이터셋에서는 전체 앙상블 학습이 어렵더라도, 전문가 앙상블 방식이 의미 있는 향상을 만들어낸다.

6.4 과적합 위험

전문가 모델은 세밀한 구분에 집중하기 때문에, 그 부분 집합에 해당하는 학습 데이터만으로는 과적합이 매우 쉽게 일어난다. 이 문제는 다음 섹션에서 다루는 소프트 타겟 정규화로 완화된다.

7. 소프트 타겟의 정규화 효과

7.1 핵심 주장

소프트 타겟은 단일 하드 타겟이 표현할 수 없는 클래스 간의 미세한 상대 관계를 담고 있다. 이는 교사 모델이 데이터에서 추출한 정규성(regularities)을 학생 모델에 그대로 전달해, 데이터가 적은 상황에서도 강력한 정규화 효과를 만든다.

7.2 데이터 3% 만으로 베이스라인 회복

음성 인식 시스템(85M 파라미터)을 다음 세 가지 조건으로 비교했다.

학습 설정	학습 데이터 비중	Train Frame Accuracy	Test Frame Accuracy
Baseline (Hard Targets)	100%	63.4%	58.9%
Baseline (Hard Targets)	3% (약 2천만 예시)	67.3%	44.5%
Soft Targets	3% (약 2천만 예시)	65.4%	57.0%

3%의 데이터만으로 하드 타겟 학습을 수행하면 train 정확도는 67.3%로 높지만 test 정확도는 44.5%까지 폭락한다. 명백한 심각한 과적합이다. 동일한 데이터로 소프트 타겟을 학습하면 train 정확도는 약간 낮은 65.4%로 안정되지만, test 정확도는 57.0%까지 회복되어 전체 데이터로 학습한 베이스라인(58.9%)에 약 2%포인트 차이로 근접한다.

7.3 조기 종료 없이 수렴

하드 타겟 학습 모델은 정확도가 44.5%에 도달한 직후 급락하기 때문에 조기 종료(early stopping)가 필수였다. 반면 소프트 타겟 학습 모델은 별도의 조기 종료 없이도 자연스럽게 57%로 수렴했다. 이는 소프트 타겟이 단순한 학습 신호가 아니라, 모델 복잡도를 자율적으로 제어하는 강력한 정규화 장치로 작동함을 보여준다.

7.4 한계

3% 미만의 극단적으로 적은 데이터에서도 같은 효과가 유지되는지에 대한 결과는 보고되지 않았다.
학습 곡선의 구체적인 형태(수렴 속도, 변동성)는 본문에 제시되지 않았다.

8. Mixture of Experts와의 관계

8.1 Mixture of Experts(MoE)의 구조

MoE는 게이팅 네트워크(gating network)와 전문가 모델(expert)을 동시에 학습한다. 게이팅 네트워크는 각 입력에 대해 어느 전문가에게 할당할지의 확률을 출력하며, 전문가는 자신에게 할당된 데이터를 처리하는 법을 학습한다. 이 과정은 입력을 단순히 클러스터링해 전문가에 배정하는 것보다 훨씬 효과적인데, 게이팅 네트워크가 전문가들의 상대적 판별 성능 을 기준으로 할당을 학습하기 때문이다.

8.2 MoE의 병렬화 어려움

MoE의 학습은 본질적으로 병렬화가 어렵다. 전문가별 학습 데이터 분포가 다른 전문가의 성능에 따라 계속 변화하고, 게이팅 네트워크는 동일 예제에 대해 전문가 간 성능 비교를 수행해야 하기 때문이다. 이 상호 의존성 때문에 MoE는 거대 데이터셋과 명확하게 분리된 서브셋을 가진 태스크에서만 드물게 사용되어 왔다.

8.3 본 논문의 전문가 학습 방식

본 논문의 접근은 단계를 분리한다.

먼저 제너럴리스트 모델을 학습한다.
제너럴리스트의 혼동 행렬(confusion matrix) 을 분석해, 자주 혼동되는 클래스끼리 묶어 부분 집합을 정의한다.
정의된 부분 집합 위에서 전문가 모델들을 완전히 독립적으로 학습한다.
추론 시에는 제너럴리스트의 예측을 이용해 관련된 전문가들만 호출하면 된다.

이 구조는 전문가들 사이에 학습 시점의 상호 의존성이 없으므로 자연스럽게 병렬화가 가능하다는 점에서 MoE와 본질적으로 다르다.

8.4 한계

전문가 방식과 MoE의 직접적인 성능 비교 수치는 본 논문에서 제시되지 않았다.
추론 단계에서 어떤 전문가를 활성화할지 결정하는 임계값의 구체적인 설정 방법은 명시되지 않았다.

9. 종합 논의 및 향후 과제

논문의 결과를 정리하면 다음과 같다.

MNIST에서의 일반화 입증: 학습 데이터에서 특정 클래스가 완전히 빠진 상황에서도 증류된 학생 모델은 그 클래스를 의미 있게 분류해냈다. 소프트 타겟 안에 클래스 간 관계 정보가 담겨 있기 때문이다.
Android 음성 검색 적용: 앙상블 학습으로 얻은 성능 향상의 거의 전부를 동일한 크기의 단일 모델로 증류할 수 있었다. 배포 단계에서 앙상블을 직접 운영하지 않고도 동등한 품질을 제공할 수 있게 된다.
거대 신경망에서의 전문가 활용: 전체 앙상블을 학습하기 어려울 정도로 큰 모델에서는, 단일 거대 모델을 오랫동안 학습한 뒤 다수의 전문가 모델을 추가하는 방식이 유효하다. 전문가들은 혼동되기 쉬운 클러스터 내부의 미세한 구분을 채워 넣어 전체 시스템의 약점을 보완한다.

남겨진 과제는 명확하다. 전문가 모델들이 학습한 지식을 다시 단일 거대 모델로 증류하는 절차는 본 논문에서 보여주지 못했으며, 이는 전문가 앙상블의 효율성과 단일 모델의 배포 편의성을 동시에 얻기 위해 필요한 다음 단계다.

10. 핵심 기여 요약

개념적 기여: 모델의 지식을 파라미터가 아닌 입력→출력 매핑으로 재정의하고, 이 매핑을 소형 모델로 옮기는 일반화된 절차(distillation)를 제안했다.
방법론적 기여: softmax에 온도 파라미터 $T$ 를 도입해 소프트 타겟의 정보량을 조절하는 메커니즘과, 하드/소프트 타겟을 결합할 때의 그래디언트 스케일링( $T^2$ 보정)을 제시했다.
실험적 기여: MNIST에서 누락 클래스에 대한 일반화, 음성 인식에서의 앙상블→단일 모델 증류, JFT에서의 전문가 앙상블 효과를 통해 다양한 규모와 도메인에서 방법의 유효성을 입증했다.
시스템적 기여: 전문가 모델을 독립적으로 병렬 학습한 뒤 제너럴리스트와 결합하는 방식을 도입해, 전통적인 MoE의 병렬화 한계를 우회했다.

참고: 핵심 선행 연구

Mixtures of Experts (Jacobs et al., 1991): 게이팅 네트워크와 전문가 모델을 동시에 학습하는 구조. 본 논문의 전문가 모델 방식이 비교 대상으로 삼는 핵심 선행 연구이며, 학습 시 상호 의존성으로 인한 병렬화 한계가 본 논문 방식의 차별점을 부각시키는 배경이 된다.
Dropout 및 가중치 제약 정규화 기법: MNIST 교사 모델 학습에 사용된 정규화 도구. 강한 정규화로 얻은 성능을 작은 모델로 옮길 수 있다는 점이 본 논문의 출발점이 된다.
DNN 기반 HMM 어쿠스틱 모델: 음성 인식 실험의 토대. DNN이 HMM 상태에 대한 사후 확률을 출력하고, 디코더가 이를 언어 모델과 결합하는 표준적 구조 위에서 증류 효과를 측정했다.

ABOUT ME

urban-dandelion urban-dandelion

Distilling the Knowledge in a Neural Network

1. 배경 및 문제 정의

2. 핵심 아이디어: 소프트 타겟과 일반화 정보

3. 방법론: 온도와 목적 함수

3.1 Softmax와 온도 파라미터

3.2 학습 절차

3.3 하드 타겟 결합과 가중치

3.4 그래디언트 스케일링

4. MNIST 예비 실험

4.1 모델 구성과 기본 결과

4.2 온도와 모델 용량의 상호작용

4.3 학습 데이터에서 누락된 클래스 복원

4.4 극단적 데이터 결손

4.5 한계

5. 음성 인식 실험

5.1 시스템 아키텍처

5.2 베이스라인 성능

6. 전문가 앙상블 학습

6.1 앙상블의 비용 구조

6.2 전문가(Specialist) 모델의 도입

6.3 JFT 데이터셋 결과

6.4 과적합 위험

7. 소프트 타겟의 정규화 효과

7.1 핵심 주장

7.2 데이터 3% 만으로 베이스라인 회복

7.3 조기 종료 없이 수렴

7.4 한계

8. Mixture of Experts와의 관계

8.1 Mixture of Experts(MoE)의 구조

8.2 MoE의 병렬화 어려움

8.3 본 논문의 전문가 학습 방식

8.4 한계

9. 종합 논의 및 향후 과제

10. 핵심 기여 요약

참고: 핵심 선행 연구

티스토리툴바