DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

카테고리 없음 2026. 5. 6. 21:00

type: paper
source: https://arxiv.org/abs/2405.04434

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

항목	내용
저자	Zhihong Shao, Damai Dai, Daya Guo, Zihan Wang, Huajian Xin
연도	2024
arXiv	2405.04434
분야	Computer Science
인용 수	1127 (Semantic Scholar 기준, 작성일 기준)

1. 배경 및 문제 정의

대규모 언어 모델(LLM, Large Language Model)은 파라미터 수가 늘어날수록 다양한 과제에서 더 강력한 능력을 보이는 경향이 있다. 그러나 이러한 규모 확장은 두 가지 비용을 동반한다. 첫째는 학습에 들어가는 막대한 컴퓨팅 자원이며, 둘째는 추론 단계의 효율 저하이다. 특히 추론 단계에서는 어텐션 모듈이 보유하는 KV 캐시(Key-Value Cache, 디코딩 중 이전 토큰의 키·값을 저장해 재사용하는 메모리)가 처리량과 응답 지연의 핵심 병목으로 작용한다.

DeepSeek-V2는 이 트레이드오프를 정면으로 다루기 위해 설계된 오픈소스 MoE(Mixture-of-Experts, 혼합 전문가) 언어 모델이다. 총 파라미터는 236B이지만 토큰당 활성 파라미터는 21B에 불과하며, 컨텍스트 길이는 128K까지 지원한다. 핵심 설계 목표는 다음 두 가지를 동시에 달성하는 것이다.

경제적인 학습: 동급 규모 dense 모델이나 기존 MoE 대비 학습 비용을 줄인다.
효율적인 추론: KV 캐시 부담을 획기적으로 줄여 처리량을 크게 끌어올린다.

이를 위해 두 가지 아키텍처 혁신이 도입된다. 어텐션 측면의 Multi-head Latent Attention(MLA)과 FFN(Feed-Forward Network) 측면의 DeepSeekMoE이다. 결과적으로 직전 버전인 DeepSeek-V1(67B dense) 대비 학습 비용 42.5% 절감, KV 캐시 93.3% 감소, 최대 생성 처리량 5.76배 향상을 달성했다.

Figure 2: DeepSeek-V2의 전체 아키텍처 — MLA와 희소 MoE 결합 구조

Figure 2: DeepSeek-V2의 전체 아키텍처 — MLA와 희소 MoE 결합 구조

이 그림은 DeepSeek-V2 한 개 Transformer 블록의 전체 흐름을 보여준다. 입력 토큰의 hidden state는 먼저 RMSNorm을 거쳐 MLA 어텐션 모듈로 들어가고, 잔차 연결 이후 다시 RMSNorm을 거쳐 DeepSeekMoE FFN으로 전달된다. MLA 측은 키·값을 저차원 잠재 벡터(latent vector) 한 개로 공동 압축한 뒤 추론 시점에 다시 헤드별 키·값으로 복원하는 구조라서, 디코딩 중 캐싱해야 하는 텐서가 헤드 수가 아니라 잠재 벡터 차원에 비례해 결정된다. DeepSeekMoE 측은 다수의 라우팅 전문가(routed experts)와 소수의 공유 전문가(shared experts)로 구성되는데, 토큰마다 라우터가 일부 라우팅 전문가만 활성화하고 공유 전문가는 항상 함께 사용한다. 이 두 모듈을 결합함으로써 동일 토큰 처리 시 활성 파라미터 수는 21B 수준으로 묶이고, 추론 시 KV 캐시 메모리는 동일 헤드 수 MHA 대비 한 자릿수 분의 일 규모로 줄어든다. 그림은 이러한 설계가 “큰 모델, 작은 활성 비용, 작은 캐시”라는 세 가지 목표를 어떻게 동시에 만족시키는지를 시각적으로 정리한다.

2. 두 가지 핵심 혁신 개요

DeepSeek-V2는 표준 Transformer 골격 위에 두 모듈을 교체해 끼우는 형태의 변경을 가한다. 레이어 정규화(Layer Normalization)나 활성화 함수 등 그 외 세부 설정은 DeepSeek-V1의 안정적인 구성을 그대로 계승해 학습의 변동 요인을 줄였다.

Multi-head Latent Attention (MLA) — 어텐션 모듈을 대체. 저차원 KV 공동 압축(low-rank key-value joint compression)으로 추론 시 캐시되는 키·값 텐서의 크기를 대폭 축소한다.
DeepSeekMoE — FFN을 대체. 세밀한 전문가 분할(fine-grained expert segmentation)과 공유 전문가 격리(shared expert isolation)로 전문가 전문화의 잠재력을 끌어올려 같은 비용으로 더 강한 모델을 학습할 수 있게 한다.

이 두 가지 모듈은 서로 직교한다. MLA는 추론 효율을, DeepSeekMoE는 학습 효율과 모델 능력을 담당하므로, 한쪽이 다른 쪽의 효과를 상쇄하지 않는다.

3. Multi-head Latent Attention(MLA)의 동기와 구조

기존 Multi-Head Attention(MHA)은 헤드마다 독립적인 키·값 행렬을 생성·저장한다. 시퀀스 길이가 길어지면 KV 캐시 메모리가 시퀀스 길이 × 헤드 수 × 헤드 차원으로 선형 증가해, 128K 컨텍스트 같은 긴 시퀀스 추론에서는 이 캐시가 가장 무거운 자원이 된다. KV 캐시를 줄이기 위해 제안된 것이 Grouped-Query Attention(GQA, 여러 쿼리 헤드가 KV 헤드 하나를 공유)과 Multi-Query Attention(MQA, 모든 쿼리 헤드가 KV 헤드 하나를 공유)이다. 그러나 이들은 KV 헤드 자체를 줄여서 표현력 손실을 동반하는 경향이 있다.

Figure 3: MHA, GQA, MQA, MLA 네 가지 어텐션 방식 비교

Figure 3: MHA, GQA, MQA, MLA 네 가지 어텐션 방식 비교

이 그림은 네 어텐션 방식이 KV 캐시를 어떻게 구성하는지를 한 줄로 비교한다. MHA는 모든 헤드가 자체 K, V를 가져 캐시 부담이 가장 크고, GQA는 헤드를 그룹화해 공유 K, V를 두며, MQA는 K, V를 단일 쌍으로 줄여 캐시 부담은 최소이지만 표현력이 가장 낮아진다. MLA는 다른 접근을 취해 모든 토큰의 키·값을 하나의 저차원 잠재 벡터로 공동 압축하고, 이 잠재 벡터만 캐시한다. 추론 시 잠재 벡터를 행렬을 통해 헤드별 키·값으로 다시 펼치는 구조이므로, 작은 캐시를 유지하면서도 헤드별 다양성은 보존된다. 이는 “캐시 크기 대비 정보 보존량”이라는 관점에서 MLA가 다른 세 방식과 본질적으로 다른 차원의 절충을 한다는 점을 보여주며, 뒤에 이어지는 어블레이션 결과의 직관적 근거가 된다.

MLA의 계산 과정

MLA의 전체 계산은 잠재 벡터의 생성과 복원으로 요약된다. 입력 hidden state $\mathbf{h}_t$ 로부터 다음과 같이 진행된다.

$\mathbf{c}_t^{Q} = W^{DQ}\mathbf{h}_t, \qquad \mathbf{q}_{t,i}^{C} = W^{UQ}_i \mathbf{c}_t^{Q}$

$\mathbf{c}_t^{KV} = W^{DKV}\mathbf{h}_t, \qquad \mathbf{k}_{t,i}^{C} = W^{UK}_i \mathbf{c}_t^{KV}, \qquad \mathbf{v}_{t,i}^{C} = W^{UV}_i \mathbf{c}_t^{KV}$

$\mathbf{q}_t^{R}, \mathbf{k}_t^{R} \;\leftarrow\; \mathrm{RoPE}(\cdot)$

$\mathbf{o}_{t,i} = \sum_j \mathrm{softmax}\!\left(\frac{\mathbf{q}_{t,i}^\top \mathbf{k}_{j,i}}{\sqrt{d}}\right)\mathbf{v}_{j,i}^{C}$

각 변수의 의미는 다음과 같다.
- $\mathbf{h}_t$ : 토큰 $t$ 의 입력 hidden state.
- $\mathbf{c}_t^{Q}$ , $\mathbf{c}_t^{KV}$ : Query와 Key-Value를 위한 저차원 잠재 벡터. KV 캐시에는 $\mathbf{c}_t^{KV}$ 와 RoPE가 적용된 $\mathbf{k}_t^{R}$ 만 저장된다.
- $W^{DQ}, W^{DKV}$ : 다운프로젝션 행렬(잠재 벡터로 압축).
- $W^{UQ}, W^{UK}, W^{UV}$ : 업프로젝션 행렬(헤드별 Query/Key/Value로 복원).
- $\mathbf{q}_t^{R}, \mathbf{k}_t^{R}$ : RoPE(Rotary Positional Embedding, 회전 위치 임베딩)가 적용되는 보조 성분으로, 위치 정보를 어텐션에 주입한다.
- $\mathbf{o}_{t,i}$ : 헤드 $i$ 의 어텐션 출력.

핵심은 추론 시 행렬 곱의 결합법칙(associative law of matrix multiplication)을 이용해 $W^{UK}$ 를 $W^{UQ}$ 에, $W^{UV}$ 를 출력 행렬 $W^{O}$ 에 흡수시킬 수 있다는 점이다. 이렇게 하면 매 디코딩 스텝마다 $\mathbf{k}_t^{C}$ 와 $\mathbf{v}_t^{C}$ 를 명시적으로 다시 만들지 않아도 되며, 캐시되는 양은 $\mathbf{c}_t^{KV}$ 와 $\mathbf{k}_t^{R}$ 두 개뿐이다. 결과적으로 추가 연산 오버헤드 없이 KV 캐시를 줄일 수 있다.

MLA 어블레이션: 다른 어텐션 방식과의 비교

논문은 동일 파라미터 수, 동일 학습 토큰, 그리고 동일한 KV 캐시 예산(약 MHA의 1/8) 조건에서 네 방식의 perplexity를 비교한다.

어텐션 방식	KV 캐시 크기	Perplexity
MHA	1/8	12.69
GQA	1/8	12.69
MQA	1/8	12.74
MLA	1/8	12.57

해석상 두 가지가 중요하다. 첫째, KV 캐시 크기를 동일하게 맞추면 MHA·GQA의 perplexity 차이는 사실상 사라진다. 따라서 GQA의 실제 가치는 “동일 성능을 더 작은 캐시로” 얻는다는 점에 있다. 둘째, MLA는 같은 캐시 예산에서 가장 낮은 perplexity를 달성한다. 즉 MLA의 저차원 압축은 헤드 수를 단순히 줄이는 방식보다 정보 보존 효율이 더 높다.

4. DeepSeekMoE 아키텍처

FFN 자리에는 GShard 계열의 전통적 MoE가 아니라 DeepSeekMoE가 들어간다. 두 가지 설계가 핵심이다.

세밀한 전문가 분할(fine-grained expert segmentation): 같은 총 파라미터 예산을 더 많은, 더 작은 전문가로 쪼갠다. 이로써 토큰별로 더 정교한 전문가 조합이 가능해진다.
공유 전문가 격리(shared expert isolation): 토큰마다 항상 함께 활성화되는 공유 전문가를 분리해 둠으로써 “모든 토큰이 공통으로 알아야 할 일반 지식”을 라우팅 전문가가 중복 학습하지 않게 한다.

논문은 이 구성이 GShard와 같은 기존 MoE 대비 더 강한 모델을 더 경제적인 비용으로 학습 가능하게 한다고 설명한다. DeepSeek-V2의 “학습 비용 42.5% 절감”의 상당 부분이 이 모듈의 기여로 귀속된다.

5. 사전 학습(Pre-training)

DeepSeek-V2의 사전 학습 코퍼스는 다양한 출처의 고품질 데이터로 8.1T(조) 토큰 규모이다. DeepSeek-V1과 비교해 데이터 양이 늘어났고, 특히 중국어 데이터의 비중이 커졌으며 데이터 품질이 향상되었다.

데이터 준비 단계에서는 명시적인 디바이아싱(debiasing, 편향 제거) 절차도 포함된다. 지역 문화의 영향을 받은 가치관처럼 논쟁의 여지가 큰(contentious) 콘텐츠를 식별·필터링해 모델이 특정 입장을 강하게 학습하지 않도록 했다. 이 결정은 9절에서 다룰 “MMLU Humanity-Moral 서브셋 성능 저하”라는 의도된 부작용을 만들어낸다.

6. 정렬(Alignment): SFT와 강화학습

사전 학습이 끝난 모델은 두 단계의 정렬 절차를 거친다.

SFT(Supervised Fine-Tuning, 지도형 미세조정): 수학·코드·글쓰기·추론·안전 등 다양한 도메인을 아우르는 150만(1.5M) 개의 대화 세션을 수집해 DeepSeek-V2-SFT를 학습시켰다.
RL(Reinforcement Learning): DeepSeekMath의 방법론을 따라 GRPO(Group Relative Policy Optimization, 그룹 상대 정책 최적화)를 적용해 인간 선호에 맞는 정렬을 수행하고, DeepSeek-V2-RL(=Chat 버전)을 만들었다.

정렬에서는 “정렬세(Alignment Tax)”, 즉 인간 선호 정합 과정에서 일부 일반 벤치마크 성능이 떨어지는 현상이 발생할 수 있다. DeepSeek-V2는 데이터 필터링을 통한 디바이아싱과 온라인 RL 기반 정렬을 결합해 이 비용을 최소화하면서 성능과 안전성의 균형을 맞췄다고 보고한다.

7. 주요 성능 결과

DeepSeek-V2는 21B 활성 파라미터만으로 오픈소스 모델 가운데 최상위권 성능을 달성하며, 오픈소스 MoE 언어 모델 중 가장 강력한 모델 자리에 올라섰다. 정렬 모델인 DeepSeek-V2-RL의 대표 점수는 다음과 같다.

AlpacaEval 2.0 길이 제어 승률(length-controlled win rate): 38.9%
MT-Bench 전체 점수: 8.97
AlignBench 전체 점수: 7.91

중국어 오픈 엔드 대화 평가에서 DeepSeek-V2-RL은 모든 오픈소스 모델을 능가했고, 다수의 폐쇄형(closed-source) 모델까지 뛰어넘는 결과를 보였다.

긴 컨텍스트 지원에 대한 검증으로 NIAH(Needle In A Haystack, 건초 더미 속 바늘 찾기) 평가가 사용된다. 긴 문서 어딘가에 심어둔 짧은 문장을 모델이 찾아내는지를 보는 테스트이다.

Figure 4: NIAH 128K 컨텍스트 평가 — 모든 컨텍스트 길이에서 안정적 회수

Figure 4: NIAH 128K 컨텍스트 평가 — 모든 컨텍스트 길이에서 안정적 회수

이 그림은 가로축 컨텍스트 길이, 세로축 “바늘”의 삽입 위치(문서 내 깊이)로 구성된 히트맵이다. 셀의 색은 해당 길이·위치에서 모델이 바늘을 정확히 회수했는지를 나타낸다. DeepSeek-V2는 가로축이 128K에 도달할 때까지 셀 색상이 균일하게 “성공” 영역에 머문다. 이는 학습 시 사용한 시퀀스 길이를 넘어선 영역에서도 위치 의존적 성능 저하가 두드러지지 않음을 의미한다. 곧 128K 컨텍스트가 명목상의 사양에 그치지 않고 실제로 사용 가능하다는 주장의 직접 근거이며, 긴 문서 QA·코드베이스 탐색·장문 대화 같은 긴 컨텍스트 활용 시나리오에서의 실용성을 뒷받침한다.

8. 사전 학습 데이터 디바이아싱과 그 부작용

데이터 디바이아싱은 의도된 부작용을 동반한다. 특정 지역 문화와 강하게 결합된 정답이 존재하는 테스트 셋에서는 점수가 다소 낮아질 수 있는데, 대표 사례가 MMLU의 Humanity-Moral 서브셋이다. 이 서브셋은 주로 미국적 가치와 결부된 도덕 시나리오를 다룬다. DeepSeek-V2는 대부분의 MMLU 서브셋에서 Mixtral 8x22B 등과 동등하거나 더 나은 성능을 보이지만 Humanity-Moral 서브셋에서는 상대적으로 낮은 점수를 기록한다.

논문은 이 점수 차이가 단지 모델의 약점이 아니라 “데이터셋 자체가 논쟁적이라는 사실”에 기인한다는 점을 보이기 위해, 잘 교육받은(well-educated) 어노테이터 3명에게 해당 서브셋의 도덕 시나리오 420개를 독립적으로 재라벨링하게 했다. 정답 레이블 및 어노테이터 간 일치도는 다음과 같다.

Agreement	Ground-Truth	Annotator 1	Annotator 2	Annotator 3
Ground-Truth Label	100.0%	66.7%	59.8%	42.1%
Annotator 1	66.7%	100.0%	57.9%	69.0%
Annotator 2	59.8%	57.9%	100.0%	65.5%
Annotator 3	42.1%	69.0%	65.5%	100.0%

세 어노테이터 모두 정답 레이블과 일치도가 67% 이하이며, 어노테이터끼리도 합의가 60% 안팎이다. 즉 “정답”이 단일하다고 보기 어려운 문항이 다수라는 신호이다. 이는 디바이아싱 전략의 부작용으로 나타난 점수 차이가 모델 능력의 결함보다 데이터의 문화 의존성에서 기인함을 뒷받침한다.

9. 추가 평가: 수학과 코드

9.1 중국어 수학 — SC-Math6

SC-Math6 코퍼스(수천 개의 중국어 수학 문제)에서 DeepSeek-V2-RL은 GPT-4 계열을 제외한 모든 중국어 LLM을 능가하며, 같은 5단계 추론 레벨(R Level 5) 모델 중 중국어 모델 1위에 위치한다.

Model	R Level	Comp.	Reas. Steps	OvrAcc
GPT-4-1106-Preview	5	90.71	91.65	89.77
GPT-4	5	88.40	89.10	87.71
Ernie-bot 4.0	5	85.60	86.82	84.38
DeepSeek-V2-RL	5	83.35	85.73	84.54
Qwen-110B-Chat	5	83.25	84.93	84.09
GLM-4	5	84.24	85.72	82.77
Xinghuo 3.5	5	83.73	85.37	82.09
Qwen-72B-Chat	4	78.42	80.07	79.25
ChatGLM-Turbo	4	57.70	60.32	55.09
GPT-3.5-Turbo	4	57.05	59.61	54.50
Qwen-14B-Chat	4	53.12	55.99	50.26
ChatGLM3-6B	3	40.90	44.20	37.60
Xinghuo 3.0	3	40.08	45.27	34.89
Baichuan2-13B-Chat	3	39.40	42.63	36.18
Ernie-3.5-turbo	2	25.19	27.70	22.67
Chinese-Alpaca2-13B	2	20.55	22.52	18.58

GPT-4 계열이 여전히 절대 점수에서는 앞서지만, DeepSeek-V2-RL은 Ernie-bot 4.0, Qwen-110B-Chat, GLM-4 등 동급 중국어 모델군 안에서 OvrAcc 84.54로 상위에 위치한다.

9.2 코드 생성 — HumanEval과 LiveCodeBench

코드 능력은 HumanEval과 LiveCodeBench 두 벤치마크로 측정한다. 특히 LiveCodeBench는 2023년 9월 1일부터 2024년 4월 1일 사이에 출제된 신규 문제로 구성되어, 사전 학습 데이터에 정답이 그대로 포함되었을 가능성을 줄인 “신선한” 평가셋이다.

Figure 5: HumanEval 및 LiveCodeBench에서의 모델별 코드 성능 비교

Figure 5: HumanEval 및 LiveCodeBench에서의 모델별 코드 성능 비교

이 그림은 가로·세로축에 각각 두 벤치마크 점수를 두고 모델들을 산점도로 배치한다. DeepSeek-V2-RL은 LiveCodeBench Pass@1 기준으로 일부 거대 모델을 넘어서는 위치에 자리하며, HumanEval에서도 경쟁력 있는 지점에 놓인다. 두 축 모두에서 우상단에 가까운 위치는 “과거 형식의 표준 코드 평가(HumanEval)뿐 아니라 사전 학습 시점 이후 출제된 새 문제(LiveCodeBench)에도 대응 가능하다”는 의미이며, 이는 단순 기억이 아닌 실제 코딩 추론 능력을 갖췄다는 주장의 핵심 근거이다.

10. 경량 모델: DeepSeek-V2-Lite

DeepSeek-V2의 두 핵심 모듈(MLA + DeepSeekMoE)이 작은 규모에서도 작동함을 보이기 위해 16B(부록의 본문 텍스트 표기 기준)/15.7B(요약 표기) 규모의 DeepSeek-V2-Lite를 별도로 공개한다. 주요 벤치마크 점수는 다음과 같다.

벤치마크	형식	점수
MMLU	5-shot	58.3%
BBH	3-shot	44.1%
TriviaQA	5-shot	64.2%
NaturalQuestions	5-shot	26.0%
ARC-Easy	25-shot	70.9%
ARC-Challenge	25-shot	51.2%
AGIEval	0-shot	33.2%
HumanEval	0-shot	29.9%
MBPP	3-shot	43.2%
GSM8K	8-shot	41.1%
MATH	4-shot	17.1%
CMath	0-shot	58.4%
CLUEWSC	5-shot	74.3%
C-Eval	5-shot	60.3%
CMMLU	5-shot	64.3%

해석 포인트는 두 가지다. 첫째, ARC-Easy(70.9%) vs. ARC-Challenge(51.2%) 격차에서 보듯 난이도가 올라갈수록 성능이 떨어지는 일반적 LLM 경향을 그대로 따른다. 둘째, C-Eval(60.3%) < CMMLU(64.3%) 차이에서 알 수 있듯 같은 중국어 평가라도 평가 구성에 따라 점수가 갈리며, 대규모 학습 데이터의 중국어 비중 증가가 CMMLU 같은 광범위 지식 평가에서 더 크게 효과를 보인다.

11. 한계와 향후 방향

DeepSeek-V2 및 그 Chat 버전은 대규모 LLM이 공통적으로 갖는 한계를 함께 안고 있다.

지식 컷오프 이후 정보 부재: 사전 학습 시점 이후의 사실을 정확히 답할 수 없다.
비사실 생성: 검증되지 않은 조언과 같은 비사실적 정보를 만들 수 있다.
환각(hallucination): 그럴듯하지만 사실이 아닌 응답을 생성할 가능성이 있다.
다국어 능력 편중: 학습 데이터가 주로 중국어와 영어이므로 그 외 언어에서는 능력이 제한될 수 있다.

향후 계획은 세 갈래다.

MoE의 추가 스케일업: 경제적인 학습·추론 비용을 유지하면서 GPT-4 수준 성능 달성을 목표로 한다.
정렬 고도화: 인간 가치와 모델 가치를 더 잘 일치시키고, 인간 감독 의존도를 낮추면서도 정직하고 안전한 모델을 만든다.
멀티모달 확장: 현재 텍스트 전용인 모델을 다양한 모달리티로 확장한다.

12. 평가 형식 설계

본 모델 평가는 벤치마크별로 입력 형식을 명시적으로 정의한다. 형식 표준화는 모델의 추론 능력과 지식 수준을 일관성 있게 측정하기 위한 전제 조건이다.

객관식 형식: AGIEval, ARC, C-Eval, C3, CCPM, CMMLU, CHID, HellaSwag, MMLU, OpenBookQA, PIQA, RACE, WinoGrande. 문제와 선택지를 제공하고 A~D 중 하나를 고르게 한다.
주관식·추론 형식: BBH, CMATH, CMRC2018, DROP, CLUEWSC, GSM8K, MATH, NaturalQuestions, TriviaQA. 직접 답이나 계산 결과를 요구한다. BBH·GSM8K·MATH·MBPP·CRUXEval-I 등 추론 의존도가 높은 과제에는 “Let's think step by step” 류의 CoT(Chain-of-Thought, 사고 사슬) 유도 문구를 함께 제공한다.
코드 생성 형식: HumanEval, MBPP. 함수 시그니처, 도큐스트링, 테스트 케이스를 주고 함수 본체를 요구한다.
코드 추론 형식: CRUXEval-I(입력 추론), CRUXEval-O(출력 예측). 함수와 assertion을 주고 빠진 입력값 또는 출력값을 [ANSWER] 태그 안의 완성된 assertion으로 제출하게 한다.
특수 형식 — WinoGrande: 두 가지 대명사 접두사와 한 개의 완료 문장을 주고, 어느 접두사가 완료 문장과 더 잘 어울리는지 고르게 한다.

13. 기여자 구성

논문은 모델 개발 조직 구성과 핵심 기여자를 명시한다.

역할	인원	핵심 기여자
연구 및 엔지니어링	128	Huazuo Gao, Wangding Zeng (MLA 아키텍처 핵심 혁신 주도)
데이터 어노테이션	32	—
비즈니스 및 컴플라이언스	20	—

외부 기여로 Jianlin Su의 위치 임베딩 관련 토론이 언급된다. 또한 저자들은 “AGI(인공일반지능)로 가는 길에서 혁신, 참신함, 호기심이 필수적”이라는 철학을 공유한다고 밝힌다.

14. 핵심 수치 종합 요약

항목	값 / 비교 대상
총 파라미터	236B
활성 파라미터(토큰당)	21B
컨텍스트 길이	128K
사전 학습 토큰	8.1T
SFT 대화 세션	1.5M
학습 비용 절감	DeepSeek-V1 대비 42.5%
KV 캐시 감소	DeepSeek-V1 대비 93.3%
최대 생성 처리량	DeepSeek-V1 대비 5.76배
AlpacaEval 2.0 LC 승률	38.9%
MT-Bench	8.97
AlignBench	7.91
MLA Perplexity (캐시 1/8)	12.57
MHA / GQA / MQA Perplexity (캐시 1/8)	12.69 / 12.69 / 12.74

참고: 핵심 선행 연구

DeepSeekMoE — 본 논문이 채택한 FFN 측 MoE 아키텍처의 직접 출처. 세밀한 전문가 분할과 공유 전문가 격리 개념이 여기에서 도입되었다.
DeepSeekMath / GRPO(Group Relative Policy Optimization) — DeepSeek-V2의 RL 정렬 단계에서 사용된 알고리즘의 출처. 그룹 단위 상대 보상으로 정책을 갱신해, 인간 선호 정합과 안정적 학습을 동시에 달성한다.
GShard 계열 MoE — DeepSeekMoE가 비교 대상으로 삼는 전통적 MoE의 대표. DeepSeekMoE의 “세밀한 분할 + 공유 전문가” 설계가 이 계열 대비 어떤 이점을 갖는지에 대한 기준선이다.
MHA / GQA / MQA — MLA 어블레이션의 직접 비교군. 동일 KV 캐시 예산에서 MLA의 우위를 보이는 데 사용된다.
RoPE(Rotary Positional Embedding) — MLA에서 위치 정보 주입에 사용되는 위치 임베딩 기법. Jianlin Su의 토론으로 본 논문 설계에 영향을 주었다고 명시된다.
DeepSeek-V1(67B dense) — 본 모델의 직접 비교 대상. 학습 비용 42.5% 절감, KV 캐시 93.3% 감소, 처리량 5.76배 향상 모두 V1을 기준선으로 한 수치이다.

ABOUT ME

urban-dandelion urban-dandelion

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

1. 배경 및 문제 정의

2. 두 가지 핵심 혁신 개요

3. Multi-head Latent Attention(MLA)의 동기와 구조

MLA의 계산 과정

MLA 어블레이션: 다른 어텐션 방식과의 비교

4. DeepSeekMoE 아키텍처

5. 사전 학습(Pre-training)

6. 정렬(Alignment): SFT와 강화학습

7. 주요 성능 결과

8. 사전 학습 데이터 디바이아싱과 그 부작용

9. 추가 평가: 수학과 코드

9.1 중국어 수학 — SC-Math6

9.2 코드 생성 — HumanEval과 LiveCodeBench

10. 경량 모델: DeepSeek-V2-Lite

11. 한계와 향후 방향

12. 평가 형식 설계

13. 기여자 구성

14. 핵심 수치 종합 요약

참고: 핵심 선행 연구

티스토리툴바