�ݺ�ߣ

DeepSeek를 통해 본 Trend
A.I. Educating Service
FACULTY TAE YOUNG LEE

“Share Value, Grow together”
우리는 지속적으로 성장하고 싶은 열정이 있어요 변화를 두려워하지 않고,
자신의 역량을 계속 발전시키며 성장해요 새로운 업무를 두려워하기보다
적극적으로 수용하여 자신감 있게 추진해요

Index
01
DeepSeek-V3
MOE와 MLA
02
DeepSeek-R1-Zero
RLHF→RLAIF→PPO→DPO→GRPO
03
DeepSeek-R1
Data Attribution

DeepSeek Paper

모두의연구소 PPT 표지 제목을 입력해주세요.
01
MOE와 MLA
DeepSeek-V3

DeepSeek-V3

DeepSeek-V3
문맥 길이 확장(Context Length Extension): 긴 글도 잘 이해하도록 훈련
DeepSeek-V3는 처음에는 한 번에 32,000자까지 이해할 수 있었지만, 이후 학습을 통해 128,000자까지 문맥을 확장

DeepSeekMoE
MoE 구조를 활용해 모델의 계산 성능을 극대화하며, 효율적인 부하 균형
(Auxiliary-Loss-Free Load Balancing) 전략을 새롭게 도입했습니다.
부하 균형 문제
● 문제점: MoE 모델에서 특정 전문가(Expert)에 작업이 편중되면, 라우팅
효율성이 감소하고 계산 자원이 비효율적으로 사용될 수 있습니다.
● 기존 방법: 부가 손실(Auxiliary Loss)을 추가하여 부하 균형을 맞추는 방식이
사용되었으나, 이는 모델 성능을 저하시킬 위험이 있었습니다.
부가 손실 없이 부하 균형을 유지하기 위해 편향 값(Bias Term)을 동적으로
조정하는 전략을 사용합니다.

MLA
Multi-Head Latent Attention (MLA):
● Attention 구조에서 키(Key)와 값(Value)을 효율적으로
압축하여 KV 캐시 사용량을 줄이는 기법입니다.
● 기존 Transformer의 Multi-Head Attention(MHA)과
비슷한 성능을 유지하면서도 메모리와 계산 비용을 크게
절감합니다.
즉, MLA는 Key와 Value를 압축 및 복원하는 과정을 추가하여,
기존 MHA 대비 메모리 사용량을 크게 줄이면서도 동일한 수식
구조와 성능을 유지합니다. 특히, 긴 입력 시퀀스를 처리해야
하는 대규모 언어 모델에서 큰 이점을 제공합니다

02
RLHF→RLAIF→PPO→DPO→GRPO
DeepSeek-R1-Zero

DeepSeek-R1-Zero

DeepSeek-R1-Zero
DeepSeek-R1-Zero는 강화 학습 효율성을 위해
GRPO 알고리즘을 사용합니다.
GRPO의 주요 특징은 Critic 모델 없이 그룹 점수를
기반으로 학습한다는 점입니다. 이 접근법은 학습
비용을 줄이면서도 높은 성능을 제공합니다.
GRPO 알고리즘의 목표 함수는 다음과 같이
정의됩니다:
그룹의 정의
● 하나의 질문 (q): 정책 모델이 처리해야 할
입력 질문입니다.
● 출력 그룹: 질문 q에 대해 정책 모델
πoldpi_{text{old}}πold이 생성한 여러 개의
출력 (o1,o2,…,oGo_1, o_2, ldots,
o_Go1,o2,…,oG)으로 구성됩니다.
예를 들어, qqq가 "2+2는 얼마인가?"라는
질문이라면, 출력 그룹은 모델이 생성한 다음과 같은
여러 답변이 될 수 있습니다:
a. o1="4"o_1 = "4"o1="4"
b. o2="4입니다."o_2 =
"4입니다."o2="4입니다."
c. o3="답은4입니다."o_3 = "답은
4입니다."o3="답은4입니다."
d. o4="정확히4."o_4 = "정확히 4."o4="
정확히4."

RLHF
RM → PPO
RLHF → RLAIF

생각해 보자!!

PPO 알아보기

PPO의 한계

DPO의 출현

DPO 알아보기

DPO outline

DPO 한계

DPO
Direct Preference Optimization (DPO)
Direct Preference Optimization (DPO)는 정책 최적화 방법으로, 에이전트의 행동 선택에 대한 선호도를 직접적으로 반영하여 최적화하는 방식입니다. 이는 주어진
행동들의 선호도나 순위를 기반으로 학습을 진행합니다.
특징:
● 선호도를 기반으로 한 정책 최적화: DPO는 행동의 선호도에 따라 정책을 업데이트합니다. 즉, 에이전트가 선택할 행동에 대해 더 선호되는 행동을
선택하도록 학습합니다.
● 명시적 보상 함수가 아닌 선호도: 일반적인 강화학습에서는 보상 함수를 사용하지만, DPO에서는 선호도를 직접적으로 사용하여 최적화를 진행합니다.
● 사용 예시: DPO는 사람의 선호를 반영한 강화학습 시스템에서 유용할 수 있습니다. 예를 들어, 사용자가 선호하는 행동을 우선적으로 학습하고 이를
기반으로 정책을 최적화하는 경우입니다.
장점:
● 보상 함수의 필요 없음: DPO는 보상 함수 없이 선호도 데이터를 이용하여 학습을 진행하므로, 보상 설계가 어려운 환경에서 유용합니다.
● 사람의 선호를 반영: 인간의 판단을 직접적으로 반영할 수 있어, 사람 중심의 시스템에서 효과적입니다.
한계:
● 정확한 선호도 수집의 어려움: 선호도를 정확하게 수집하고 반영하는 과정에서 시간과 자원이 많이 소요될 수 있습니다.
● 탐색과 착취의 균형 문제: 선호도 기반 학습은 탐색과 착취의 균형을 맞추는 데 어려움이 있을 수 있습니다. 선호도가 명확하지 않거나 부족하면 최적화에
어려움을 겪을 수 있습니다.

GRPO
Group Relative Policy Optimization (GRPO)
Group Relative Policy Optimization (GRPO)는 그룹 간의 상대적인 선호도를 기반으로 최적화하는 알고리즘입니다. DPO와 달리, GRPO는 여러 에이전트 간의
상대적인 행동 선호도를 고려하여 정책을 업데이트합니다.
특징:
● 그룹 간 선호도 비교: GRPO는 여러 개체나 그룹이 상대적으로 선호하는 행동들을 비교하고, 그룹 내 상호작용을 고려하여 정책을 최적화합니다.
● 상대적인 최적화: 각 개체가 선택할 수 있는 행동에 대한 상대적인 선호도를 기반으로 최적화하므로, 집단적 차원에서의 효율성을 극대화합니다.
● 집단적 의사결정: 이 방식은 사회적 선택 이론이나 여러 에이전트 간의 협력/경쟁을 고려하는 문제에서 유리합니다.
장점:
● 집단적 효율성: 여러 에이전트가 상호작용하는 환경에서, 그룹 간의 효율성을 반영하여 최적화할 수 있습니다. 예를 들어, 여러 에이전트가 협력하는
상황에서 효과적인 정책을 생성할 수 있습니다.
● 상대적 선호도 활용: 상대적인 선호도를 비교하여 최적화하므로, 그룹 간의 우선순위나 선택을 반영할 수 있습니다.
한계:
● 복잡한 계산: 여러 그룹의 상대적 선호도를 고려해야 하므로, 계산 비용이 많이 들 수 있습니다. 특히 상호작용이 복잡한 환경에서는 더 많은 계산 자원이
필요할 수 있습니다.
● 그룹 내 변동성 문제: 각 그룹 내의 개체들이 가지는 상대적인 선호도의 차이를 처리하는 데 어려움이 있을 수 있습니다.

DPO vs GRPO

03
Data Attribution
DeepSeek-R1

DeepSeek-R1

DeepSeek-R1
DeepSeek-R1: Cold Start와 다단계 학습
데이터 설계의 의의
● Cold Start 데이터: RL 학습 초기의 불안정을 제거하고, 모델의 초기 성능을
가독성 및 사용자 친화적인 형태로 보장.
● Reasoning 데이터: 정확도와 논리적 정합성을 보장하면서 모델의 논리
추론 성능을 극대화.
● Non-Reasoning 데이터: 다목적 성능을 강화하고, 사용자 경험을 개선하는
데 기여.
● 전체 데이터 설계:
● 초기 단계에서 가독성 높은 데이터를 수집하여 기반을 다지고, 후속
단계를 통해 다양한 도메인과 작업에 대한 일반적 성능을 강화.
핵심 특징
Cold Start 데이터
DeepSeek-R1은 소량의 고품질 데이터(SFT)를 사용하여 초기 RL 안정성을
보장합니다.
● Cold Start 데이터 설계:
● 추론 과정(CoT)을 명확히 포함하는 데이터 수집.
● 인간 주석을 통해 읽기 쉬운 출력 패턴 생성.
Reasoning 중심 RL
SFT로 초기 모델을 학습한 뒤, DeepSeek-R1-Zero와 동일한 RL 프로세스를
적용하여 추론 능력을 강화했습니다.
● 언어 일관성(Language Consistency) 보상을 추가해 다국어 혼합 문제
해결.
Rejection Sampling과 추가 SFT
RL로 수집한 데이터를 선별하여 80만 개의 고품질 데이터를 확보.
● 약 60만 개: 수학, 코딩, 논리 등 추론 중심 데이터.
● 약 20만 개: 글쓰기, 번역 등 일반 작업 데이터.
전방위 RL
최종 RL 단계에서는 모든 시나리오에 대응하는 모델을 학습.
● 도움 및 무해성 평가:
● 도움이 되는 응답(Helpful)과 안전한 응답(Harmless)을 평가 및
최적화.

DeepSeek-R1 데이터설계

Thank You

�ݺ�ߣ

DeepSeek를 통해 본 Trend (Faculty Tae Young Lee)

More Related Content

Similar to DeepSeek를 통해 본 Trend (Faculty Tae Young Lee) (20)

More from Tae Young Lee (20)

DeepSeek를 통해 본 Trend (Faculty Tae Young Lee)