ݺߣ

ݺߣShare a Scribd company logo
DeepSeek를 통해 본 Trend
A.I. Educating Service
FACULTY TAE YOUNG LEE
“Share Value, Grow together”
우리는 지속적으로 성장하고 싶은 열정이 있어요 변화를 두려워하지 않고,
자신의 역량을 계속 발전시키며 성장해요 새로운 업무를 두려워하기보다
적극적으로 수용하여 자신감 있게 추진해요
Index
01
DeepSeek-V3
MOE와 MLA
02
DeepSeek-R1-Zero
RLHF→RLAIF→PPO→DPO→GRPO
03
DeepSeek-R1
Data Attribution
FACULTY TAE YOUNG LEE
DeepSeek Paper
FACULTY TAE YOUNG LEE
모두의연구소 PPT 표지 제목을 입력해주세요.
01
MOE와 MLA
DeepSeek-V3
DeepSeek-V3
FACULTY TAE YOUNG LEE
DeepSeek-V3
FACULTY TAE YOUNG LEE
문맥 길이 확장(Context Length Extension): 긴 글도 잘 이해하도록 훈련
DeepSeek-V3는 처음에는 한 번에 32,000자까지 이해할 수 있었지만, 이후 학습을 통해 128,000자까지 문맥을 확장
DeepSeekMoE
MoE 구조를 활용해 모델의 계산 성능을 극대화하며, 효율적인 부하 균형
(Auxiliary-Loss-Free Load Balancing) 전략을 새롭게 도입했습니다.
부하 균형 문제
● 문제점: MoE 모델에서 특정 전문가(Expert)에 작업이 편중되면, 라우팅
효율성이 감소하고 계산 자원이 비효율적으로 사용될 수 있습니다.
● 기존 방법: 부가 손실(Auxiliary Loss)을 추가하여 부하 균형을 맞추는 방식이
사용되었으나, 이는 모델 성능을 저하시킬 위험이 있었습니다.
부가 손실 없이 부하 균형을 유지하기 위해 편향 값(Bias Term)을 동적으로
조정하는 전략을 사용합니다.
FACULTY TAE YOUNG LEE
MLA
Multi-Head Latent Attention (MLA):
● Attention 구조에서 키(Key)와 값(Value)을 효율적으로
압축하여 KV 캐시 사용량을 줄이는 기법입니다.
● 기존 Transformer의 Multi-Head Attention(MHA)과
비슷한 성능을 유지하면서도 메모리와 계산 비용을 크게
절감합니다.
즉, MLA는 Key와 Value를 압축 및 복원하는 과정을 추가하여,
기존 MHA 대비 메모리 사용량을 크게 줄이면서도 동일한 수식
구조와 성능을 유지합니다. 특히, 긴 입력 시퀀스를 처리해야
하는 대규모 언어 모델에서 큰 이점을 제공합니다
FACULTY TAE YOUNG LEE
모두의연구소 PPT 표지 제목을 입력해주세요.
02
RLHF→RLAIF→PPO→DPO→GRPO
DeepSeek-R1-Zero
DeepSeek-R1-Zero
FACULTY TAE YOUNG LEE
DeepSeek-R1-Zero
FACULTY TAE YOUNG LEE
DeepSeek-R1-Zero는 강화 학습 효율성을 위해
GRPO 알고리즘을 사용합니다.
GRPO의 주요 특징은 Critic 모델 없이 그룹 점수를
기반으로 학습한다는 점입니다. 이 접근법은 학습
비용을 줄이면서도 높은 성능을 제공합니다.
GRPO 알고리즘의 목표 함수는 다음과 같이
정의됩니다:
그룹의 정의
● 하나의 질문 (q): 정책 모델이 처리해야 할
입력 질문입니다.
● 출력 그룹: 질문 q에 대해 정책 모델
πoldpi_{text{old}}πold이 생성한 여러 개의
출력 (o1,o2,…,oGo_1, o_2, ldots,
o_Go1,o2,…,oG)으로 구성됩니다.
예를 들어, qqq가 "2+2는 얼마인가?"라는
질문이라면, 출력 그룹은 모델이 생성한 다음과 같은
여러 답변이 될 수 있습니다:
a. o1="4"o_1 = "4"o1="4"
b. o2="4입니다."o_2 =
"4입니다."o2="4입니다."
c. o3="답은4입니다."o_3 = "답은
4입니다."o3="답은4입니다."
d. o4="정확히4."o_4 = "정확히 4."o4="
정확히4."
RLHF
RM → PPO
RLHF → RLAIF
FACULTY TAE YOUNG LEE
생각해 보자!!
FACULTY TAE YOUNG LEE
PPO 알아보기
FACULTY TAE YOUNG LEE
PPO 알아보기
FACULTY TAE YOUNG LEE
PPO의 한계
FACULTY TAE YOUNG LEE
DPO의 출현
FACULTY TAE YOUNG LEE
DPO 알아보기
FACULTY TAE YOUNG LEE
DPO 알아보기
FACULTY TAE YOUNG LEE
DPO 알아보기
FACULTY TAE YOUNG LEE
DPO outline
FACULTY TAE YOUNG LEE
DPO outline
FACULTY TAE YOUNG LEE
DPO 알아보기
FACULTY TAE YOUNG LEE
DPO 한계
FACULTY TAE YOUNG LEE
DPO
Direct Preference Optimization (DPO)
Direct Preference Optimization (DPO)는 정책 최적화 방법으로, 에이전트의 행동 선택에 대한 선호도를 직접적으로 반영하여 최적화하는 방식입니다. 이는 주어진
행동들의 선호도나 순위를 기반으로 학습을 진행합니다.
특징:
● 선호도를 기반으로 한 정책 최적화: DPO는 행동의 선호도에 따라 정책을 업데이트합니다. 즉, 에이전트가 선택할 행동에 대해 더 선호되는 행동을
선택하도록 학습합니다.
● 명시적 보상 함수가 아닌 선호도: 일반적인 강화학습에서는 보상 함수를 사용하지만, DPO에서는 선호도를 직접적으로 사용하여 최적화를 진행합니다.
● 사용 예시: DPO는 사람의 선호를 반영한 강화학습 시스템에서 유용할 수 있습니다. 예를 들어, 사용자가 선호하는 행동을 우선적으로 학습하고 이를
기반으로 정책을 최적화하는 경우입니다.
장점:
● 보상 함수의 필요 없음: DPO는 보상 함수 없이 선호도 데이터를 이용하여 학습을 진행하므로, 보상 설계가 어려운 환경에서 유용합니다.
● 사람의 선호를 반영: 인간의 판단을 직접적으로 반영할 수 있어, 사람 중심의 시스템에서 효과적입니다.
한계:
● 정확한 선호도 수집의 어려움: 선호도를 정확하게 수집하고 반영하는 과정에서 시간과 자원이 많이 소요될 수 있습니다.
● 탐색과 착취의 균형 문제: 선호도 기반 학습은 탐색과 착취의 균형을 맞추는 데 어려움이 있을 수 있습니다. 선호도가 명확하지 않거나 부족하면 최적화에
어려움을 겪을 수 있습니다.
FACULTY TAE YOUNG LEE
GRPO
Group Relative Policy Optimization (GRPO)
Group Relative Policy Optimization (GRPO)는 그룹 간의 상대적인 선호도를 기반으로 최적화하는 알고리즘입니다. DPO와 달리, GRPO는 여러 에이전트 간의
상대적인 행동 선호도를 고려하여 정책을 업데이트합니다.
특징:
● 그룹 간 선호도 비교: GRPO는 여러 개체나 그룹이 상대적으로 선호하는 행동들을 비교하고, 그룹 내 상호작용을 고려하여 정책을 최적화합니다.
● 상대적인 최적화: 각 개체가 선택할 수 있는 행동에 대한 상대적인 선호도를 기반으로 최적화하므로, 집단적 차원에서의 효율성을 극대화합니다.
● 집단적 의사결정: 이 방식은 사회적 선택 이론이나 여러 에이전트 간의 협력/경쟁을 고려하는 문제에서 유리합니다.
장점:
● 집단적 효율성: 여러 에이전트가 상호작용하는 환경에서, 그룹 간의 효율성을 반영하여 최적화할 수 있습니다. 예를 들어, 여러 에이전트가 협력하는
상황에서 효과적인 정책을 생성할 수 있습니다.
● 상대적 선호도 활용: 상대적인 선호도를 비교하여 최적화하므로, 그룹 간의 우선순위나 선택을 반영할 수 있습니다.
한계:
● 복잡한 계산: 여러 그룹의 상대적 선호도를 고려해야 하므로, 계산 비용이 많이 들 수 있습니다. 특히 상호작용이 복잡한 환경에서는 더 많은 계산 자원이
필요할 수 있습니다.
● 그룹 내 변동성 문제: 각 그룹 내의 개체들이 가지는 상대적인 선호도의 차이를 처리하는 데 어려움이 있을 수 있습니다.
FACULTY TAE YOUNG LEE
DPO vs GRPO
FACULTY TAE YOUNG LEE
모두의연구소 PPT 표지 제목을 입력해주세요.
03
Data Attribution
DeepSeek-R1
DeepSeek-R1
FACULTY TAE YOUNG LEE
DeepSeek-R1
DeepSeek-R1: Cold Start와 다단계 학습
데이터 설계의 의의
● Cold Start 데이터: RL 학습 초기의 불안정을 제거하고, 모델의 초기 성능을
가독성 및 사용자 친화적인 형태로 보장.
● Reasoning 데이터: 정확도와 논리적 정합성을 보장하면서 모델의 논리
추론 성능을 극대화.
● Non-Reasoning 데이터: 다목적 성능을 강화하고, 사용자 경험을 개선하는
데 기여.
● 전체 데이터 설계:
● 초기 단계에서 가독성 높은 데이터를 수집하여 기반을 다지고, 후속
단계를 통해 다양한 도메인과 작업에 대한 일반적 성능을 강화.
핵심 특징
Cold Start 데이터
DeepSeek-R1은 소량의 고품질 데이터(SFT)를 사용하여 초기 RL 안정성을
보장합니다.
● Cold Start 데이터 설계:
● 추론 과정(CoT)을 명확히 포함하는 데이터 수집.
● 인간 주석을 통해 읽기 쉬운 출력 패턴 생성.
Reasoning 중심 RL
SFT로 초기 모델을 학습한 뒤, DeepSeek-R1-Zero와 동일한 RL 프로세스를
적용하여 추론 능력을 강화했습니다.
● 언어 일관성(Language Consistency) 보상을 추가해 다국어 혼합 문제
해결.
Rejection Sampling과 추가 SFT
RL로 수집한 데이터를 선별하여 80만 개의 고품질 데이터를 확보.
● 약 60만 개: 수학, 코딩, 논리 등 추론 중심 데이터.
● 약 20만 개: 글쓰기, 번역 등 일반 작업 데이터.
전방위 RL
최종 RL 단계에서는 모든 시나리오에 대응하는 모델을 학습.
● 도움 및 무해성 평가:
● 도움이 되는 응답(Helpful)과 안전한 응답(Harmless)을 평가 및
최적화.
FACULTY TAE YOUNG LEE
DeepSeek-R1 데이터설계
FACULTY TAE YOUNG LEE
Thank You
FACULTY TAE YOUNG LEE

More Related Content

Similar to DeepSeek를 통해 본 Trend (Faculty Tae Young Lee) (20)

PDF
금뽀 장웅태 발표자료(최종)
Lee Chanwoo
PDF
Kakao agile 2nd story
호정 이
PPT
20141208 액션러닝 강의
humana12
PPTX
20140120 action learning
humana12
PDF
Peopleplus hr session(2) people analytics, start today
Youngchan Jo
PDF
Machine Learning Foundations (a case study approach) 강의 정리
SANG WON PARK
PDF
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
Dylan Ko
PDF
AI_introduction and requirements(2024.05.12).pdf
Lee Chanwoo
PPTX
Ml for 정형데이터
JEEHYUN PAIK
PDF
How to Create Value from Data, and Its Difficulty
Dataya Nolja
PPTX
Pycon korea 2018 kaggle tutorial(kaggle break)
Yeonmin Kim
PDF
코드 테스트와 커버리지 관련 설문 및 개선계획수립 in 2018
SangIn Choung
PDF
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
태영 정
PDF
앙상블 학습 기반의 추천시스템 개발
Jungkyu Lee
PDF
파이썬으로 익히는 딥러닝 기본 (18년)
SK(주) C&C - 강병호
PDF
Create a solution including deep learning models
Tae Young Lee
PPT
[강의] OOP 개요
Nohyun Kee
PDF
Improving Language Understanding by Generative Pre-Training
pko89403
PPT
20140922 액션러닝 원장님강의01
humana12
PDF
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho
금뽀 장웅태 발표자료(최종)
Lee Chanwoo
Kakao agile 2nd story
호정 이
20141208 액션러닝 강의
humana12
20140120 action learning
humana12
Peopleplus hr session(2) people analytics, start today
Youngchan Jo
Machine Learning Foundations (a case study approach) 강의 정리
SANG WON PARK
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
Dylan Ko
AI_introduction and requirements(2024.05.12).pdf
Lee Chanwoo
Ml for 정형데이터
JEEHYUN PAIK
How to Create Value from Data, and Its Difficulty
Dataya Nolja
Pycon korea 2018 kaggle tutorial(kaggle break)
Yeonmin Kim
코드 테스트와 커버리지 관련 설문 및 개선계획수립 in 2018
SangIn Choung
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
태영 정
앙상블 학습 기반의 추천시스템 개발
Jungkyu Lee
파이썬으로 익히는 딥러닝 기본 (18년)
SK(주) C&C - 강병호
Create a solution including deep learning models
Tae Young Lee
[강의] OOP 개요
Nohyun Kee
Improving Language Understanding by Generative Pre-Training
pko89403
20140922 액션러닝 원장님강의01
humana12
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho

More from Tae Young Lee (20)

PDF
Transitioning from the Era of Big Data to LLMs_Deriving Insights
Tae Young Lee
PDF
Facebook Meta's technical direction in Large Language Models (LLMs)
Tae Young Lee
PDF
MultiModal Embedding integrates various data types, like images, text, and au...
Tae Young Lee
PDF
Review of the Paper on Capabilities of Gemini Models in Medicine
Tae Young Lee
PDF
A future that integrates LLMs and LAMs (Symposium)
Tae Young Lee
PDF
LLMs Service that provides what users want to know
Tae Young Lee
PDF
Exploring Deep Learning Acceleration Technology Embedded in LLMs
Tae Young Lee
PDF
Recommendation System History
Tae Young Lee
PDF
검색엔진에 적용된 ChatGPT
Tae Young Lee
PDF
검색엔진에 적용된 딥러닝 모델 방법론
Tae Young Lee
PDF
PaLM Paper Review
Tae Young Lee
PDF
The Deep Learning Compiler
Tae Young Lee
PDF
History of Vision AI
Tae Young Lee
PDF
Aws architecture
Tae Young Lee
PDF
Enhanced ai platform
Tae Young Lee
PDF
Nvidia architecture
Tae Young Lee
PDF
Ai based on gpu
Tae Young Lee
PDF
Real estate trust solution
Tae Young Lee
PDF
Infra as a model service
Tae Young Lee
PDF
Bayesian learning
Tae Young Lee
Transitioning from the Era of Big Data to LLMs_Deriving Insights
Tae Young Lee
Facebook Meta's technical direction in Large Language Models (LLMs)
Tae Young Lee
MultiModal Embedding integrates various data types, like images, text, and au...
Tae Young Lee
Review of the Paper on Capabilities of Gemini Models in Medicine
Tae Young Lee
A future that integrates LLMs and LAMs (Symposium)
Tae Young Lee
LLMs Service that provides what users want to know
Tae Young Lee
Exploring Deep Learning Acceleration Technology Embedded in LLMs
Tae Young Lee
Recommendation System History
Tae Young Lee
검색엔진에 적용된 ChatGPT
Tae Young Lee
검색엔진에 적용된 딥러닝 모델 방법론
Tae Young Lee
PaLM Paper Review
Tae Young Lee
The Deep Learning Compiler
Tae Young Lee
History of Vision AI
Tae Young Lee
Aws architecture
Tae Young Lee
Enhanced ai platform
Tae Young Lee
Nvidia architecture
Tae Young Lee
Ai based on gpu
Tae Young Lee
Real estate trust solution
Tae Young Lee
Infra as a model service
Tae Young Lee
Bayesian learning
Tae Young Lee
Ad

DeepSeek를 통해 본 Trend (Faculty Tae Young Lee)

  • 1. DeepSeek를 통해 본 Trend A.I. Educating Service FACULTY TAE YOUNG LEE
  • 2. “Share Value, Grow together” 우리는 지속적으로 성장하고 싶은 열정이 있어요 변화를 두려워하지 않고, 자신의 역량을 계속 발전시키며 성장해요 새로운 업무를 두려워하기보다 적극적으로 수용하여 자신감 있게 추진해요
  • 5. 모두의연구소 PPT 표지 제목을 입력해주세요. 01 MOE와 MLA DeepSeek-V3
  • 7. DeepSeek-V3 FACULTY TAE YOUNG LEE 문맥 길이 확장(Context Length Extension): 긴 글도 잘 이해하도록 훈련 DeepSeek-V3는 처음에는 한 번에 32,000자까지 이해할 수 있었지만, 이후 학습을 통해 128,000자까지 문맥을 확장
  • 8. DeepSeekMoE MoE 구조를 활용해 모델의 계산 성능을 극대화하며, 효율적인 부하 균형 (Auxiliary-Loss-Free Load Balancing) 전략을 새롭게 도입했습니다. 부하 균형 문제 ● 문제점: MoE 모델에서 특정 전문가(Expert)에 작업이 편중되면, 라우팅 효율성이 감소하고 계산 자원이 비효율적으로 사용될 수 있습니다. ● 기존 방법: 부가 손실(Auxiliary Loss)을 추가하여 부하 균형을 맞추는 방식이 사용되었으나, 이는 모델 성능을 저하시킬 위험이 있었습니다. 부가 손실 없이 부하 균형을 유지하기 위해 편향 값(Bias Term)을 동적으로 조정하는 전략을 사용합니다. FACULTY TAE YOUNG LEE
  • 9. MLA Multi-Head Latent Attention (MLA): ● Attention 구조에서 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄이는 기법입니다. ● 기존 Transformer의 Multi-Head Attention(MHA)과 비슷한 성능을 유지하면서도 메모리와 계산 비용을 크게 절감합니다. 즉, MLA는 Key와 Value를 압축 및 복원하는 과정을 추가하여, 기존 MHA 대비 메모리 사용량을 크게 줄이면서도 동일한 수식 구조와 성능을 유지합니다. 특히, 긴 입력 시퀀스를 처리해야 하는 대규모 언어 모델에서 큰 이점을 제공합니다 FACULTY TAE YOUNG LEE
  • 10. 모두의연구소 PPT 표지 제목을 입력해주세요. 02 RLHF→RLAIF→PPO→DPO→GRPO DeepSeek-R1-Zero
  • 12. DeepSeek-R1-Zero FACULTY TAE YOUNG LEE DeepSeek-R1-Zero는 강화 학습 효율성을 위해 GRPO 알고리즘을 사용합니다. GRPO의 주요 특징은 Critic 모델 없이 그룹 점수를 기반으로 학습한다는 점입니다. 이 접근법은 학습 비용을 줄이면서도 높은 성능을 제공합니다. GRPO 알고리즘의 목표 함수는 다음과 같이 정의됩니다: 그룹의 정의 ● 하나의 질문 (q): 정책 모델이 처리해야 할 입력 질문입니다. ● 출력 그룹: 질문 q에 대해 정책 모델 πoldpi_{text{old}}πold이 생성한 여러 개의 출력 (o1,o2,…,oGo_1, o_2, ldots, o_Go1,o2,…,oG)으로 구성됩니다. 예를 들어, qqq가 "2+2는 얼마인가?"라는 질문이라면, 출력 그룹은 모델이 생성한 다음과 같은 여러 답변이 될 수 있습니다: a. o1="4"o_1 = "4"o1="4" b. o2="4입니다."o_2 = "4입니다."o2="4입니다." c. o3="답은4입니다."o_3 = "답은 4입니다."o3="답은4입니다." d. o4="정확히4."o_4 = "정확히 4."o4=" 정확히4."
  • 13. RLHF RM → PPO RLHF → RLAIF FACULTY TAE YOUNG LEE
  • 26. DPO Direct Preference Optimization (DPO) Direct Preference Optimization (DPO)는 정책 최적화 방법으로, 에이전트의 행동 선택에 대한 선호도를 직접적으로 반영하여 최적화하는 방식입니다. 이는 주어진 행동들의 선호도나 순위를 기반으로 학습을 진행합니다. 특징: ● 선호도를 기반으로 한 정책 최적화: DPO는 행동의 선호도에 따라 정책을 업데이트합니다. 즉, 에이전트가 선택할 행동에 대해 더 선호되는 행동을 선택하도록 학습합니다. ● 명시적 보상 함수가 아닌 선호도: 일반적인 강화학습에서는 보상 함수를 사용하지만, DPO에서는 선호도를 직접적으로 사용하여 최적화를 진행합니다. ● 사용 예시: DPO는 사람의 선호를 반영한 강화학습 시스템에서 유용할 수 있습니다. 예를 들어, 사용자가 선호하는 행동을 우선적으로 학습하고 이를 기반으로 정책을 최적화하는 경우입니다. 장점: ● 보상 함수의 필요 없음: DPO는 보상 함수 없이 선호도 데이터를 이용하여 학습을 진행하므로, 보상 설계가 어려운 환경에서 유용합니다. ● 사람의 선호를 반영: 인간의 판단을 직접적으로 반영할 수 있어, 사람 중심의 시스템에서 효과적입니다. 한계: ● 정확한 선호도 수집의 어려움: 선호도를 정확하게 수집하고 반영하는 과정에서 시간과 자원이 많이 소요될 수 있습니다. ● 탐색과 착취의 균형 문제: 선호도 기반 학습은 탐색과 착취의 균형을 맞추는 데 어려움이 있을 수 있습니다. 선호도가 명확하지 않거나 부족하면 최적화에 어려움을 겪을 수 있습니다. FACULTY TAE YOUNG LEE
  • 27. GRPO Group Relative Policy Optimization (GRPO) Group Relative Policy Optimization (GRPO)는 그룹 간의 상대적인 선호도를 기반으로 최적화하는 알고리즘입니다. DPO와 달리, GRPO는 여러 에이전트 간의 상대적인 행동 선호도를 고려하여 정책을 업데이트합니다. 특징: ● 그룹 간 선호도 비교: GRPO는 여러 개체나 그룹이 상대적으로 선호하는 행동들을 비교하고, 그룹 내 상호작용을 고려하여 정책을 최적화합니다. ● 상대적인 최적화: 각 개체가 선택할 수 있는 행동에 대한 상대적인 선호도를 기반으로 최적화하므로, 집단적 차원에서의 효율성을 극대화합니다. ● 집단적 의사결정: 이 방식은 사회적 선택 이론이나 여러 에이전트 간의 협력/경쟁을 고려하는 문제에서 유리합니다. 장점: ● 집단적 효율성: 여러 에이전트가 상호작용하는 환경에서, 그룹 간의 효율성을 반영하여 최적화할 수 있습니다. 예를 들어, 여러 에이전트가 협력하는 상황에서 효과적인 정책을 생성할 수 있습니다. ● 상대적 선호도 활용: 상대적인 선호도를 비교하여 최적화하므로, 그룹 간의 우선순위나 선택을 반영할 수 있습니다. 한계: ● 복잡한 계산: 여러 그룹의 상대적 선호도를 고려해야 하므로, 계산 비용이 많이 들 수 있습니다. 특히 상호작용이 복잡한 환경에서는 더 많은 계산 자원이 필요할 수 있습니다. ● 그룹 내 변동성 문제: 각 그룹 내의 개체들이 가지는 상대적인 선호도의 차이를 처리하는 데 어려움이 있을 수 있습니다. FACULTY TAE YOUNG LEE
  • 28. DPO vs GRPO FACULTY TAE YOUNG LEE
  • 29. 모두의연구소 PPT 표지 제목을 입력해주세요. 03 Data Attribution DeepSeek-R1
  • 31. DeepSeek-R1 DeepSeek-R1: Cold Start와 다단계 학습 데이터 설계의 의의 ● Cold Start 데이터: RL 학습 초기의 불안정을 제거하고, 모델의 초기 성능을 가독성 및 사용자 친화적인 형태로 보장. ● Reasoning 데이터: 정확도와 논리적 정합성을 보장하면서 모델의 논리 추론 성능을 극대화. ● Non-Reasoning 데이터: 다목적 성능을 강화하고, 사용자 경험을 개선하는 데 기여. ● 전체 데이터 설계: ● 초기 단계에서 가독성 높은 데이터를 수집하여 기반을 다지고, 후속 단계를 통해 다양한 도메인과 작업에 대한 일반적 성능을 강화. 핵심 특징 Cold Start 데이터 DeepSeek-R1은 소량의 고품질 데이터(SFT)를 사용하여 초기 RL 안정성을 보장합니다. ● Cold Start 데이터 설계: ● 추론 과정(CoT)을 명확히 포함하는 데이터 수집. ● 인간 주석을 통해 읽기 쉬운 출력 패턴 생성. Reasoning 중심 RL SFT로 초기 모델을 학습한 뒤, DeepSeek-R1-Zero와 동일한 RL 프로세스를 적용하여 추론 능력을 강화했습니다. ● 언어 일관성(Language Consistency) 보상을 추가해 다국어 혼합 문제 해결. Rejection Sampling과 추가 SFT RL로 수집한 데이터를 선별하여 80만 개의 고품질 데이터를 확보. ● 약 60만 개: 수학, 코딩, 논리 등 추론 중심 데이터. ● 약 20만 개: 글쓰기, 번역 등 일반 작업 데이터. 전방위 RL 최종 RL 단계에서는 모든 시나리오에 대응하는 모델을 학습. ● 도움 및 무해성 평가: ● 도움이 되는 응답(Helpful)과 안전한 응답(Harmless)을 평가 및 최적화. FACULTY TAE YOUNG LEE