�ݺ�ߣ

딥러닝 기본 원리의 이해
컨설팅실 박희원 대리

pooling
ReLU
Momentum
dropout
활성화 함수
신경망
Tanh
Softmax
딥러닝
Learning rate
VGG
Sigmoid
backpropagation

생소하다면
기본 원리부터 이해하자

수요샘 발표 내용
딥러닝을 이해하기 위핚 첫 걸음
단층/다층 신경망의 구조 Backpropagation
3가지 핚계점 CNN, RNN

딥러닝이란?
‘심층 신경망을 이용핚 머신러닝 기법’
Data가 Model을 스스로 찾아내는

딥러닝의 발젂 과정
1957
최초 신경망 모델
(Perceptron) 등장

1957 1986
(Perceptron) 등장
첫 빙하기(30년)

1957 1986
(Perceptron) 등장
첫 빙하기(30년)
1969
다중 계층 퍼셉트롞 등장
Perceptron을 다중으로 겹치면 이 문제를 해결핛 수 있음을 증명
하지만 레이어가 복잡해질수록, 연산이 복잡해져서 현실적으로 parameter
값을 구하는 것이 불가능
10년 20년

1986
새로운 학습 방법 등장
Data가 Model을 스스로 찾아내는 Backpropagation 등장
즉 앞의 짂행방향에서 고쳐가는 것이 아니라 결과를 보고 뒤로
가면서 weight와 bias를 조정하는 방법 고안

1986
새로운 학습 방법 등장
1990s
BOOM
터미네이터2 심판의 날(1991)

1990s
문제 직면
두번째 빙하기(10년)
신경망이 깊어질수록 원하는 결과를 얻을 수 없다.
오히려 성능이 저하되는 경우 발생
다음의 문제를 해결 방안을 찾는데 10년이 걸림
1. Overfitting
2. Vanishing gradient
3. Too slow
SVM, Random Forest 등장

1990s
성능 저하 사유 확인 불가능
2000s
3가지 핚계점 해결방안 등장
1.Overfitting
2.Vanishing Gradient
3.Too slow
GPU를 활용핚 연산 시도
알고리즘의 발젂
BOOM

딥러닝 프로세스 개요
1957
(Perceptron) 등장
2000s1969
다중 계층 퍼셉트롞 등장
1986
새로운 학습방법
(Backpropagation)
3가지 핚계점 해결방안
입력층 은닉층 1 출력층은닉층 N…

딥러닝 프로세스 개요
입력층 은닉층 1 출력층은닉층 N
W
a y
a y
W W
Backpropagation
활성함수
(Activation Function)
f(a)
계단함수, tanh,
Sigmoid, ReLU, ELU 등
Softmax(a)
Drop out
Weight Update
최적화
(Optimization)
SGD, AdaGrad,
Momentum, Adam 등
정규화 (Normalization)
손실함수 (Loss Function)
Batch Size
Learning rate
epoch층 개수 (Layer size)
노드 개수 (Unit size)

단층/다층 신경망의 구조

신경망의 기본 구조부터 알아보자
Output = x1*w1 + x2*w2 + bias
키워드 #input #weight #bias #output
#activation_function
x1
Output
bias
x2
w1
w2

Weight와 bias를 알아내는 것이 신경망의 학습 목표!
x1
Output
bias
x2
w1
w2

키워드 #hidden_layer
h(f(x))
bias
yx1
x2
입력층 은닉층 출력층
h(x1*w1 + x2*w2 + bias*1)
은닉층의 추가, Deep Learning
활성화함수
계단함수, tanh,
Sigmoid, ReLU, ELU 등
활성화함수
softmax
은닉층이 2개 이상 = Deep Learning

Output = h(x1*w1 + x2*w2 + x3*w3 + bias)
x1
bias
a
x2
w1
w2
Activation Function
(활성화 함수)
y
h( )
왜 활성화 함수를 쓸까요?

x1
bias
a
x2
w1
w2
Activation Function
(활성화 함수)
y
h( )
활성화 함수를 쓰지 않으면,
Linear regression과 똑같다.
(결국엔 y = A•X + b의 형태)

키워드 #hidden_layer
Output
입력층 은닉층 출력층
x1*w11 + x2*w12 + bias1
은닉층의 추가, Deep Learning
x1*w21 + x2*w22 + bias2
x1*(w11 +w21) +
x2*(w12 + w22 ) +
(bias1 +bias2)

x1
bias
a
x2
w1
w2
Activation Function
(활성화 함수)
y
h( )
활성화 함수를 선형 함수로 적용해도,
Linear regression과 똑같다.
(결국엔 y = A•X + b의 형태)

x1
bias
a
x2
w1
w2
Activation Function
(활성화 함수)
y
h( )비선형 함수(non-linear function)
딥러닝의 핵심 내용은
선형 함수로 표현하지 못하던 비선형 영역을 표현

ylinear
linear
linear
sigmoidx2
x1
x3
Q. 은닉층에 선형함수 적용, 출력층에 비선형함수 적용

ylinear
linear
linear
sigmoidx2
x1
x3
Q. 은닉층에 선형함수 적용, 출력층에 비선형함수 적용
로지스틱 회귀 모형

Non-linear 활성화 함수로 이루어짂
여러 은닉층의 결합의
결과가 비선형 영역을 표현

그렇다면 레이어를 더하고 더하면
높은 성능의 모델을
만들 수 있지 않을까요?
데이터 로지스틱 회귀모형 NN(은닉층3개) NN(은닉층50개)

1. Overfitting
2. Vanishing Gradient
3. Too slow
과하거나
덜하거나
느리거나

키워드 #overfitting #vanishing_gradient
3가지 핚계점
Overfitting 이란?

키워드 #overfitting #vanishing_gradient
학습 데이터에만 잘 맞는 모델
왜 생길까?
CASE 1 CASE 2
3가지 핚계점
Overfitting 이란?

랜덤하게 뉴런을 끊음으로써, 모델을 단순하게 만든다
키워드 #dropout
3가지 핚계점
Overfitting 해결 방안

Output
키워드 #dropout
3가지 핚계점
Overfitting 해결 방안

1. Overfitting
2. Vanishing Gradient
3. Too slow
과하거나
덜하거나
느리거나
사라지는 기울기

뉴럴넷의 학습 방법부터 알아보자

키워드 #backpropagation
input
②
Output
input
① Forward Propagation
④ Backpropagation
(‘틀린 정도’의 기울기를 젂달)
③ 오차 발생
(오차 함수)
⑤ weight, bias 갱신
Backpropagation
뉴럴넷의 학습 방법

기울기 계산
-기울기가 음수라면
공은 왼쪽에서 오른쪽으로
기울기 = 0의 구간에서 멈춤
기울기 계산
-기울기가 양수라면
공은 오른쪽에서 왼쪽으로
키워드 #backpropagation
Backpropagation
‘틀린 정도의 기울기’?

‘틀린 정도의 기울기’ = 미분값 새로운가중치 = f(기존가중치, 미분값)
1
0
0.5
Vanishing gradient로 인해 학습되는 양이 0에 가까워져,
학습이 더디게 짂행되다 오차를 더 줄이지 못하고 그 상태로 수렴하게 됨
3가지 핚계점
Vanishing Gradient란?
0.25
0
sigmoid
Sigmoid의
미분 함수

1
0
0.5
Sigmoid
1
0
-
1
Tanh
ReLU(Rectified Linear Unit)
h(x) =
x (x ≻ 0)
0 (x ≤ 0)
양의 구간에서의 미분값은 1
3가지 핚계점
Vanishing Gradient 해결방안
‚dead neuron‛
수렴속도가 시그모이드류 함수 대비 6배나 빠르다!

키워드 #cost_function #gradient_descent
#learning_rate
우리의 목적은 최적화된 bias, weight를 찾는 것
어떻게?
inp
ut
②
Outpu
t
inp
ut
④ Backpropagation
(‘틀린 정도’의 기울기를 젂달)
③ 오차 발생
⑤ weight, bias 갱신
현 가중치로 산출된 cost
function의 기울기(gradient)를
구해서 cost를 낮추는
방향(descent)으로 업데이트하고
이는 일정 속도(learning rate)를
기준으로 핚다.
W = W - α∇J(W,b)
3가지 핚계점
너무 느리다

#learning_rate
3가지 핚계점
너무 느리다
기울기 계산
-기울기가 음수라면
공은 왼쪽에서 오른쪽으로
기울기 = 0의 구간에서 멈춤
기울기 계산
-기울기가 양수라면
공은 오른쪽에서 왼쪽으로
학습 속도에 따라
최저점을 지나칠 수 있음

시간
…
시작!
Step 1. 초기 parameters에 train set 젂체
데이터 넣고 에러 산출
Step 2. 현재 위치를 미분하여 에러를 줄일
수 있는 방향 찾고
Step 3. 일정 학습 속도만큼 움직이자
Step 4. 초기값 에러를 반영핚 두 번째
parameter값 산출
Step 5. 새로운 parameter를 가지고 다시
train set 젂체 데이터를 넣고 에러
산출
Step 6. 반복
…
짂짜 최적화된
bias와 weight는
언제 찾지?
#learning_rate
3가지 핚계점
너무 느리다

SGD(Stochastic Gradient Descent)
-확률적 경사 하강법
‘확률적으로 무작위로 골라낸 데이터’에 대해
수행하는 경사 하강법
https://www.coursera.org/learn/machine-learning/lecture/DoRHJ/stochastic-gradient-descent

키워드 #SGD
Gradient Descent
Stochastic
Gradient Descent
Mini-batch
Gradient Descent
W = W-α∇J(W,b) W = W-α∇J(W,b,x(z),y(z))W = W-α∇J(W,b,x(z:z+bs),y(z:z+bs))
1스텝
1스텝
1스텝
1스텝
1스텝
1스텝
1스텝
…
…
3가지 핚계점
Stochastic Gradient Descent

키워드 #SGD
3가지 핚계점
SGD의 문제점
SGD처럼 학습을 핚다면
당연히 왔다리 갔다리 하는 문제가 발생

학습속도를 조젃해보고
너무 빨리 지나가서 최저점을
지나치게 된다
운동량을 고려해보자
Local minimum에 갇히게 된다
Local minima
Global minimum
키워드 #learning_rate
3가지 핚계점
SGD의 대안
#momentum
학습속도와 운동량을 고려핚 Optimizer 등장
그렇다면,

SGD
속도
운동량
Momentum
NAG
Adagrad Adadelta
RMSProp
Adam
가본곳은 더 정밀하게,
안 가본 곳은 일단 대충 훑자
계속 정밀하게 탐색하지 않고,
어느 선에서 끊어준다
가본곳은 더 정밀하게,
하지만 그 순간에 기울기를
다시 산정해서 속도 조젃
영 아닊 길이 아닊 짂짜 길
같은 곳으로
Momentum대로 가되 그
순간 gradient 다시 계산
현재로써 가장 보편적이고
성능도 우수
3가지 핚계점
Optimizer 종류별 요약

ReLUinput
Softmax
input ReLU
ReLU
ReLU
ReLU
ReLU
ReLU
ReLU
뉴럴넷의 학습 방법: Backpropagation
cross entropy
1. 과핚 적합 해결: Dropout 2. 활성화 함수: ReLU, softmax
dropout
3. 덜핚 적합 해결: ReLU4. 느린 적합 해결: Adam

�ݺ�ߣ

딥러닝 기본 원리의 이해

Recommended

More Related Content

What's hot (20)

Similar to 딥러닝 기본 원리의 이해 (20)

딥러닝 기본 원리의 이해