27. Problems of BGD
정확한 gradient 정보는 사전에 정의 되어야 함
즉 R과 P가 정확히 계산되어 있어야함
문제 1 : 랜덤한 스트림 패턴의 데이터가 들어오면 R과 P를 정확
히 계산 못함
문제 2 : P와 R을 계산하는 것은 벡터 차원이 커질수록 매우
heavy함
27
29. Stochastic Gradient Descent
데이터 스트림에서 정확하게 예측하기 위해 합리적으로 긴 시
간동안 평균치를 구해야 함
신뢰할만한 R과 P를 예측하기 위해 얼마나 많은 스트림 데이터
를 흘려보내야 할까?
방안:
SGD는 k개의 interation동안 Wk가 최적의 솔루션 Wopt에 가까
워질수록 평균으로 수렴한다.
29
38. 다음 강의
다중 퍼셉트론을 이용한 non-seperable 문제를 풀어보았음
그러나 실제로 데이터는 noisy하고 이진 분류 분제로 제한되지
않음
어떻게 더 네트워크를 발전시킬 수 있을까?
자동으로 학습하는 알고리즘을 배웠음
그러나 현재까지 배운 활성화 함수는 미분 불가능인데 어떻게
GD를 뉴럴넷에 적용시킬수 있을까?
38