ݺߣ

ݺߣShare a Scribd company logo
CourseraMachineLearning으로
기계학습배우기:week1
1
개요
알파고등장이후시점으로거의대부분의IT기업에서AI그중에서도머신러닝
에관심을보이는것을어렵지않게확인할수있습니다.
그러나이러한트렌드에맞추어공부를하기에는막막하기도하고수학공식들
에압도당하기도합니다.
2년전쯤인터넷에유행했던수학을포기한직업프로그래머가머신러닝학습
을시작하기위한학습법글을보면Andrew.NG교수의코세라머신러닝강의
가머신러닝을배우기위한가장좋은방법중의하나라고나옵니다.
이에따라필자가코세라강의를정주행하였는데학습과정에서한글로정리한
슬라이드를공유할까합니다.목적은영어로강의하는코세라강의를보실때
참고하시거나강의를따로안보시더라도슬라이드내용만으로도참고하시면
좋을듯합니다.
편의상앞으로의글에서경어체를생략합니다.
2
글을읽기에앞서...
본글은필자가코세라기계학습을공부를하는과정에서개념을확고히정
리하기위하는데목적이있다.
(필자가나중에내용을다시찾아보기위한목적이있다.)
코세라강의week개수에맞추어포스팅을진행할예정이다.
코세라의슬라이드에한글주석을단것이핵심으로내용에서글을읽을필
요없이슬라이드그림만으로최대한이해가되게끔하는데목적이있다.
수학은한국의고등수학을베이스로한다.수학적개념이나올때가급적
고등학교수학을베이스로내용을정리한다.
정리내용의목차구성을코세라강의와동일하게맞추고또한제목을원문
으로둔다.(원본강의내용과정리내용을서로서로찾아보기쉽게하기위
함이다.)
3
Introduction
Welcome
4
5
6
7
8
강의에서배우는것
최신의기계학습알고리즘
실전연습을통해현재사용되는알고리즘을직접돌려보고이해하는것
알고리즘이어떻게유도되는지는이해하는것은optional이지필수가아
니다.
9
WhatisMachineLearning?
10
11
12
13
14
기계학습의정의2가지
2명의전문가가아래와같이정의함
ArthurSamuel(전통적정의)
기계학습은컴퓨터가명시적으로프로그래밍되지않아도배울수있도록
하는과학이다.
TomMitchell
컴퓨터프로그램이T라는작업을수행하며E라는경험으로부터배우고
이품질은P로측정된다.
알파고로유명한바둑을예로들자면아래와같게된다.
E=바둑을여러판두면서얻게되는경험
T=바둑을두는작업
P=알파고가다음판에서이길확률
15
SupervisedLearning
16
SupervisedLearning의2종류
분류(Classification):값이이산값(Discrete)
회귀(Regression):연속된값(Continuous)
그중에서도강좌에서는선형회귀(LinearRegression)을다룸
입력변수1개로설명함
17
포틀랜드feet당주택가격예제(이해를돕기위해예제먼저)
해당예제는필자가이해한방식대로설명한다.
18
19
빨간X표시의값들을학습하여모델을만든다는행위는빨간X점들을최대한
가깝게지나가는1차원함수를학습을통해만들어내는행위가될수있다.즉,
아래와같은1차원함수를만들어내는것이다.다시말해각점으로부터직선까
지의거리의합이가장최소화될수있는1차원함수를찾는것이다.
20
그러면만들어진모델(1차원함수)를통해750제곱피트일때의가격이15만
달러라고예측할수있다.
21
학습된모델이2차원함수라면아래와같이될것이다.이때는750제곱피트일
때의가격이20만달러가된다.학습모델이1차원함수가될지2차원함수가될
지는우리가정하는것이다.이것이SupervisedLearning의좋은예이다.
이렇게학습된모델을가지고답을모르는데이터를넣으면예측값을출
력해준다.
이예제에서학습된적이없는평수를입력하면예측된집값을출력해준
다. 22
포틀랜드feet당주택가격예제는...
SupervisedLearning이다.
이유는정확한답을알고있는데이터를가지고학습을수행했기때문이다.
Regression문제이다:연속된값을예상하기때문
(출력값은가격)
23
분류(Classification)문제예시:유방암환자의종양크기
별양성/악성종양유무
아래의예제는유방암환자의종양크기별양성/악성종양유무를나타내는그
래프이다.입력은종양의크기이고출력은종양의양성/악성여부이다.
24
여기서기계학습의질문은이데이터를학습시켰을때핑크색의종양크기는양
성인지악성인지를판단하는것이다.이문제는분류(Classification)문제인데
이유는학습결과값이연속된값이아닌이산값(비연속적인값)이기때문이다.
즉양성종양이냐악성종양이냐로결과가딱떨어지기때문이다.
25
문제를2차원에서선으로단순화해서설명하면아래와같다.
26
나이/종양크기별악성/양성종양유무
예를하나더들어나이/종양크기별악성/양성종양유무를나타내는그래프를
보자.
27
여기서기계학습의질문은핑크색과같은나이와종양크기를가진환자의종양
은양성일까악성일까이다.
28
이분류(Classification)문제를학습하여모델을만든다면검은색선을기준으
로나이/종양크기별로양성/악성유무를판단하는모델이만들어질것이다.
29
UnsupervisedLearning
30
UnsupervisedLearning은정답지가없는데이터셋에서기계학습에의해자
동으로구조적특징을찾아내는것이다.UnsupervisedLearning의핵심은
데이터간의거리를어떻게측정할것인지가가장중요하다.
31
아래와같이정답지가없는데이터로집단을나누는UnsupervisedLearning
을클러스터링알고리즘이라고한다.
32
다른예는사람의유전자정보를많이입력하면기계적으로유전자별구조를분
류해내는것이다.가로가사람들세로가유전자구성이다.비슷한유전자의패
턴을묶어보는것이다.
33
ModelandCostFunction
ModelRepresentation
34
테이블이의미하는것은집의크기(제곱피트)당집의가격이다.m은학습에사
용하는데이터수를의미한다.,x는입력혹은feature로표현된다.(집의크기)
y는출력혹은target변수로표현한다.(집값)
35
36
47개의학습데이터를가지고학습을돌린다(에러를줄인다).이를통해h모델
을만든다.이만들어진모델에입력된적이없는집의크기를넣으면예상된집
값을출력해준다.
37
38
CostFunction(비용함수)
39
CostFunction은다른말로ErrorFunctionLossFunction이라고도불린다.
40
41
42
43
44
45
46
47
48
49
CostFunctionIntuitionI
50
51
52
53
54
55
56
57
58
59
60
CostFunctionIntuitionII
61
62
63
64
65
66
67
68
69
70
71
알아둘것
기계학습의성능병목은미분이다.이를GPU를통해병렬화하는것이기계학
습성능을향상시키는것이다.
72
ParameterLearning
GradientDescent
73
74
75
76
77
78
79
80
GradientDescentIntuition
81
82
83
84
85
86
87
88
89
Gradientdescentforlinearregression
90
91
92
93
94
95
96
97
98
99
100
101
모든훈련예제를가지고경사감소를1번계산한다.딥러닝은아래와같은방법
으로epoch을돌리면너무오래걸리기때문에minibatch를활용한다.
102

More Related Content

Coursera Machine Learning으로 기계학습 배우기 : week1