狠狠撸

狠狠撸Share a Scribd company logo
データ解析 第4回
2018年5月10日 八谷 大岳
1
講義内容
5
数学の復習
機械学習の基礎
内容:確率統計の復習
6
? 確率の基礎
? 条件付き確率とベイズの定理
? 累積分布関数と確率密度関数
? 統計の基礎
? 平均、中央値、分散、共分散
? 分散共分散行列
? 相関係数と相関行列
確率の定義
7
? 試行:繰り返すことができて、結果が偶然に決まる実験や観察
? 事象:試行の結果起こる事柄
? 標本空間:試行の結果起こりうる全ての事柄の集合
? 確率の定義:標本空間の大きさを??、事象????の起こる場合の数
を????とすると、事象????が起こる確率
???? ?? = ???? = ???? ???? =
????
??
??:確率変数 ????:事象(または事象に対応する実現値)
サイコロを振る
2の目が出る
1の目が出る、2の目が出る、…、6の目が出る
???? ?? = 2の目が出る = ?? ?? = 2 = 1/6
6の目が出る
?? X :離散確率分布関数
確率の例
8
? 試行:「ボールを箱から取り出す」
? 事象:「赤のボールが出る」
? 標本空間:「白のボールが出る」、「赤のボールが出る」
? 事象「青のボールが出る」の確率:???? ??1 =
??1
??
=
6
14
=
3
7
? 事象「赤のボールが出る」の確率:???? ??2 =
??2
??
=
8
14
=
4
7
? 全ての事象の確率の和は1:???? ??1 + ???? ??2 =
3
7
+
4
7
=1
標本空間??
確率変数??(ボールの色)
??1:青 ??2:赤
6 8
赤の場合の数??2箱
標本空間??の大きさ: ?? = 14
赤の場合の数??1
同時確率
9
? 同時確率:事象????と事象????が同時に起こる確率
標本空間??
確率変数??(ボールの色)
確率変数??
(グループの種類)
??1:青 ??2:赤
??1: グループ1 5
1
2
6
?????? ????, ???? =
??????
??
箱
グループ1 グループ2
??2: グループ2
グループ1の赤が選ばれる確率(同時確率)
?????? ?? = ??1, ?? = ??2 =
??12
??
=
2
14
=
1
7
グループ1の赤の
場合の数??12
確率変数が2つ
条件付き確率
10
? 条件付き確率:事象????が起きた条件下で事象????が起こる確率
????|?? ????|???? =
??????
?????
=
??????? ??
?????? ??
=
??????(????, ????)
????(????)
標本空間??
確率変数??(ボールの色)
確率変数??
(グループの種類)
??1:青 ??2:赤
??1: グループ1 5
1
2
6
箱
グループ1 グループ2
??2: グループ2
グループ1の赤の
場合の数??12
グループ1が選択された条件下で赤が選ばれる確率(条件付き確率)
????|?? ?? = ??2|?? = ??1 =
??12
??1?
=
2
7
=
2
7
グループ1の
場合の数??1?
確率変数が2つ
周辺確率
11
? 周辺確率:事象??に関係なく事象????が起こる確率
標本空間??
確率変数??(ボールの色)
確率変数??
(グループの種類)
??1:青 ??2:赤
??1: グループ1 5
1
2
6
箱
グループ1 グループ2
??2: グループ2
グループに関係なく赤が選ばれる確率(周辺確率)
???? ?? = ??2 =
??12
??
+
??22
??
=
2
14
+
6
14
=
4
7
???? ???? =
?????
??
=
1
??
?
??
?????? = ?
??
?????? ????, ????
事象??との同時確率
の足し合わせと等しい
確率変数が2つ
乗法定理
12
? 乗法定理:同時確率と条件付き確率との関係
標本空間??
確率変数??(ボールの色)
確率変数??
(グループの種類)
??1:青 ??2:赤
??1: グループ1 5
1
2
6
箱
グループ1 グループ2
??2: グループ2
グループ1の赤が選択される確率
????|?? ?? = ??1|?? = ??2 =
??12
???2
???2
??
=
2
8
8
14
=
??12
??1?
??1?
??
=
2
7
7
14
=
1
7
?????? ????, ???? =
??????
??
=
??????
?????
?????
??
=
??????
?????
?????
??
= ????|?? ???? ???? ????(????) = ????|?? ???? ???? ????(????)
グループ1の赤の
場合の数??12
グループ1の
場合の数??1?
赤の場合の数???2
確率変数が2つ
ベイズの定理
13
? ベイズの定理:乗法定理の展開
? 事象????を原因、事象????を結果と考える
? しかし、実際には診断では、逆の条件付き確率が必要
? この結果??を観測したもとでの原因??の条件付き確率を
「事後確率」という
????|?? ????|???? =
??????(????, ????)
????(????)
=
????|?? ???? ???? ????(????)
????(????)
例えば、原因????:病気、 結果????:血圧140以上とした場合、病気の患者と健康な人
を集めて、血圧140以上の人を観測することにより、以下を求めることができる。
????|?? ?? = 血圧140以上 Y = 病気 と????|?? ?? = 血圧140以上 Y = 健康
????|?? Y = 病気 ?? = 血圧140以上
ベイズの定理 続き
14
? ベイズの定理:乗法定理の展開
? ベイズの定理より、事後確率を求めることができる
? ただし、??(????)を事前確率といい、人間が経験的に決定
? 分母は、周辺確率と乗法定理より求める
????|?? ????|???? =
??????(????, ????)
????(????)
=
????|?? ???? ???? ????(????)
????(????)
事前確率
事後確率
????|?? Y = 病気 ?? = 血圧140以上 =
????|?? ?? = 血圧140以上 Y = 病気 ???? Y = 病気
????(?? = 血圧140以上)
例えば、病気の人の割合は、一般的に低いので???? Y = 病気 = 0.1
???? ?? = 血圧140以上 = ?
??∈{病気、健康}
????|?? ?? = 血圧140以上 Y = ?? ???? Y = ??
ベイズの定理 続き
15
? ベイズの定理は、1700年代にイギリスのエディンバラ大の
トーマスベイズにより発見
? 古典的確率の頻度主義者からの批判
? 原因と結果の順番が異なり、本来は観測できない確率
? 事前確率を人間が設定することから主観的
? 近年、未観測の事象の確率や予測の不確実性などで
工学的にとても有用なため応用が進んでいる
ベイズの定理の応用例
16
? 周辺確率より
? ベイズの定理より、事後確率?? ??2|??2 は以下のように求まる。
いずれかのグループからボールを1個取り出したと
ころ、 青いボールでした。このボールがグループ2
から取り出された確率?? ??2|??2 を求めなさい。
????:グループ??を選択する事象
????:ボールを取り出す事象(赤:j=1、青:j=2)
?? ??2 = ∑?? ?? ??2, ???? = ∑?? ?? ??2|???? ?? ???? =
5
7
1
2
+
1
7
1
2
=
6
14
=
3
7
?? ??2 ??1 =
5
7
?? ??2 ??2 =
1
7
?? ??2|??2 =
?? ??2 ??2 ??(??2)
??(??2)
=
1
7
1
2
3
7
=
1
6
グループ1 グループ2
? ?
ただし、各グループを選択した条件下で青いボールを選択する確率は、実験より以下
のようにわかっているとする。また、各グループを選択する事前確率は?? ???? =
1
2
とする
演習1
17
? いずれかの箱からボールを1個取り出したところ、白いボールでした。この
ボールが箱2から取り出された確率を求めなさい。
? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に記載
箱1 箱2 箱3
????:箱??を選択する事象
????:ボールを取り出す事象(赤:j=1、白:j=2)? ? ?
?? ??2 ??1 =
5
7
?? ??2 ??2 =
1
7
?? ??2 ??3 =
2
7
ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう
にわかっているとする。また、各箱を選択する確率は?? ???? =
1
3
とする
内容:確率統計の復習
19
? 確率の基礎
? 条件付き確率とベイズの定理
? 累積分布関数と確率密度関数
? 統計の基礎
? 平均、中央値、分散、共分散
? 分散共分散行列
? 相関係数と相関行列
累積分布関数
(cumulative distribution function)20
? 確率変数??が実現値??以下の値をとる確率
? 確率変数??が実現値??以上??以下の値をとる確率
? 確率変数が連続の場合
? 積分を用いて定義
?? ?? = ??(?? ≤ ??)=∑????≤?? ??(????)
例)出る目が2以下となる確率
F ?? = ?? ?? ≤ ?? = ?
?∞
??
?? ?? ????
?? ?? < ?? ≤ ?? = ?? ?? ? ?? ?? 例)出る目が2以上4以下
となる確率
?? ?? :確率密度関数
F ?? は単調増加
??
?? ??
1 2 3 4 ?
1
6
2
6
3
6
4
6
?
-3 -2 -1 0 1 2 3
0.00.20.40.60.81.0
Normal Distribution: ? = 0, ? = 1
xCumulativeProbability
正規分布の累積分布関数
確率密度関数
21
? 離散的な確率変数:事象の実現値がとびとび
? サイコロの目、ボールの色など
? 連続な確率変数:事象の実現値が少数をとる連続
? 平均身長、平均寿命など
? 離散的な事象を前提にしていた以下の確率の定義は適用できない
? 実現値が連続なので????が無限に存在する
? 代わりに、確率密度関数?? ?? を用いて確率を定義する
? 代表的な確率密度関数:正規分布、ベータ分布など
?? ?? = ???? = ?? ???? =
????
??
正規分布(Normal Distribution)
22
? 代表的な確率密度関数の一つで、工学分野にて幅広く応用
? 19世紀にガウスにより提案されたためガウス分布とも呼ばれる
0
0.1
0.2
0.3
0.4
-3 -2 -1 0 1 2 3
?? ?? = Ν ??, ??2 =
1
2????
??
?
(?????)2
2??2
??
??:平均(正規分布の中心)
??2:分散(正規分布の幅)
?? ? ?? ?? + ??
34.1% 34.1%
?? ? 2??
13.6%
2.1%
?? ? 3?? ?? + 2??
13.6%
2.1%
?? + 3??
??
正規分布の平均と分散
23
-5 5 10
0.2
0.4
0.6
0.8
σ= 1.0
σ= 2.0大きい
σ= 1.5
σ= 0.5小さい
?? ?? = Ν 2, ??2
【標準偏差??による正規分布の変化】【平均??による正規分布の変化】
-4 -2 2 4
0.1
0.2
0.3
0.4
?? ?? = Ν ??, 1
多変量正規分布
24
? 多次元の確率変数?? = ??1, ??2, … , ????
??の正規分布
? 2次元の場合の正規分布
?? ?? = Ν ??, ??2 =
1
2??
??
Σ
exp ?
1
2
(?? ? ??)ΤΣ?1(?? ? ??)
Σ:分散共分散行列
?? = ??1, ??2, … , ????
??
:平均ベクトル
?? ?? = Ν ??, ??2 =
1
2?? Σ
exp ?
1
2
(?? ? ??)ΤΣ?1(?? ? ??)
??:次元数
内容:確率統計の復習
25
? 確率の基礎
? 条件付き確率とベイズの定理
? 累積分布関数と確率密度関数
? 統計の基礎
? 平均、中央値、分散、共分散
? 分散共分散行列
? 相関係数と相関行列
平均値と中央値
26
? データの中心を測るための統計量
? 平均:
? データとの二乗誤差和が最小の値:
? 中央値:データを値の大きさ順に並べたときの真ん中の値
? データとの絶対値誤差和が最小の値
?? = ??? =
1
??
??1
+ ??2
+ ? + ?? ??
=
1
??
?
??=1
??
????
?? = min
??
?
??=1
??
????
? ??
2
二乗差の意味で中心
?? = min
??
?
??=1
??
???? ? ??
絶対値差の意味で中心
平均値と中央値の例
27
? データ: 30, 10,25, 40,15 の平均と中央値
? 平均:
? 中央値
? 昇順に並べ替える 10, 15,25,30, 40
? データ数が5なので、真ん中の3番目の値を選択する
?? = ??? =
1
5
30 + 10 + 25 + 40 + 15 =24
10, 15,25,30, 40
演習2
29
? 平均が、データからの二乗誤差和の最小値と等しいことを
証明しなさい。
? おまけ:中央値が、データからの絶対値誤差の最小値と
等しいことを証明しなさい。
? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
?? = ??????min
??
?
??=1
??
???? ? ??
2
分散と共分散
31
? 分散:1変数のバラツキを測るための統計量
? データの平均 ???からの二乗差の平均:
? ??を標準偏差と呼ぶ
? 共分散: 2変数の相関(直線的な比例関係の強さ)を測るための
統計量
?????? ?? = ??2 = S???? =
1
??
?
??=1
??
(???? ? ???)2
二乗差の意味でのバラツキ
Cov ??, ?? = S???? =
1
??
∑??=1
??
(????
? ???)(????
? ???)
??
??
Cov ??, ?? ? 0:正の相関
??
??
Cov ??, ?? ? 0:負の相関
??
??
Cov ??, ?? ≈ 0:無相関
偏差
演習3
32
? 5人の体重と身長のデータ
? 体重の平均、中央値、分散を求めなさい。
? 体重と身長の共分散を求めなさい。相関関係を述べなさい。
? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
体重?? [kg] 身長??[cm]
50 160
45 155
60 170
70 175
55 165
内容:確率統計の復習
34
? 確率の基礎
? 条件付き確率とベイズの定理
? 累積分布関数と確率密度関数
? 統計の基礎
? 平均、中央値、分散、共分散
? 分散共分散行列
? 相関係数と相関行列
分散?共分散の行列表現
35
? ?? = ??1
, ??2
, … , ?? ?? ??
と、?? = ??1
, ??2
, … , ?? ?? ??
の分散?共分散
? 分散共分散行列: 2変数の場合2x2の行列
? 対角成分:それぞれの変数の分散
? 非対角成分:共分散
?? =
1
??
???? ??
=
1
??
?? ? ???
?? ? ???
?? ? ??? ?? ? ???
=
1
??
(?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???)
(?? ? ???)??
(?? ? ???) (?? ? ???)??
(?? ? ???)
?? = ?? ? ??? ?? ? ??? =
??1
? ???
??2 ? ???
?
?? ?? ? ???
??1 ? ???
??2 ? ???
?
?? ?? ? ???
??の分散S????
??の分散S????
??と??の共分散S????
N(データ数)×2(変数の数)の行列
3変数の分散共分散行列
36
? 3変数なので3x3の分散共分散行列
? 対角成分が分散、その他は共分散
?? = ?? ? ??? ?? ? ??? ?? ? ??? =
??1 ? ???
??2
? ???
?
?? ??
? ???
??1 ? ???
??2
? ???
?
?? ??
? ???
??1
? ???
??2
? ???
?
?? ??
? ???
?? =
1
??
???? ??
=
1
??
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???)
=
S???? S???? S????
S???? S???? S????
S???? S???? S????
演習4
37
? 5人の体重と身長のデータ
? 体重と身長の分散共分散行列を求めなさい。
? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
体重?? [kg] 身長??[cm]
50 160
45 155
60 170
70 175
55 165
内容:確率統計の復習
39
? 確率の基礎
? 条件付き確率とベイズの定理
? 累積分布関数と確率密度関数
? 統計の基礎
? 平均、中央値、分散、共分散
? 分散共分散行列
? 相関係数と相関行列
相関係数と相関行列
40
? 共分散の大きさは、データの値の範囲に依存
? 異なるデータ間で相関を比較するのが困難
? 相関係数:共分散を標準偏差で割って正規化
? 相関行列
?????? =
S????
S???? S????
=
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???)
?? =
?????? ?????? ??????
?????? ?????? ??????
?????? ?????? ??????
?? =
S???? S????
S???? S????
=
???? ????
???? ????
【体重xと身長yの分散共分散行列の例】
【体重xと身長yの相関行列の例】
?? =
?????? ??????
?????? ??????
=
?? ??. ????
??. ???? ??
相関の目安
41
? 相関係数を基準に、相関の強弱の判定ができる
相関係数rの値 相関の強弱
1.0 ~ 0.7 強い正の相関がある
0.7 ~ 0.4 中程度の正の相関がある
0.4 ~ 0.2 弱い正の相関がある
0.2 ~-0.2 ほとんど相関がない
-0.2 ~-0.4 弱い負の相関がある
-0.4 ~-0.7 中程度の負の相関がある
-0.7 ~-1.0 強い負の相関がある
相関係数の解釈
42
? データ数の次元のベクトルの内積
? ??と??の相関係数を展開
? 相関係数はデータ数次元の空間での2つのベクトルのなす角に対応
??? = ??1 ? ???, ??2 ? ???, … , ?? ?? ? ??? ??
??? = ??1 ? ???, ??2 ? ???, … , ?? ?? ? ??? ??
??′??
??′= ??? ??? cos ??
??’
??? θ
なす角
?????? =
(?? ? ???)??(?? ? ???)
(?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???)
=
????? ???
????? ??? ??′?? ??′
=
??? ??? cos ??
??? ???
= cos ??
??
??
中程度正の相関
θ = 45° ??
??
無相関
θ = 90°
????
強い正の相関
θ = 0° ?? ??
強い負の相関
θ = 180°
相関係数=0は無関係?
43
? 相関係数は、2変数間の直線的な比例の強さを表す
? 相関係数=0(無相関)の場合、2変数間に直線的な比例関係が無い
? 無相関でも、2変数が関係がないとは言い切れない
? 例えば、データが2次関数や円に乗っている場合、直線的な関係では
無相関であるが、2次関数や円の意味では相関がある
??
??
?????? ≈ 0:無相関
??
??
?????? ≈ 0:無相関
課題1
44
? X1とX2の平均値を求めなさい。
? X1とX2の分散と共分散を求める定義式を書き、分散共分散
行列Sを求めなさい。
? 分散共分散行列Sの固有値を求める定義式を書き、固有値
を求めなさい。
No. 標本 英語(X1) 数学(X2)
1 A 5 8
2 B 5 5
3 C 8 7
4 D 4 5
課題2
45
? 相関行列Rの3つの固有値の中2つが既知であり、それぞれ、
1.57と0.527とする。以下の問に答えなさい。
1. 残りのもう1つの固有値を求めなさい。
2. 相関行列Rの行列式を求めなさい。
?? =
?? ??. ?????? ???. ??????
??. ?????? ?? ???. ??????
???. ?????? ???. ?????? ??
課題3
46
? いずれかの箱からボールを1個取り出したところ、白いボールでした。
このボールが箱3から取り出された確率を求めなさい。
箱1 箱2 箱3
????:箱??を選択する事象
????:ボールを取り出す事象(赤:j=1、白:j=2)?
ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう
にわかっているとする。
?
?? ??2 ??1 =
5
7
?? ??2 ??2 =
1
7
?? ??2 ??3 =
2
7
?
また、各箱を選択する確率は?? ??1 =
2
3
、?? ??2 =
1
6
、 ?? ??3 =
1
6
とする
レポートの提出方法
47
? 演習レポート:
? タイトル「演習レポート」、日付?学生番号?氏名を用紙の一番上に記載
? 課題レポート :
? タイトル「課題レポート」、出題日?学生番号?氏名を用紙の一番上に記載
? 2ページ以上になる場合は、ホッチキス留め
? A4サイズの用紙を使用
? 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

More Related Content

データ解析4 确率の復习