狠狠撸
Submit Search
データ解析4 确率の復习
?
1 like
?
943 views
Hirotaka Hachiya
Follow
确率の復习
Read less
Read more
1 of 39
Download now
Downloaded 321 times
More Related Content
データ解析4 确率の復习
1.
データ解析 第4回 2018年5月10日 八谷
大岳 1
2.
講義内容 5 数学の復習 機械学習の基礎
3.
内容:確率統計の復習 6 ? 確率の基礎 ? 条件付き確率とベイズの定理 ?
累積分布関数と確率密度関数 ? 統計の基礎 ? 平均、中央値、分散、共分散 ? 分散共分散行列 ? 相関係数と相関行列
4.
確率の定義 7 ? 試行:繰り返すことができて、結果が偶然に決まる実験や観察 ? 事象:試行の結果起こる事柄 ?
標本空間:試行の結果起こりうる全ての事柄の集合 ? 確率の定義:標本空間の大きさを??、事象????の起こる場合の数 を????とすると、事象????が起こる確率 ???? ?? = ???? = ???? ???? = ???? ?? ??:確率変数 ????:事象(または事象に対応する実現値) サイコロを振る 2の目が出る 1の目が出る、2の目が出る、…、6の目が出る ???? ?? = 2の目が出る = ?? ?? = 2 = 1/6 6の目が出る ?? X :離散確率分布関数
5.
確率の例 8 ? 試行:「ボールを箱から取り出す」 ? 事象:「赤のボールが出る」 ?
標本空間:「白のボールが出る」、「赤のボールが出る」 ? 事象「青のボールが出る」の確率:???? ??1 = ??1 ?? = 6 14 = 3 7 ? 事象「赤のボールが出る」の確率:???? ??2 = ??2 ?? = 8 14 = 4 7 ? 全ての事象の確率の和は1:???? ??1 + ???? ??2 = 3 7 + 4 7 =1 標本空間?? 確率変数??(ボールの色) ??1:青 ??2:赤 6 8 赤の場合の数??2箱 標本空間??の大きさ: ?? = 14 赤の場合の数??1
6.
同時確率 9 ? 同時確率:事象????と事象????が同時に起こる確率 標本空間?? 確率変数??(ボールの色) 確率変数?? (グループの種類) ??1:青 ??2:赤 ??1:
グループ1 5 1 2 6 ?????? ????, ???? = ?????? ?? 箱 グループ1 グループ2 ??2: グループ2 グループ1の赤が選ばれる確率(同時確率) ?????? ?? = ??1, ?? = ??2 = ??12 ?? = 2 14 = 1 7 グループ1の赤の 場合の数??12 確率変数が2つ
7.
条件付き確率 10 ? 条件付き確率:事象????が起きた条件下で事象????が起こる確率 ????|?? ????|????
= ?????? ????? = ??????? ?? ?????? ?? = ??????(????, ????) ????(????) 標本空間?? 確率変数??(ボールの色) 確率変数?? (グループの種類) ??1:青 ??2:赤 ??1: グループ1 5 1 2 6 箱 グループ1 グループ2 ??2: グループ2 グループ1の赤の 場合の数??12 グループ1が選択された条件下で赤が選ばれる確率(条件付き確率) ????|?? ?? = ??2|?? = ??1 = ??12 ??1? = 2 7 = 2 7 グループ1の 場合の数??1? 確率変数が2つ
8.
周辺確率 11 ? 周辺確率:事象??に関係なく事象????が起こる確率 標本空間?? 確率変数??(ボールの色) 確率変数?? (グループの種類) ??1:青 ??2:赤 ??1:
グループ1 5 1 2 6 箱 グループ1 グループ2 ??2: グループ2 グループに関係なく赤が選ばれる確率(周辺確率) ???? ?? = ??2 = ??12 ?? + ??22 ?? = 2 14 + 6 14 = 4 7 ???? ???? = ????? ?? = 1 ?? ? ?? ?????? = ? ?? ?????? ????, ???? 事象??との同時確率 の足し合わせと等しい 確率変数が2つ
9.
乗法定理 12 ? 乗法定理:同時確率と条件付き確率との関係 標本空間?? 確率変数??(ボールの色) 確率変数?? (グループの種類) ??1:青 ??2:赤 ??1:
グループ1 5 1 2 6 箱 グループ1 グループ2 ??2: グループ2 グループ1の赤が選択される確率 ????|?? ?? = ??1|?? = ??2 = ??12 ???2 ???2 ?? = 2 8 8 14 = ??12 ??1? ??1? ?? = 2 7 7 14 = 1 7 ?????? ????, ???? = ?????? ?? = ?????? ????? ????? ?? = ?????? ????? ????? ?? = ????|?? ???? ???? ????(????) = ????|?? ???? ???? ????(????) グループ1の赤の 場合の数??12 グループ1の 場合の数??1? 赤の場合の数???2 確率変数が2つ
10.
ベイズの定理 13 ? ベイズの定理:乗法定理の展開 ? 事象????を原因、事象????を結果と考える ?
しかし、実際には診断では、逆の条件付き確率が必要 ? この結果??を観測したもとでの原因??の条件付き確率を 「事後確率」という ????|?? ????|???? = ??????(????, ????) ????(????) = ????|?? ???? ???? ????(????) ????(????) 例えば、原因????:病気、 結果????:血圧140以上とした場合、病気の患者と健康な人 を集めて、血圧140以上の人を観測することにより、以下を求めることができる。 ????|?? ?? = 血圧140以上 Y = 病気 と????|?? ?? = 血圧140以上 Y = 健康 ????|?? Y = 病気 ?? = 血圧140以上
11.
ベイズの定理 続き 14 ? ベイズの定理:乗法定理の展開 ?
ベイズの定理より、事後確率を求めることができる ? ただし、??(????)を事前確率といい、人間が経験的に決定 ? 分母は、周辺確率と乗法定理より求める ????|?? ????|???? = ??????(????, ????) ????(????) = ????|?? ???? ???? ????(????) ????(????) 事前確率 事後確率 ????|?? Y = 病気 ?? = 血圧140以上 = ????|?? ?? = 血圧140以上 Y = 病気 ???? Y = 病気 ????(?? = 血圧140以上) 例えば、病気の人の割合は、一般的に低いので???? Y = 病気 = 0.1 ???? ?? = 血圧140以上 = ? ??∈{病気、健康} ????|?? ?? = 血圧140以上 Y = ?? ???? Y = ??
12.
ベイズの定理 続き 15 ? ベイズの定理は、1700年代にイギリスのエディンバラ大の トーマスベイズにより発見 ?
古典的確率の頻度主義者からの批判 ? 原因と結果の順番が異なり、本来は観測できない確率 ? 事前確率を人間が設定することから主観的 ? 近年、未観測の事象の確率や予測の不確実性などで 工学的にとても有用なため応用が進んでいる
13.
ベイズの定理の応用例 16 ? 周辺確率より ? ベイズの定理より、事後確率??
??2|??2 は以下のように求まる。 いずれかのグループからボールを1個取り出したと ころ、 青いボールでした。このボールがグループ2 から取り出された確率?? ??2|??2 を求めなさい。 ????:グループ??を選択する事象 ????:ボールを取り出す事象(赤:j=1、青:j=2) ?? ??2 = ∑?? ?? ??2, ???? = ∑?? ?? ??2|???? ?? ???? = 5 7 1 2 + 1 7 1 2 = 6 14 = 3 7 ?? ??2 ??1 = 5 7 ?? ??2 ??2 = 1 7 ?? ??2|??2 = ?? ??2 ??2 ??(??2) ??(??2) = 1 7 1 2 3 7 = 1 6 グループ1 グループ2 ? ? ただし、各グループを選択した条件下で青いボールを選択する確率は、実験より以下 のようにわかっているとする。また、各グループを選択する事前確率は?? ???? = 1 2 とする
14.
演習1 17 ? いずれかの箱からボールを1個取り出したところ、白いボールでした。この ボールが箱2から取り出された確率を求めなさい。 ? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に記載 箱1
箱2 箱3 ????:箱??を選択する事象 ????:ボールを取り出す事象(赤:j=1、白:j=2)? ? ? ?? ??2 ??1 = 5 7 ?? ??2 ??2 = 1 7 ?? ??2 ??3 = 2 7 ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう にわかっているとする。また、各箱を選択する確率は?? ???? = 1 3 とする
15.
内容:確率統計の復習 19 ? 確率の基礎 ? 条件付き確率とベイズの定理 ?
累積分布関数と確率密度関数 ? 統計の基礎 ? 平均、中央値、分散、共分散 ? 分散共分散行列 ? 相関係数と相関行列
16.
累積分布関数 (cumulative distribution function)20 ?
確率変数??が実現値??以下の値をとる確率 ? 確率変数??が実現値??以上??以下の値をとる確率 ? 確率変数が連続の場合 ? 積分を用いて定義 ?? ?? = ??(?? ≤ ??)=∑????≤?? ??(????) 例)出る目が2以下となる確率 F ?? = ?? ?? ≤ ?? = ? ?∞ ?? ?? ?? ???? ?? ?? < ?? ≤ ?? = ?? ?? ? ?? ?? 例)出る目が2以上4以下 となる確率 ?? ?? :確率密度関数 F ?? は単調増加 ?? ?? ?? 1 2 3 4 ? 1 6 2 6 3 6 4 6 ? -3 -2 -1 0 1 2 3 0.00.20.40.60.81.0 Normal Distribution: ? = 0, ? = 1 xCumulativeProbability 正規分布の累積分布関数
17.
確率密度関数 21 ? 離散的な確率変数:事象の実現値がとびとび ? サイコロの目、ボールの色など ?
連続な確率変数:事象の実現値が少数をとる連続 ? 平均身長、平均寿命など ? 離散的な事象を前提にしていた以下の確率の定義は適用できない ? 実現値が連続なので????が無限に存在する ? 代わりに、確率密度関数?? ?? を用いて確率を定義する ? 代表的な確率密度関数:正規分布、ベータ分布など ?? ?? = ???? = ?? ???? = ???? ??
18.
正規分布(Normal Distribution) 22 ? 代表的な確率密度関数の一つで、工学分野にて幅広く応用 ?
19世紀にガウスにより提案されたためガウス分布とも呼ばれる 0 0.1 0.2 0.3 0.4 -3 -2 -1 0 1 2 3 ?? ?? = Ν ??, ??2 = 1 2???? ?? ? (?????)2 2??2 ?? ??:平均(正規分布の中心) ??2:分散(正規分布の幅) ?? ? ?? ?? + ?? 34.1% 34.1% ?? ? 2?? 13.6% 2.1% ?? ? 3?? ?? + 2?? 13.6% 2.1% ?? + 3?? ??
19.
正規分布の平均と分散 23 -5 5 10 0.2 0.4 0.6 0.8 σ=
1.0 σ= 2.0大きい σ= 1.5 σ= 0.5小さい ?? ?? = Ν 2, ??2 【標準偏差??による正規分布の変化】【平均??による正規分布の変化】 -4 -2 2 4 0.1 0.2 0.3 0.4 ?? ?? = Ν ??, 1
20.
多変量正規分布 24 ? 多次元の確率変数?? =
??1, ??2, … , ???? ??の正規分布 ? 2次元の場合の正規分布 ?? ?? = Ν ??, ??2 = 1 2?? ?? Σ exp ? 1 2 (?? ? ??)ΤΣ?1(?? ? ??) Σ:分散共分散行列 ?? = ??1, ??2, … , ???? ?? :平均ベクトル ?? ?? = Ν ??, ??2 = 1 2?? Σ exp ? 1 2 (?? ? ??)ΤΣ?1(?? ? ??) ??:次元数
21.
内容:確率統計の復習 25 ? 確率の基礎 ? 条件付き確率とベイズの定理 ?
累積分布関数と確率密度関数 ? 統計の基礎 ? 平均、中央値、分散、共分散 ? 分散共分散行列 ? 相関係数と相関行列
22.
平均値と中央値 26 ? データの中心を測るための統計量 ? 平均: ?
データとの二乗誤差和が最小の値: ? 中央値:データを値の大きさ順に並べたときの真ん中の値 ? データとの絶対値誤差和が最小の値 ?? = ??? = 1 ?? ??1 + ??2 + ? + ?? ?? = 1 ?? ? ??=1 ?? ???? ?? = min ?? ? ??=1 ?? ???? ? ?? 2 二乗差の意味で中心 ?? = min ?? ? ??=1 ?? ???? ? ?? 絶対値差の意味で中心
23.
平均値と中央値の例 27 ? データ: 30,
10,25, 40,15 の平均と中央値 ? 平均: ? 中央値 ? 昇順に並べ替える 10, 15,25,30, 40 ? データ数が5なので、真ん中の3番目の値を選択する ?? = ??? = 1 5 30 + 10 + 25 + 40 + 15 =24 10, 15,25,30, 40
24.
演習2 29 ? 平均が、データからの二乗誤差和の最小値と等しいことを 証明しなさい。 ? おまけ:中央値が、データからの絶対値誤差の最小値と 等しいことを証明しなさい。 ?
タイトル「演習レポート」、日付、学生番号、氏名を用紙の一 番上に記載 ?? = ??????min ?? ? ??=1 ?? ???? ? ?? 2
25.
分散と共分散 31 ? 分散:1変数のバラツキを測るための統計量 ? データの平均
???からの二乗差の平均: ? ??を標準偏差と呼ぶ ? 共分散: 2変数の相関(直線的な比例関係の強さ)を測るための 統計量 ?????? ?? = ??2 = S???? = 1 ?? ? ??=1 ?? (???? ? ???)2 二乗差の意味でのバラツキ Cov ??, ?? = S???? = 1 ?? ∑??=1 ?? (???? ? ???)(???? ? ???) ?? ?? Cov ??, ?? ? 0:正の相関 ?? ?? Cov ??, ?? ? 0:負の相関 ?? ?? Cov ??, ?? ≈ 0:無相関 偏差
26.
演習3 32 ? 5人の体重と身長のデータ ? 体重の平均、中央値、分散を求めなさい。 ?
体重と身長の共分散を求めなさい。相関関係を述べなさい。 ? タイトル「演習レポート」、日付、学生番号、氏名を用紙の一 番上に記載 体重?? [kg] 身長??[cm] 50 160 45 155 60 170 70 175 55 165
27.
内容:確率統計の復習 34 ? 確率の基礎 ? 条件付き確率とベイズの定理 ?
累積分布関数と確率密度関数 ? 統計の基礎 ? 平均、中央値、分散、共分散 ? 分散共分散行列 ? 相関係数と相関行列
28.
分散?共分散の行列表現 35 ? ?? =
??1 , ??2 , … , ?? ?? ?? と、?? = ??1 , ??2 , … , ?? ?? ?? の分散?共分散 ? 分散共分散行列: 2変数の場合2x2の行列 ? 対角成分:それぞれの変数の分散 ? 非対角成分:共分散 ?? = 1 ?? ???? ?? = 1 ?? ?? ? ??? ?? ? ??? ?? ? ??? ?? ? ??? = 1 ?? (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)?? (?? ? ???) (?? ? ???)?? (?? ? ???) ?? = ?? ? ??? ?? ? ??? = ??1 ? ??? ??2 ? ??? ? ?? ?? ? ??? ??1 ? ??? ??2 ? ??? ? ?? ?? ? ??? ??の分散S???? ??の分散S???? ??と??の共分散S???? N(データ数)×2(変数の数)の行列
29.
3変数の分散共分散行列 36 ? 3変数なので3x3の分散共分散行列 ? 対角成分が分散、その他は共分散 ??
= ?? ? ??? ?? ? ??? ?? ? ??? = ??1 ? ??? ??2 ? ??? ? ?? ?? ? ??? ??1 ? ??? ??2 ? ??? ? ?? ?? ? ??? ??1 ? ??? ??2 ? ??? ? ?? ?? ? ??? ?? = 1 ?? ???? ?? = 1 ?? (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) = S???? S???? S???? S???? S???? S???? S???? S???? S????
30.
演習4 37 ? 5人の体重と身長のデータ ? 体重と身長の分散共分散行列を求めなさい。 ?
タイトル「演習レポート」、日付、学生番号、氏名を用紙の一 番上に記載 体重?? [kg] 身長??[cm] 50 160 45 155 60 170 70 175 55 165
31.
内容:確率統計の復習 39 ? 確率の基礎 ? 条件付き確率とベイズの定理 ?
累積分布関数と確率密度関数 ? 統計の基礎 ? 平均、中央値、分散、共分散 ? 分散共分散行列 ? 相関係数と相関行列
32.
相関係数と相関行列 40 ? 共分散の大きさは、データの値の範囲に依存 ? 異なるデータ間で相関を比較するのが困難 ?
相関係数:共分散を標準偏差で割って正規化 ? 相関行列 ?????? = S???? S???? S???? = (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) ?? = ?????? ?????? ?????? ?????? ?????? ?????? ?????? ?????? ?????? ?? = S???? S???? S???? S???? = ???? ???? ???? ???? 【体重xと身長yの分散共分散行列の例】 【体重xと身長yの相関行列の例】 ?? = ?????? ?????? ?????? ?????? = ?? ??. ???? ??. ???? ??
33.
相関の目安 41 ? 相関係数を基準に、相関の強弱の判定ができる 相関係数rの値 相関の強弱 1.0
~ 0.7 強い正の相関がある 0.7 ~ 0.4 中程度の正の相関がある 0.4 ~ 0.2 弱い正の相関がある 0.2 ~-0.2 ほとんど相関がない -0.2 ~-0.4 弱い負の相関がある -0.4 ~-0.7 中程度の負の相関がある -0.7 ~-1.0 強い負の相関がある
34.
相関係数の解釈 42 ? データ数の次元のベクトルの内積 ? ??と??の相関係数を展開 ?
相関係数はデータ数次元の空間での2つのベクトルのなす角に対応 ??? = ??1 ? ???, ??2 ? ???, … , ?? ?? ? ??? ?? ??? = ??1 ? ???, ??2 ? ???, … , ?? ?? ? ??? ?? ??′?? ??′= ??? ??? cos ?? ??’ ??? θ なす角 ?????? = (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) (?? ? ???)??(?? ? ???) = ????? ??? ????? ??? ??′?? ??′ = ??? ??? cos ?? ??? ??? = cos ?? ?? ?? 中程度正の相関 θ = 45° ?? ?? 無相関 θ = 90° ???? 強い正の相関 θ = 0° ?? ?? 強い負の相関 θ = 180°
35.
相関係数=0は無関係? 43 ? 相関係数は、2変数間の直線的な比例の強さを表す ? 相関係数=0(無相関)の場合、2変数間に直線的な比例関係が無い ?
無相関でも、2変数が関係がないとは言い切れない ? 例えば、データが2次関数や円に乗っている場合、直線的な関係では 無相関であるが、2次関数や円の意味では相関がある ?? ?? ?????? ≈ 0:無相関 ?? ?? ?????? ≈ 0:無相関
36.
課題1 44 ? X1とX2の平均値を求めなさい。 ? X1とX2の分散と共分散を求める定義式を書き、分散共分散 行列Sを求めなさい。 ?
分散共分散行列Sの固有値を求める定義式を書き、固有値 を求めなさい。 No. 標本 英語(X1) 数学(X2) 1 A 5 8 2 B 5 5 3 C 8 7 4 D 4 5
37.
課題2 45 ? 相関行列Rの3つの固有値の中2つが既知であり、それぞれ、 1.57と0.527とする。以下の問に答えなさい。 1. 残りのもう1つの固有値を求めなさい。 2.
相関行列Rの行列式を求めなさい。 ?? = ?? ??. ?????? ???. ?????? ??. ?????? ?? ???. ?????? ???. ?????? ???. ?????? ??
38.
課題3 46 ? いずれかの箱からボールを1個取り出したところ、白いボールでした。 このボールが箱3から取り出された確率を求めなさい。 箱1 箱2
箱3 ????:箱??を選択する事象 ????:ボールを取り出す事象(赤:j=1、白:j=2)? ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう にわかっているとする。 ? ?? ??2 ??1 = 5 7 ?? ??2 ??2 = 1 7 ?? ??2 ??3 = 2 7 ? また、各箱を選択する確率は?? ??1 = 2 3 、?? ??2 = 1 6 、 ?? ??3 = 1 6 とする
39.
レポートの提出方法 47 ? 演習レポート: ? タイトル「演習レポート」、日付?学生番号?氏名を用紙の一番上に記載 ?
課題レポート : ? タイトル「課題レポート」、出題日?学生番号?氏名を用紙の一番上に記載 ? 2ページ以上になる場合は、ホッチキス留め ? A4サイズの用紙を使用 ? 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる
Download