狠狠撸
Submit Search
8つの魔法の習得 -RとRubyによるデータ解析入門より-
?
Download as PPTX, PDF
?
9 likes
?
5,952 views
Yuki Shimizu
Follow
「RとRubyによるデータ解析入門」の統計の基礎に関する章「3章.8つの魔法の習得」をまとめてみました。 何か突っ込み所などあればお願いします。
Read less
Read more
1 of 27
Download now
Downloaded 33 times
More Related Content
8つの魔法の習得 -RとRubyによるデータ解析入門より-
1.
8つの魔法の習得 RとRubyによるデータ解析入門より
3.
確率分布 ? 観測値Xの各値が出る確率をP(X)とする時 P(X)を全体的に表したものを確率分布という Ex…サイコロの場合 サイコロの目=X サイコロの目が出る確率P(X) ?
Xが連続している場合はP(X)を確率密度という ? 確率密度を積分するとXが観測される確率を出せる
4.
連続と離散の違い ? 離散…Discrete – 中間値が存在しないもの –
また平均を出す意味が無い – ex..サイコロ、男女 ? 連続…Continuous – 中間値が存在するもの – ex.身長、体重
5.
正規分布 ? 連続的な確率分布 ? ベル型で横に広がった形をとる分布 ?
形を決定する変数は2つ 1. 平均値 – 正規分布の中心値 2. 標準偏差 – バラツキの大きさの指標 – 分散の平方根 ? 偏差 – 各データと平均値の差 ? 分散 – 偏差の二乗の平均値 – 相対評価で判断される
6.
ポアソン分布 ? 離散的な確率分布 ? 起こる確率が小さい事を n回起こる確率を 横に回数n、 縦にn回起こる確率で グラフにしたもの ?
形を決定する変数は λ=平均値=分散のみ Ex…ある交差点の一時間当たりの事故数など
8.
検定で使う用語 ? 優位差 – 統計的に意味のある差 ?
帰無仮説 – 検定で調べたい仮説 ? 対立仮説 – 帰無仮説を否定する仮説
9.
t検定 ? 平均値が等しいのかを検証するのに使用 する検定 ? 大きく分けて二つ 1.
ある母集団の平均が特定の値に等しいのか 確認する ? 前提として母集団は正規分布であること 2. 二つの母集団の平均が等しいのか確認する ? 前提として母集団がどちらも正規分布である事 ? また分散に差があるのか無いのか解っている事
10.
1標本t検定 ? ある学年100人の身長平均が165である (帰無仮説) ?
事情で20人のみのデータしか存在しない ? この場合確認したい値165が母平均(μ:ミュー)という ? Rではt検定は「t.test(母集団,μ)」で行う p値が0.05以上なら 帰無仮説は棄却されな い t値でp値が計算され る
11.
2標本t検定 ? グループaとグループbの平均値が同じで ある(帰無仮説) ? 2標本t検定は前提として分散に差があるの か無いのかを解る必要がある
12.
F検定 ? 二つの母集団の分散に優位差が無い事を確認す るのに使用する検定 ? Rでは「var.test(母集団1,母集団2)」で行う ?
aとbは分散に優位差がない(帰無仮説) P値が0.05より大きいの で帰無仮説は棄却されな い
13.
2標本t検定 ? F検定でaとbの分散には優位差が無い事が 解ったので2標本t検定が可能になる ? 「t.test(“母集団1”,”母集団2”, var.equal=“TRUE
or FALSE”)」で実行 分散に差がなければ TRUEあればFALSE P値が0.05より小さく帰無仮 説が棄却される
14.
シャピロ? ウィルク検定 ? 観測されたデータが正規分布に従うかど うかを確認する検定 ? 主にt検定の前に使用する ?
先ほどのt検定で使用した身長が正規分布 である(帰無仮説) P値が0.05より大きいので帰 無仮説は棄却されない
15.
ウィルコクソンの順位和検定 ? 二つの母集団の持つ確率分布が異なるか を確認するのに使う検定 ? cとdで確率分布が同じである(帰無仮説) ?
Rでは「wilcox.test(母集団1,母集団2)」で行う P値は0.00002978で 0.05より小さいので帰無仮説が 棄却される
17.
感度分析 ? 指標の変化がどの程度結果に 影響を与えるかを明らかにする分析 Ex… 売上高、費用、利益を 考える際に費用の中の固定費が 5%上がった場合の利益、 変動費が10%上がった場合の利益 を明らかにする
18.
アソシエーション分析 ? データの中から価値のある相関関係を見つけ 出す分析 ? Eコマースである「この商品を買った人は別 のこんな商品を買っています」という紹介を すべき商品は何かなどを明らかにできる ?
搁ではパッケージ「补谤耻濒别蝉」を使用する
19.
? arulesで定義されているtransactions形式を分析に使用 ? Transactions形式には「as(変換対象,”transactions”)」で変換 ?
Transactions形式のデータから相関ルールを抽出するには 「apriori(transactions形式のデータ)」を行う
20.
? apriori関数の詳細な結果を見るのには 「inspect(aprioriの結果)」を用いる ? Support(支持度) ?
全トランザクション数に対してその相関ルールの発生した回数の割合 ? Confidence(確信度) ? 相関部と結論部が一緒に発生した回数の割合 ? Lift(リフト値) ? 結論部が相関部と関係無く発生しているかを確認するための値 高いほど相関部と結論部の関係性も高い
21.
スペクトル分析 ? 時系列データの周期性を分析するための 手法 – 時系列データ ?
時間の順序に従って測定したデータ ? Rでは時系列データを 「ts(data,frequency=“観測単位”)」 で作成する 1から100までの数を1秒毎に数える 観測単位を1分に指定
22.
? Frequencyには特例があり4と12を指定する と暗黙的に単位時間を1年として表示する – 4…四半期のデータ –
12…毎月のデータ ? 実際の時系列データを表示する場合は 「print()」の引数calendarをFALSEにする
23.
? 「ts.plot(“時系列データ”)」を用い事で折 れ線グラフで表示できる ldeaths ? Rに初期から入っているデータ ?
1979年イギリスでの月ごとの喘息,気管支炎,肺気肿による死亡数
24.
? Rでのスペクトル分析には「spectrum(“時系列データ”)」を用いる ? スペクトル分析では時系列データを複数の周期を持つ波の重ね合わせで 表現できるという仮定し、重ね合わせた各波の強さをスペクトルという指標で測る。 ?
時系列データはスペクトルの高い波の周期に影響を受けている スペクトルの中で一番大きな 周期を持つものを抽出 1年に頻度1の割合で発生する波野成分が高い
25.
ジニ係数とローレンツ曲線 ? ジニ係数 – 分布の不平等さの指標 –
0なら完全な平等、1なら完全な不平等 ? ローレンツ曲線 – ある事象の集中の度合いを示す曲線 – 平等ならL(p)=pの直線と同じになる – 不平等ならL(p)=0の直線と同じになる – ジニ係数はローレンツ曲線とL(p)=pの直線と の間の面積の2倍した値
26.
? 下記データでローレンツ曲線を出してみる ? Rでは「ineq」パッケージを使用する ?
ローレンツ曲線の描画には 「Lc(“対象データ”, plot=“bool”)を用いる ほぼ平等 やや不平等 並べてグラフを表示するために 「par(mfcol(“行数”,“列数”))」
27.
? ジニ係数を算出するには 「ineq(“対象データ”)」を使用する Income2に比べると大きくやや不平等 ほぼ0に近く平等に近い
Download