狠狠撸

狠狠撸Share a Scribd company logo
1




情報統計学


        1 変量データの分析
データをとったら                        2

? まず,思い浮かべるのは,データがどうなっているか調べる
 ? 簡単な方法
    ? 数値を出す??
       – 平均とか最高点とか

 ? もっと簡単にデータの構造がわかる

 ? グラフを描いてみる
    ? 統計グラフ
ヒストグラム                                   3




? 「ヒストグラム」
  (histogram)
  ? 「棒グラフ」と似ている
     ? 棒グラフはデータの数値
       を棒の高さで表したもの
     ? ヒストグラムは各階級の
       度数(データの個数)を
       棒の高さで表したもので
       ある
     ? ヒストグラムは各階級(
       小区間)に入っている個
       数であるので、隣の階級
       とは接することになる。
  だいたいどんな値でどのぐら
  いばらついているか。
  どの値が多いだろうか。中心      160cm に向かって山がある単調
  はどこだろうか。           型
                     一般には中央あたりに山が一つ
                     ある「単峰型」の分布をしてい
                     る
阶级の个数                                 4

? データの大きさに対して,
 ? 階級を多く取りすぎてしまうと
    ? 各階級に属する度数は少なくなってしまい,分布の特徴を捉えに
      くい
 ? 逆に少なすぎると
    ? 大雑把過ぎて,データが持っている特長を見逃してしまう
? 阶级の个数をいくつにするか (目安)
主な分布形状                          5




  (a) 単峰型   (b) 双峰型   (b) 多峰型
共通一次試験 (1980 年 )   民間給与実態統計調査(平成 9 年   6
)
データの缩约                               7

? 特性値
 ? もとのデータの持っている特性を一つの数値で表したもの

 ? 大別して代表値,散布度
    ? 代表値
       – データ全体を一つの数値で代表させたもの
          ? 平均値,メディアン(中央値),モード(最頻値),最大
            値,最小値など
    ? 散布度
       – データの散らばり具合を測る物差し
          ? レンジ(范囲),平均偏差,分散,標準偏差
平均値 (mean)      8




? 最小2乗法の意味で最良
中央値( median )          9




中央値と平均値の関係
?平均値と中央値の値が近い場合
  ?その値を中心として左右対称
?この 2 つの値が離れているとき
  ?対称性が崩れて右または左に歪んでい
  る
  ?外れ値がある
  ことが多い
平均値と中央値                                                             10

? 一般的に外れ値に弱い(影響を受けやすい)
? 中心の代表値



          平均値                                  中央値



? 中央値は外れ値に頑健 (robust)
                                                  平均値の改良として
中央値と平均値の関係                                      Trimmed mean (切り捨
? アプリケーション                                        て平均)などもある
  ? http://case.f7.ems.okayama-u.ac.jp/
  ? テキストにある関数 P14
      ? boxplot.app()
           – Windows のみで動作
           – http://www.mikawaya.to/appstat/
トリムド?ミーン( trimmed mean ) 切り捨て平均    11

? 大きい方から 100α %,小さいほうから 100α %のデータをな
  いものとして,平均値を再計算
 ? これにより,外れ値の影響をできるだけ除外




               平均値




         平均値
最大値,最小値                            12

? 代表値として,最大値,最小値を使うことも多い
 ? 最大震度,最低気温,スポーツの新記録


? 最大値
 ? 大きさの順(小さいほうから)に並べ替えたとき,一番大きな値
? 最小値
 ? 大きさの順(小さいほうから)に並べ替えたとき,一番小さな値
演习问题                           13

?   次のデータについて,

    5, 4, 3, 6, 4, 8, 5, 5

    1. データの大きさ n を求めよ。

    2. 平均,メディアン,最大値,最小値を求めよ。

    3. データの最後に新たに 2 が加わった。メディアン
       を求めよ。
5 数要約   14
箱ひげ図                                    15

?   分布の概形を知りたい場合,グ
    ラフ表現としては前節のヒスト
    グラムが有効              箱の高さから 1.5 倍以内
    ? この形の特徴を数値的に表現す
                            の最大値
      るため
?   四分位点
                               第 3 四分位点
    ? n 個のデータを大きさの順に
       n/4 個づつ4つに分割する
    ? 分点は3個                    第 2 四分位点


      ? 小さい方から                   中央値

           – 「第1四分位点」
           – 「第2四分位点」        第 1 四分位点

           – 「第3四分位点」

                         箱の高さから 1.5 倍以内

                             の最小値




                            外れ値
ヒストグラムと箱ひげ図                   16




              箱ひげ図からヒストグラムを

                 思い浮かべる
レポート                              17

? rivers データ
  data()

? rivers データに対して,分析を行い,結果を考察せよ。
  ? 図も張り付けて分析する。
  ? ならった統計量も出そう。
  ? 対数をとった値でもやってみよう
     ? log.rivers<-log(rivers)
ばらつきの尺度                    18




? hist(height)
? hist(height2)
を比べてみよう。
平均はほぼ同じだが,データの散らばり具合が異なる
并行はこひげ図                                                      19

> boxplot(height, height2, names = c("height", "height2"))
散布度 (バラツキの尺度)             20

? 代表値
 ? データをひとまとめにしてそれを代表する値
? 通常,データは,広がりを持っている。
 ? 散らばりの程度を計る物差し
ばらつきの尺度                         21

?   范囲 (range)
?   四分位范囲 (quartile range)
?   平均偏差 (mean deviation)
?   分散 (variance)
?   標準偏差 (standard deivation)
范囲                                 22

? 范囲とは ( R で表わすことにする)
 ? データの最大値から最小値を引いた値




? 計算は楽
? 欠点
  ? 上の例でも,明らかなように
     ? 一つでも他と大きく離れたものがあると,直接その影響を受けて
       しまう
23




新しい関数の作り方
四分位范囲                                 24

? 四分位范囲
 ? 両端から, 25% ずつデータを除いて,残った 50% 分のデータでの範
   囲




            Q1    Q2     Q3

                  Median (中央値)と
                         一致
四分位范囲                                 25

? 范囲は外れ値の影響を受けやすい
? 四分位范囲
 ? 小さい方の 25% のデータ,大きい方の 25% のデータを捨てて残った
   中央部の半分( 50% )のデータの范囲を求めた値
平均偏差 d                              26

? 偏差



       – 個々の偏差の和をデータ全体についてとれば,全体の散布度が
         得られるはず
          ? しかし,和をとると0になる。
? 平均偏差
 ? 偏差 di の絶対値をとり,平均した値
平均偏差   27
分散 s2                              28

? 平均偏差は
  ? 絶対値の取り扱いが面倒(数学的に)
  ? 符号をなくすため,今度は絶対値の代わりに 2 乗を考える
? 分散とは
分散,不偏分散                                              29




 > var(height)
 [1] 53.95604
 > sum((height-mean(height))^2)/length(height)
 [1] 50.10204
 > sum((height-mean(height))^2)/(length(height)-1)
 [1] 53.95604

n で割るか、 n-1 で割るか
標準偏差 s                    30

? 標準偏差 s は
  ? 分散 s2 の正の平方根を取る
  ? 分散を計算して,平方根を計算すればよい

More Related Content

K020 appstat201202

  • 1. 1 情報統計学 1 変量データの分析
  • 2. データをとったら 2 ? まず,思い浮かべるのは,データがどうなっているか調べる ? 簡単な方法 ? 数値を出す?? – 平均とか最高点とか ? もっと簡単にデータの構造がわかる ? グラフを描いてみる ? 統計グラフ
  • 3. ヒストグラム 3 ? 「ヒストグラム」 (histogram) ? 「棒グラフ」と似ている ? 棒グラフはデータの数値 を棒の高さで表したもの ? ヒストグラムは各階級の 度数(データの個数)を 棒の高さで表したもので ある ? ヒストグラムは各階級( 小区間)に入っている個 数であるので、隣の階級 とは接することになる。 だいたいどんな値でどのぐら いばらついているか。 どの値が多いだろうか。中心 160cm に向かって山がある単調 はどこだろうか。 型 一般には中央あたりに山が一つ ある「単峰型」の分布をしてい る
  • 4. 阶级の个数 4 ? データの大きさに対して, ? 階級を多く取りすぎてしまうと ? 各階級に属する度数は少なくなってしまい,分布の特徴を捉えに くい ? 逆に少なすぎると ? 大雑把過ぎて,データが持っている特長を見逃してしまう ? 阶级の个数をいくつにするか (目安)
  • 5. 主な分布形状 5 (a) 単峰型 (b) 双峰型 (b) 多峰型
  • 6. 共通一次試験 (1980 年 ) 民間給与実態統計調査(平成 9 年 6 )
  • 7. データの缩约 7 ? 特性値 ? もとのデータの持っている特性を一つの数値で表したもの ? 大別して代表値,散布度 ? 代表値 – データ全体を一つの数値で代表させたもの ? 平均値,メディアン(中央値),モード(最頻値),最大 値,最小値など ? 散布度 – データの散らばり具合を測る物差し ? レンジ(范囲),平均偏差,分散,標準偏差
  • 8. 平均値 (mean) 8 ? 最小2乗法の意味で最良
  • 9. 中央値( median ) 9 中央値と平均値の関係 ?平均値と中央値の値が近い場合 ?その値を中心として左右対称 ?この 2 つの値が離れているとき ?対称性が崩れて右または左に歪んでい る ?外れ値がある ことが多い
  • 10. 平均値と中央値 10 ? 一般的に外れ値に弱い(影響を受けやすい) ? 中心の代表値 平均値 中央値 ? 中央値は外れ値に頑健 (robust) 平均値の改良として 中央値と平均値の関係 Trimmed mean (切り捨 ? アプリケーション て平均)などもある ? http://case.f7.ems.okayama-u.ac.jp/ ? テキストにある関数 P14 ? boxplot.app() – Windows のみで動作 – http://www.mikawaya.to/appstat/
  • 11. トリムド?ミーン( trimmed mean ) 切り捨て平均 11 ? 大きい方から 100α %,小さいほうから 100α %のデータをな いものとして,平均値を再計算 ? これにより,外れ値の影響をできるだけ除外 平均値 平均値
  • 12. 最大値,最小値 12 ? 代表値として,最大値,最小値を使うことも多い ? 最大震度,最低気温,スポーツの新記録 ? 最大値 ? 大きさの順(小さいほうから)に並べ替えたとき,一番大きな値 ? 最小値 ? 大きさの順(小さいほうから)に並べ替えたとき,一番小さな値
  • 13. 演习问题 13 ? 次のデータについて, 5, 4, 3, 6, 4, 8, 5, 5 1. データの大きさ n を求めよ。 2. 平均,メディアン,最大値,最小値を求めよ。 3. データの最後に新たに 2 が加わった。メディアン を求めよ。
  • 15. 箱ひげ図 15 ? 分布の概形を知りたい場合,グ ラフ表現としては前節のヒスト グラムが有効 箱の高さから 1.5 倍以内 ? この形の特徴を数値的に表現す の最大値 るため ? 四分位点 第 3 四分位点 ? n 個のデータを大きさの順に n/4 個づつ4つに分割する ? 分点は3個 第 2 四分位点 ? 小さい方から 中央値 – 「第1四分位点」 – 「第2四分位点」 第 1 四分位点 – 「第3四分位点」 箱の高さから 1.5 倍以内 の最小値 外れ値
  • 16. ヒストグラムと箱ひげ図 16 箱ひげ図からヒストグラムを 思い浮かべる
  • 17. レポート 17 ? rivers データ data() ? rivers データに対して,分析を行い,結果を考察せよ。 ? 図も張り付けて分析する。 ? ならった統計量も出そう。 ? 対数をとった値でもやってみよう ? log.rivers<-log(rivers)
  • 18. ばらつきの尺度 18 ? hist(height) ? hist(height2) を比べてみよう。 平均はほぼ同じだが,データの散らばり具合が異なる
  • 19. 并行はこひげ図 19 > boxplot(height, height2, names = c("height", "height2"))
  • 20. 散布度 (バラツキの尺度) 20 ? 代表値 ? データをひとまとめにしてそれを代表する値 ? 通常,データは,広がりを持っている。 ? 散らばりの程度を計る物差し
  • 21. ばらつきの尺度 21 ? 范囲 (range) ? 四分位范囲 (quartile range) ? 平均偏差 (mean deviation) ? 分散 (variance) ? 標準偏差 (standard deivation)
  • 22. 范囲 22 ? 范囲とは ( R で表わすことにする) ? データの最大値から最小値を引いた値 ? 計算は楽 ? 欠点 ? 上の例でも,明らかなように ? 一つでも他と大きく離れたものがあると,直接その影響を受けて しまう
  • 24. 四分位范囲 24 ? 四分位范囲 ? 両端から, 25% ずつデータを除いて,残った 50% 分のデータでの範 囲 Q1 Q2 Q3 Median (中央値)と 一致
  • 25. 四分位范囲 25 ? 范囲は外れ値の影響を受けやすい ? 四分位范囲 ? 小さい方の 25% のデータ,大きい方の 25% のデータを捨てて残った 中央部の半分( 50% )のデータの范囲を求めた値
  • 26. 平均偏差 d 26 ? 偏差 – 個々の偏差の和をデータ全体についてとれば,全体の散布度が 得られるはず ? しかし,和をとると0になる。 ? 平均偏差 ? 偏差 di の絶対値をとり,平均した値
  • 28. 分散 s2 28 ? 平均偏差は ? 絶対値の取り扱いが面倒(数学的に) ? 符号をなくすため,今度は絶対値の代わりに 2 乗を考える ? 分散とは
  • 29. 分散,不偏分散 29 > var(height) [1] 53.95604 > sum((height-mean(height))^2)/length(height) [1] 50.10204 > sum((height-mean(height))^2)/(length(height)-1) [1] 53.95604 n で割るか、 n-1 で割るか
  • 30. 標準偏差 s 30 ? 標準偏差 s は ? 分散 s2 の正の平方根を取る ? 分散を計算して,平方根を計算すればよい