狠狠撸

狠狠撸Share a Scribd company logo
2010.04 作成


                    基本统计量について

 データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標
に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代
表値と呼ぶ。
※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。


○ 正規分布に従う単変量データの場合???
 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する)

 例) 標本平均 、標本分散 V、標本標準偏差 s
             ,                        ,

○   正規分布からのずれを示す統計量

    五数要約            [参考 1] モーメント, 積率
    ?最大値              一次のモーメント: 平均
    ?最小値              二次のモーメント: 分散、標準偏差
    ?中央値              三次のモーメント: 歪度
    ?上ヒンジ値            四次のモーメント: 尖度
    ?下ヒンジ値
     ※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。

    高次のモーメント
    ? 歪度(ゆがみ) :       標準化偏差 の 3 乗平均



    ?   尖度(とがり)    :標準化偏差 の 4 乗平均から 3 を引いたもの



※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト
    グラムを見たほうが良い。

○ 正規分布に従う p 次元の多変量データの場合???
 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル
にしたもの)と分散共分散行列 (p×p の正方行列で、対角成分は各変量の分散、
それ以外は変量間の関係性を示す共分散)
[参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い
  データを昇順に並べたとき、 小さいほうからデータ全体の 1/4 が含まれるよう
な順位のデータ値を第 1 四分位(下側四分位) 、3/4 が含まれるような順位のデ
ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。
  一方、中央値よりも上の値の中央値?中央値よりも下の値の中央値を、それ
ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。

 例) 次のような 1 から 10 までの数値が一つずつ含まれるデータを考えてみる。

        (幅 2)         (幅 2)                         (幅 2)             (幅 2)


  1       2       3        4        5          6       7        8        9      10
                  3.25                  5.5                   7.75


                                        中央値
      (幅 2.25)           (幅 2.25)                  (幅 2.25)          (幅 2.25)


このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側
  四分位は 3.25、上側四分位は 7.75 となる。

これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。

 dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成
 dat1            # 作成したデータの中身を表示
 fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値)
 quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値)


もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位
を計算。
 dat2 <- 0:10             # 0~10 までの整数値を持つデータを作成
 dat2                     # 作成したデータの中身を表示
 fivenum(dat2)            # 5 数要約
 quantile(dat2)           # 四分位


 コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ
と四分位が一致することがわかる。




 > dat1 <- 1:10
 > dat1
  [1] 1 2 3 4 5 6 7 8                   9 10
 > fivenum(dat1)
 [1] 1.0 3.0 5.5 8.0 10.0
 > quantile(dat1)
箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も
あるが、R の場合はヒンジ値を用いている。




箱ひげ図描画用のコマンド
 par(mfrow=c(2,1))                # グラフィック画面を二分割
 boxplot(dat1, horizontal=TRUE)   # dat1 を横書きの箱ひげ図に
 boxplot(dat1, horizontal=TRUE)   # dat2
用語集

平均         mean
分散         variance
標準偏差       standard deviation
変動係数       coefficient of variation
モーメント、積率   moment
歪度(ひずみ)    skewness
尖度(とがり)    kurtosis
五数要約       five-number summary
中央値        median
四分位値       fourth ※quantile は分位数
最小値        minimum
最大値        maximum
標準化        standardization

More Related Content

基本统计量について

  • 1. 2010.04 作成 基本统计量について データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標 に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代 表値と呼ぶ。 ※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。 ○ 正規分布に従う単変量データの場合??? 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する) 例) 標本平均 、標本分散 V、標本標準偏差 s , , ○ 正規分布からのずれを示す統計量 五数要約 [参考 1] モーメント, 積率 ?最大値 一次のモーメント: 平均 ?最小値 二次のモーメント: 分散、標準偏差 ?中央値 三次のモーメント: 歪度 ?上ヒンジ値 四次のモーメント: 尖度 ?下ヒンジ値 ※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。 高次のモーメント ? 歪度(ゆがみ) : 標準化偏差 の 3 乗平均 ? 尖度(とがり) :標準化偏差 の 4 乗平均から 3 を引いたもの ※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト グラムを見たほうが良い。 ○ 正規分布に従う p 次元の多変量データの場合??? 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル にしたもの)と分散共分散行列 (p×p の正方行列で、対角成分は各変量の分散、 それ以外は変量間の関係性を示す共分散)
  • 2. [参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い データを昇順に並べたとき、 小さいほうからデータ全体の 1/4 が含まれるよう な順位のデータ値を第 1 四分位(下側四分位) 、3/4 が含まれるような順位のデ ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。 一方、中央値よりも上の値の中央値?中央値よりも下の値の中央値を、それ ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。 例) 次のような 1 から 10 までの数値が一つずつ含まれるデータを考えてみる。 (幅 2) (幅 2) (幅 2) (幅 2) 1 2 3 4 5 6 7 8 9 10 3.25 5.5 7.75 中央値 (幅 2.25) (幅 2.25) (幅 2.25) (幅 2.25) このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側 四分位は 3.25、上側四分位は 7.75 となる。 これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。 dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成 dat1 # 作成したデータの中身を表示 fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値) quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値) もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位 を計算。 dat2 <- 0:10 # 0~10 までの整数値を持つデータを作成 dat2 # 作成したデータの中身を表示 fivenum(dat2) # 5 数要約 quantile(dat2) # 四分位 コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ と四分位が一致することがわかる。 > dat1 <- 1:10 > dat1 [1] 1 2 3 4 5 6 7 8 9 10 > fivenum(dat1) [1] 1.0 3.0 5.5 8.0 10.0 > quantile(dat1)
  • 3. 箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も あるが、R の場合はヒンジ値を用いている。 箱ひげ図描画用のコマンド par(mfrow=c(2,1)) # グラフィック画面を二分割 boxplot(dat1, horizontal=TRUE) # dat1 を横書きの箱ひげ図に boxplot(dat1, horizontal=TRUE) # dat2
  • 4. 用語集 平均 mean 分散 variance 標準偏差 standard deviation 変動係数 coefficient of variation モーメント、積率 moment 歪度(ひずみ) skewness 尖度(とがり) kurtosis 五数要約 five-number summary 中央値 median 四分位値 fourth ※quantile は分位数 最小値 minimum 最大値 maximum 標準化 standardization