狠狠撸
Submit Search
基本统计量について
?
Download as DOCX, PDF
?
0 likes
?
1,222 views
wada, kazumi
Follow
もともとは职场の新しい同僚向けに作成したものです。搁でのデモつき。
Read less
Read more
1 of 4
Download now
Download to read offline
More Related Content
基本统计量について
1.
2010.04 作成
基本统计量について データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標 に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代 表値と呼ぶ。 ※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。 ○ 正規分布に従う単変量データの場合??? 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する) 例) 標本平均 、標本分散 V、標本標準偏差 s , , ○ 正規分布からのずれを示す統計量 五数要約 [参考 1] モーメント, 積率 ?最大値 一次のモーメント: 平均 ?最小値 二次のモーメント: 分散、標準偏差 ?中央値 三次のモーメント: 歪度 ?上ヒンジ値 四次のモーメント: 尖度 ?下ヒンジ値 ※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。 高次のモーメント ? 歪度(ゆがみ) : 標準化偏差 の 3 乗平均 ? 尖度(とがり) :標準化偏差 の 4 乗平均から 3 を引いたもの ※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト グラムを見たほうが良い。 ○ 正規分布に従う p 次元の多変量データの場合??? 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル にしたもの)と分散共分散行列 (p×p の正方行列で、対角成分は各変量の分散、 それ以外は変量間の関係性を示す共分散)
2.
[参考 2] ヒンジ値と四分位値の違い
※ 便宜上同じものとして取り扱われることも多い データを昇順に並べたとき、 小さいほうからデータ全体の 1/4 が含まれるよう な順位のデータ値を第 1 四分位(下側四分位) 、3/4 が含まれるような順位のデ ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。 一方、中央値よりも上の値の中央値?中央値よりも下の値の中央値を、それ ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。 例) 次のような 1 から 10 までの数値が一つずつ含まれるデータを考えてみる。 (幅 2) (幅 2) (幅 2) (幅 2) 1 2 3 4 5 6 7 8 9 10 3.25 5.5 7.75 中央値 (幅 2.25) (幅 2.25) (幅 2.25) (幅 2.25) このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側 四分位は 3.25、上側四分位は 7.75 となる。 これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。 dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成 dat1 # 作成したデータの中身を表示 fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値) quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値) もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位 を計算。 dat2 <- 0:10 # 0~10 までの整数値を持つデータを作成 dat2 # 作成したデータの中身を表示 fivenum(dat2) # 5 数要約 quantile(dat2) # 四分位 コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ と四分位が一致することがわかる。 > dat1 <- 1:10 > dat1 [1] 1 2 3 4 5 6 7 8 9 10 > fivenum(dat1) [1] 1.0 3.0 5.5 8.0 10.0 > quantile(dat1)
3.
箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も あるが、R の場合はヒンジ値を用いている。 箱ひげ図描画用のコマンド par(mfrow=c(2,1))
# グラフィック画面を二分割 boxplot(dat1, horizontal=TRUE) # dat1 を横書きの箱ひげ図に boxplot(dat1, horizontal=TRUE) # dat2
4.
用語集 平均
mean 分散 variance 標準偏差 standard deviation 変動係数 coefficient of variation モーメント、積率 moment 歪度(ひずみ) skewness 尖度(とがり) kurtosis 五数要約 five-number summary 中央値 median 四分位値 fourth ※quantile は分位数 最小値 minimum 最大値 maximum 標準化 standardization
Download