K020 appstat201202
- 2. データをとったら 2
? まず,思い浮かべるのは,データがどうなっているか調べる
? 簡単な方法
? 数値を出す??
– 平均とか最高点とか
? もっと簡単にデータの構造がわかる
? グラフを描いてみる
? 統計グラフ
- 3. ヒストグラム 3
? 「ヒストグラム」
(histogram)
? 「棒グラフ」と似ている
? 棒グラフはデータの数値
を棒の高さで表したもの
? ヒストグラムは各階級の
度数(データの個数)を
棒の高さで表したもので
ある
? ヒストグラムは各階級(
小区間)に入っている個
数であるので、隣の階級
とは接することになる。
だいたいどんな値でどのぐら
いばらついているか。
どの値が多いだろうか。中心 160cm に向かって山がある単調
はどこだろうか。 型
一般には中央あたりに山が一つ
ある「単峰型」の分布をしてい
る
- 4. 阶级の个数 4
? データの大きさに対して,
? 階級を多く取りすぎてしまうと
? 各階級に属する度数は少なくなってしまい,分布の特徴を捉えに
くい
? 逆に少なすぎると
? 大雑把過ぎて,データが持っている特長を見逃してしまう
? 阶级の个数をいくつにするか (目安)
- 5. 主な分布形状 5
(a) 単峰型 (b) 双峰型 (b) 多峰型
- 7. データの缩约 7
? 特性値
? もとのデータの持っている特性を一つの数値で表したもの
? 大別して代表値,散布度
? 代表値
– データ全体を一つの数値で代表させたもの
? 平均値,メディアン(中央値),モード(最頻値),最大
値,最小値など
? 散布度
– データの散らばり具合を測る物差し
? レンジ(范囲),平均偏差,分散,標準偏差
- 9. 中央値( median ) 9
中央値と平均値の関係
?平均値と中央値の値が近い場合
?その値を中心として左右対称
?この 2 つの値が離れているとき
?対称性が崩れて右または左に歪んでい
る
?外れ値がある
ことが多い
- 10. 平均値と中央値 10
? 一般的に外れ値に弱い(影響を受けやすい)
? 中心の代表値
平均値 中央値
? 中央値は外れ値に頑健 (robust)
平均値の改良として
中央値と平均値の関係 Trimmed mean (切り捨
? アプリケーション て平均)などもある
? http://case.f7.ems.okayama-u.ac.jp/
? テキストにある関数 P14
? boxplot.app()
– Windows のみで動作
– http://www.mikawaya.to/appstat/
- 11. トリムド?ミーン( trimmed mean ) 切り捨て平均 11
? 大きい方から 100α %,小さいほうから 100α %のデータをな
いものとして,平均値を再計算
? これにより,外れ値の影響をできるだけ除外
平均値
平均値
- 12. 最大値,最小値 12
? 代表値として,最大値,最小値を使うことも多い
? 最大震度,最低気温,スポーツの新記録
? 最大値
? 大きさの順(小さいほうから)に並べ替えたとき,一番大きな値
? 最小値
? 大きさの順(小さいほうから)に並べ替えたとき,一番小さな値
- 13. 演习问题 13
? 次のデータについて,
5, 4, 3, 6, 4, 8, 5, 5
1. データの大きさ n を求めよ。
2. 平均,メディアン,最大値,最小値を求めよ。
3. データの最後に新たに 2 が加わった。メディアン
を求めよ。
- 15. 箱ひげ図 15
? 分布の概形を知りたい場合,グ
ラフ表現としては前節のヒスト
グラムが有効 箱の高さから 1.5 倍以内
? この形の特徴を数値的に表現す
の最大値
るため
? 四分位点
第 3 四分位点
? n 個のデータを大きさの順に
n/4 個づつ4つに分割する
? 分点は3個 第 2 四分位点
? 小さい方から 中央値
– 「第1四分位点」
– 「第2四分位点」 第 1 四分位点
– 「第3四分位点」
箱の高さから 1.5 倍以内
の最小値
外れ値
- 17. レポート 17
? rivers データ
data()
? rivers データに対して,分析を行い,結果を考察せよ。
? 図も張り付けて分析する。
? ならった統計量も出そう。
? 対数をとった値でもやってみよう
? log.rivers<-log(rivers)
- 18. ばらつきの尺度 18
? hist(height)
? hist(height2)
を比べてみよう。
平均はほぼ同じだが,データの散らばり具合が異なる
- 19. 并行はこひげ図 19
> boxplot(height, height2, names = c("height", "height2"))
- 20. 散布度 (バラツキの尺度) 20
? 代表値
? データをひとまとめにしてそれを代表する値
? 通常,データは,広がりを持っている。
? 散らばりの程度を計る物差し
- 21. ばらつきの尺度 21
? 范囲 (range)
? 四分位范囲 (quartile range)
? 平均偏差 (mean deviation)
? 分散 (variance)
? 標準偏差 (standard deivation)
- 22. 范囲 22
? 范囲とは ( R で表わすことにする)
? データの最大値から最小値を引いた値
? 計算は楽
? 欠点
? 上の例でも,明らかなように
? 一つでも他と大きく離れたものがあると,直接その影響を受けて
しまう
- 24. 四分位范囲 24
? 四分位范囲
? 両端から, 25% ずつデータを除いて,残った 50% 分のデータでの範
囲
Q1 Q2 Q3
Median (中央値)と
一致
- 25. 四分位范囲 25
? 范囲は外れ値の影響を受けやすい
? 四分位范囲
? 小さい方の 25% のデータ,大きい方の 25% のデータを捨てて残った
中央部の半分( 50% )のデータの范囲を求めた値
- 26. 平均偏差 d 26
? 偏差
– 個々の偏差の和をデータ全体についてとれば,全体の散布度が
得られるはず
? しかし,和をとると0になる。
? 平均偏差
? 偏差 di の絶対値をとり,平均した値
- 28. 分散 s2 28
? 平均偏差は
? 絶対値の取り扱いが面倒(数学的に)
? 符号をなくすため,今度は絶対値の代わりに 2 乗を考える
? 分散とは
- 29. 分散,不偏分散 29
> var(height)
[1] 53.95604
> sum((height-mean(height))^2)/length(height)
[1] 50.10204
> sum((height-mean(height))^2)/(length(height)-1)
[1] 53.95604
n で割るか、 n-1 で割るか
- 30. 標準偏差 s 30
? 標準偏差 s は
? 分散 s2 の正の平方根を取る
? 分散を計算して,平方根を計算すればよい