目次
はじめに
これまで学んできた平均値、中央値、最頻値は、データの「中心」を表す代表値でした。しかし、データを理解するには「中心」だけでは不十分です。データがどれくらい「散らばって」いるかを知ることも、同じくらい重要なんです。
例えば、A組とB組の数学テストの平均点がどちらも75点だったとします。でも、A組は全員が70~80点の間に集まっているのに対し、B組は30点台から満点まで大きくばらついているかもしれません。この「ばらつき」の違いは、クラスの特徴や今後の指導方針を考える上で重要な情報です。
今日は、データの散らばり具合を数値で表現する「分散」と「標準偏差」について、その計算方法から実際の活用法まで詳しく学んでいきましょう。
分散と標準偏差の基本概念
なぜ「ばらつき」を測るのか
データのばらつきを知ることで、以下のようなことが分かります:
- 予測の精度:ばらつきが小さいほど予測しやすい
- 品質の安定性:製品のばらつきは品質管理の指標
- リスクの大きさ:投資のリターンのばらつきはリスクを表す
- 個人差の程度:テスト結果のばらつきは学力差を示す
分散とは何か
分散は、各データが平均値からどれくらい離れているかの「平均的な距離の2乗」です。
直感的な理解
- 分散が小さい = データが平均の周りに集まっている
- 分散が大きい = データが平均から広く散らばっている
標準偏差とは何か
標準偏差は、分散の平方根で、元のデータと同じ単位で「ばらつき」を表します。
なぜ平方根を取るのか
- 分散は「距離の2乗」なので単位が元データの2乗になる
- 平方根を取ることで、元のデータと同じ単位に戻す
- より直感的に理解しやすくなる
分散の計算方法
基本的な計算手順
例:5人のテスト結果 データ:70, 75, 80, 85, 90点
ステップ1:平均値を求める
平均 = (70 + 75 + 80 + 85 + 90) ÷ 5 = 80点
ステップ2:各データから平均値を引く(偏差)
70 - 80 = -10
75 - 80 = -5
80 - 80 = 0
85 - 80 = +5
90 - 80 = +10
ステップ3:偏差を2乗する
(-10)² = 100
(-5)² = 25
(0)² = 0
(+5)² = 25
(+10)² = 100
ステップ4:2乗した偏差の平均を求める
分散 = (100 + 25 + 0 + 25 + 100) ÷ 5 = 50
ステップ5:標準偏差を求める
標準偏差 = √50 ≈ 7.07点
分散の公式
母分散の公式
σ² = Σ(xᵢ - μ)² / N
σ²:母分散
xᵢ:各データ
μ:母平均
N:データの総数
標準偏差の公式
σ = √σ²
母分散と標本分散の違い
母集団と標本の復習
「母集団」は調べたい全体、「標本」は実際に調査する一部のデータです。
例
- 母集団:全国の高校3年生の身長
- 標本:ある学校の高校3年生100人の身長
母分散と標本分散
母分散(母集団の分散)
σ² = Σ(xᵢ - μ)² / N
分母がN(全データ数)
標本分散(標本の分散)
s² = Σ(xᵢ - x̄)² / (n-1)
分母が(n-1)(標本数-1)
なぜ標本分散は(n-1)で割るのか
標本分散では分母を(n-1)にすることで、母分散をより正確に推定できます。これを「ベッセルの補正」と呼びます。
理由(簡単な説明)
- 標本平均を使って偏差を計算すると、真の母分散より小さく推定される傾向がある
- (n-1)で割ることで、この偏りを補正する
- 標本サイズが大きくなると、nと(n-1)の差は小さくなる
具体例での比較 前述のテストデータ(70, 75, 80, 85, 90)で:
母分散として計算:σ² = 250 ÷ 5 = 50
標本分散として計算:s² = 250 ÷ 4 = 62.5
標準偏差:
母標準偏差:σ = √50 ≈ 7.07
標本標準偏差:s = √62.5 ≈ 7.91
実際の使い分け
状況 | 使用する分散 | 分母 |
---|---|---|
全データを持っている | 母分散 | N |
標本から母集団を推定 | 標本分散 | n-1 |
Excelの関数 | STDEV.S(標本) | n-1 |
記述統計として | 母分散 | N |
変動係数による相対比較
変動係数とは
変動係数は、標準偏差を平均値で割った値で、異なる単位やスケールのデータのばらつきを比較できます。
公式
変動係数 = 標準偏差 ÷ 平均値 × 100(%)
CV = σ/μ × 100
なぜ変動係数が必要なのか
問題:異なるスケールの比較
例1:身長のデータ
平均:170cm、標準偏差:5cm
例2:体重のデータ
平均:65kg、標準偏差:8kg
「標準偏差8kg > 5cm だから体重の方がばらついている」と言えるでしょうか?
解決:変動係数で比較
身長の変動係数:5 ÷ 170 × 100 = 2.94%
体重の変動係数:8 ÷ 65 × 100 = 12.31%
→ 体重の方が相対的にばらついている
変動係数の実践的活用
品質管理での活用
工場Aの製品重量:
平均100g、標準偏差2g
変動係数:2%
工場Bの製品重量:
平均500g、標準偏差8g
変動係数:1.6%
→ 工場Bの方が品質が安定
投資リスクの比較
株式A:期待リターン8%、標準偏差4%
変動係数:50%
株式B:期待リターン12%、標準偏差8%
変動係数:67%
→ 株式Aの方がリスク(相対的ばらつき)が低い
分散・標準偏差の実践的な使い方
1. 品質管理
製造業での例
製品の重量管理:
目標:100g
許容範囲:±3g(97g~103g)
実測データの標準偏差:1.5g
→ 99.7%のデータが100±4.5g(95.5g~104.5g)の範囲
→ 一部が許容範囲を超える可能性
2. リスク評価
投資での例
ファンドA:年平均リターン8%、標準偏差5%
ファンドB:年平均リターン8%、標準偏差15%
→ 同じ期待リターンでも、Bの方がリスクが高い
3. 教育評価
テスト結果の分析
クラスA:平均75点、標準偏差8点
クラスB:平均75点、標準偏差15点
→ クラスAは学力が均質、クラスBは個人差が大きい
→ 指導方法を変える必要がある
4. 68-95-99.7ルール
正規分布に従うデータでは:
- 68% のデータが 平均±1標準偏差 の範囲
- 95% のデータが 平均±2標準偏差 の範囲
- 99.7% のデータが 平均±3標準偏差 の範囲
実例:身長データ
男性身長:平均170cm、標準偏差6cm
68%の男性:164cm~176cm
95%の男性:158cm~182cm
99.7%の男性:152cm~188cm
分散・標準偏差の注意点
1. 外れ値の影響
分散・標準偏差は外れ値に非常に敏感です。
例
通常データ:70, 75, 80, 85, 90
標準偏差:7.07
外れ値ありデータ:70, 75, 80, 85, 150
標準偏差:31.62
外れ値1個で標準偏差が4倍以上に!
2. 分布の形の影響
標準偏差は正規分布で最も意味を持ちます。歪んだ分布では:
- 68-95-99.7ルールが当てはまらない
- 四分位範囲などの代替指標を検討
3. 単位の問題
分散は元データの単位の2乗になるため:
- 身長データ(cm) → 分散の単位はcm²
- 直感的理解が困難
- 標準偏差を使う方が実用的
実践:ばらつきの分析
ケーススタディ:2つの販売店の比較
店舗A:1週間の日別売上(万円) 月:50, 火:45, 水:55, 木:48, 金:52, 土:60, 日:40
店舗B:1週間の日別売上(万円)
月:30, 火:35, 水:45, 木:60, 金:70, 土:80, 日:30
分析結果
店舗A:
平均:50万円
標準偏差:6.38万円
変動係数:12.8%
店舗B:
平均:50万円
標準偏差:20.0万円
変動係数:40.0%
結論
- 平均売上は同じだが、店舗Bの方が売上変動が大きい
- 店舗Aの方が安定した経営
- 店舗Bは曜日による売上格差が大きい
まとめ
分散と標準偏差は、データの「ばらつき」を数値化する重要な統計量です。平均値と合わせて使うことで、データの全体像をより正確に把握できます。
今日のポイント
✅ 分散:平均からの距離の2乗の平均
✅ 標準偏差:分散の平方根、元データと同じ単位
✅ 標本分散:分母は(n-1)で母分散を正確に推定
✅ 変動係数:異なるスケールのデータのばらつき比較
✅ 68-95-99.7ルール:正規分布での標準偏差の活用
次回は「データの視覚化」について学びます。ヒストグラムの作成方法から、分布の形の読み取り方まで、データを「見える化」する技術を身につけましょう!