統計学基礎

第5回:分散と標準偏差 - ばらつきを数値化する

はじめに

これまで学んできた平均値、中央値、最頻値は、データの「中心」を表す代表値でした。しかし、データを理解するには「中心」だけでは不十分です。データがどれくらい「散らばって」いるかを知ることも、同じくらい重要なんです。

例えば、A組とB組の数学テストの平均点がどちらも75点だったとします。でも、A組は全員が70~80点の間に集まっているのに対し、B組は30点台から満点まで大きくばらついているかもしれません。この「ばらつき」の違いは、クラスの特徴や今後の指導方針を考える上で重要な情報です。

今日は、データの散らばり具合を数値で表現する「分散」と「標準偏差」について、その計算方法から実際の活用法まで詳しく学んでいきましょう。

分散と標準偏差の基本概念

なぜ「ばらつき」を測るのか

データのばらつきを知ることで、以下のようなことが分かります:

  • 予測の精度:ばらつきが小さいほど予測しやすい
  • 品質の安定性:製品のばらつきは品質管理の指標
  • リスクの大きさ:投資のリターンのばらつきはリスクを表す
  • 個人差の程度:テスト結果のばらつきは学力差を示す

分散とは何か

分散は、各データが平均値からどれくらい離れているかの「平均的な距離の2乗」です。

直感的な理解

  • 分散が小さい = データが平均の周りに集まっている
  • 分散が大きい = データが平均から広く散らばっている

標準偏差とは何か

標準偏差は、分散の平方根で、元のデータと同じ単位で「ばらつき」を表します。

なぜ平方根を取るのか

  • 分散は「距離の2乗」なので単位が元データの2乗になる
  • 平方根を取ることで、元のデータと同じ単位に戻す
  • より直感的に理解しやすくなる

分散の計算方法

基本的な計算手順

例:5人のテスト結果 データ:70, 75, 80, 85, 90点

ステップ1:平均値を求める

平均 = (70 + 75 + 80 + 85 + 90) ÷ 5 = 80点

ステップ2:各データから平均値を引く(偏差)

70 - 80 = -10
75 - 80 = -5
80 - 80 = 0
85 - 80 = +5
90 - 80 = +10

ステップ3:偏差を2乗する

(-10)² = 100
(-5)² = 25
(0)² = 0
(+5)² = 25
(+10)² = 100

ステップ4:2乗した偏差の平均を求める

分散 = (100 + 25 + 0 + 25 + 100) ÷ 5 = 50

ステップ5:標準偏差を求める

標準偏差 = √50 ≈ 7.07点

分散の公式

母分散の公式

σ² = Σ(xᵢ - μ)² / N

σ²:母分散
xᵢ:各データ
μ:母平均
N:データの総数

標準偏差の公式

σ = √σ²

母分散と標本分散の違い

母集団と標本の復習

「母集団」は調べたい全体、「標本」は実際に調査する一部のデータです。

  • 母集団:全国の高校3年生の身長
  • 標本:ある学校の高校3年生100人の身長

母分散と標本分散

母分散(母集団の分散)

σ² = Σ(xᵢ - μ)² / N

分母がN(全データ数)

標本分散(標本の分散)

s² = Σ(xᵢ - x̄)² / (n-1)

分母が(n-1)(標本数-1)

なぜ標本分散は(n-1)で割るのか

標本分散では分母を(n-1)にすることで、母分散をより正確に推定できます。これを「ベッセルの補正」と呼びます。

理由(簡単な説明)

  • 標本平均を使って偏差を計算すると、真の母分散より小さく推定される傾向がある
  • (n-1)で割ることで、この偏りを補正する
  • 標本サイズが大きくなると、nと(n-1)の差は小さくなる

具体例での比較 前述のテストデータ(70, 75, 80, 85, 90)で:

母分散として計算:σ² = 250 ÷ 5 = 50
標本分散として計算:s² = 250 ÷ 4 = 62.5

標準偏差:
母標準偏差:σ = √50 ≈ 7.07
標本標準偏差:s = √62.5 ≈ 7.91

実際の使い分け

状況使用する分散分母
全データを持っている母分散N
標本から母集団を推定標本分散n-1
Excelの関数STDEV.S(標本)n-1
記述統計として母分散N

変動係数による相対比較

変動係数とは

変動係数は、標準偏差を平均値で割った値で、異なる単位やスケールのデータのばらつきを比較できます。

公式

変動係数 = 標準偏差 ÷ 平均値 × 100(%)
CV = σ/μ × 100

なぜ変動係数が必要なのか

問題:異なるスケールの比較

例1:身長のデータ
平均:170cm、標準偏差:5cm

例2:体重のデータ  
平均:65kg、標準偏差:8kg

「標準偏差8kg > 5cm だから体重の方がばらついている」と言えるでしょうか?

解決:変動係数で比較

身長の変動係数:5 ÷ 170 × 100 = 2.94%
体重の変動係数:8 ÷ 65 × 100 = 12.31%

→ 体重の方が相対的にばらついている

変動係数の実践的活用

品質管理での活用

工場Aの製品重量:
平均100g、標準偏差2g
変動係数:2%

工場Bの製品重量:
平均500g、標準偏差8g  
変動係数:1.6%

→ 工場Bの方が品質が安定

投資リスクの比較

株式A:期待リターン8%、標準偏差4%
変動係数:50%

株式B:期待リターン12%、標準偏差8%
変動係数:67%

→ 株式Aの方がリスク(相対的ばらつき)が低い

分散・標準偏差の実践的な使い方

1. 品質管理

製造業での例

製品の重量管理:
目標:100g
許容範囲:±3g(97g~103g)

実測データの標準偏差:1.5g
→ 99.7%のデータが100±4.5g(95.5g~104.5g)の範囲
→ 一部が許容範囲を超える可能性

2. リスク評価

投資での例

ファンドA:年平均リターン8%、標準偏差5%
ファンドB:年平均リターン8%、標準偏差15%

→ 同じ期待リターンでも、Bの方がリスクが高い

3. 教育評価

テスト結果の分析

クラスA:平均75点、標準偏差8点
クラスB:平均75点、標準偏差15点

→ クラスAは学力が均質、クラスBは個人差が大きい
→ 指導方法を変える必要がある

4. 68-95-99.7ルール

正規分布に従うデータでは:

  • 68% のデータが 平均±1標準偏差 の範囲
  • 95% のデータが 平均±2標準偏差 の範囲
  • 99.7% のデータが 平均±3標準偏差 の範囲

実例:身長データ

男性身長:平均170cm、標準偏差6cm

68%の男性:164cm~176cm
95%の男性:158cm~182cm
99.7%の男性:152cm~188cm

分散・標準偏差の注意点

1. 外れ値の影響

分散・標準偏差は外れ値に非常に敏感です。

通常データ:70, 75, 80, 85, 90
標準偏差:7.07

外れ値ありデータ:70, 75, 80, 85, 150
標準偏差:31.62

外れ値1個で標準偏差が4倍以上に!

2. 分布の形の影響

標準偏差は正規分布で最も意味を持ちます。歪んだ分布では:

  • 68-95-99.7ルールが当てはまらない
  • 四分位範囲などの代替指標を検討

3. 単位の問題

分散は元データの単位の2乗になるため:

  • 身長データ(cm) → 分散の単位はcm²
  • 直感的理解が困難
  • 標準偏差を使う方が実用的

実践:ばらつきの分析

ケーススタディ:2つの販売店の比較

店舗A:1週間の日別売上(万円) 月:50, 火:45, 水:55, 木:48, 金:52, 土:60, 日:40

店舗B:1週間の日別売上(万円)
月:30, 火:35, 水:45, 木:60, 金:70, 土:80, 日:30

分析結果

店舗A:
平均:50万円
標準偏差:6.38万円
変動係数:12.8%

店舗B:
平均:50万円  
標準偏差:20.0万円
変動係数:40.0%

結論

  • 平均売上は同じだが、店舗Bの方が売上変動が大きい
  • 店舗Aの方が安定した経営
  • 店舗Bは曜日による売上格差が大きい

まとめ

分散と標準偏差は、データの「ばらつき」を数値化する重要な統計量です。平均値と合わせて使うことで、データの全体像をより正確に把握できます。

今日のポイント

✅ 分散:平均からの距離の2乗の平均
✅ 標準偏差:分散の平方根、元データと同じ単位
✅ 標本分散:分母は(n-1)で母分散を正確に推定
✅ 変動係数:異なるスケールのデータのばらつき比較
✅ 68-95-99.7ルール:正規分布での標準偏差の活用

次回は「データの視覚化」について学びます。ヒストグラムの作成方法から、分布の形の読み取り方まで、データを「見える化」する技術を身につけましょう!

タグ

-統計学基礎