統計学基礎

第3回:平均値の奥深い世界

はじめに

「平均」と聞いて、多くの人が思い浮かべるのは「全部足して個数で割る」という計算方法でしょう。でも実は、「平均」には複数の種類があり、状況によって使い分ける必要があるんです。

例えば、「投資の平均利回り」「車の平均速度」「クラスの平均点」では、それぞれ異なる平均の計算方法が適している場合があります。また、クラスに一人だけ100点満点のテストで300点(不正解答)を取った生徒がいたら、クラス全体の平均は大きく歪んでしまいますよね。

今回は、私たちが普段何気なく使っている「平均」の奥深い世界を探検し、どんな時にどの平均を使うべきか、そして平均値の限界について学んでいきましょう。

3つの主要な平均

算術平均(いつもの平均)

算術平均は、私たちが最もよく知っている「普通の平均」です。すべての値を足して、データの個数で割ります。

計算式

算術平均 = (データの合計) ÷ (データの個数)

身近な例:クラスのテスト結果

5人のテスト結果:80点、85点、90点、75点、70点
算術平均 = (80 + 85 + 90 + 75 + 70) ÷ 5 = 400 ÷ 5 = 80点

算術平均が適している場面

  • テストの平均点
  • 平均身長・平均体重
  • 平均気温
  • 一般的な集計・比較

幾何平均(成長率や比率の平均)

幾何平均は、比率や成長率のデータに適した平均です。掛け算の関係にあるデータで真の中心を表します。

計算式

幾何平均 = n個のデータの積のn乗根
        = (データ1 × データ2 × ... × データn)^(1/n)

身近な例:投資の年平均成長率

3年間の投資成果:

  • 1年目:+10%(1.10倍)
  • 2年目:+20%(1.20倍)
  • 3年目:-5%(0.95倍)
算術平均を使うと:
(10% + 20% + (-5%)) ÷ 3 = 8.33%

幾何平均を使うと:
(1.10 × 1.20 × 0.95)^(1/3) = (1.254)^(1/3) = 1.078
→ 年平均成長率:7.8%

実際の計算確認

  • 100万円 × 1.10 × 1.20 × 0.95 = 125.4万円
  • 100万円 × (1.078)³ = 125.2万円

幾何平均の方が実際の成果により近い値を示します!

幾何平均が適している場面

  • 投資の平均リターン
  • 人口増加率
  • インフレ率
  • 細菌の増殖率

調和平均(速度や効率の平均)

調和平均は、比率や速度のような「単位時間あたり」のデータに適した平均です。

計算式

調和平均 = データの個数 ÷ (各データの逆数の合計)
        = n ÷ (1/データ1 + 1/データ2 + ... + 1/データn)

身近な例:往復の平均速度

家から学校まで:

  • 行き:時速60km(1km走るのに1分)
  • 帰り:時速30km(1km走るのに2分)
算術平均を使うと:
(60 + 30) ÷ 2 = 45km/h

調和平均を使うと:
2 ÷ (1/60 + 1/30) = 2 ÷ (1/60 + 2/60) = 2 ÷ (3/60) = 40km/h

実際の確認 距離6kmの場合:

  • 行き:6km ÷ 60km/h = 0.1時間(6分)
  • 帰り:6km ÷ 30km/h = 0.2時間(12分)
  • 合計:12km ÷ 0.3時間 = 40km/h

調和平均が正しい平均速度を示します!

調和平均が適している場面

  • 往復の平均速度
  • 作業効率の平均
  • 電気回路の並列抵抗
  • 価格の平均(株式投資のドルコスト平均法)

3つの平均の関係

一般的に、同じデータに対して「調和平均 ≤ 幾何平均 ≤ 算術平均」の関係が成り立ちます。

具体例で確認 データ:2, 8

算術平均:(2 + 8) ÷ 2 = 5.0
幾何平均:√(2 × 8) = √16 = 4.0  
調和平均:2 ÷ (1/2 + 1/8) = 2 ÷ (5/8) = 3.2

結果:3.2 ≤ 4.0 ≤ 5.0

この関係は「平均の不等式」として数学的に証明されています。

外れ値に対する頑健性

外れ値とは何か

外れ値(アウトライアー)とは、他のデータから大きく外れた極端な値のことです。

身近な例:年収データ

一般社員5人の年収:
400万円、450万円、380万円、420万円、350万円
→ 算術平均:400万円

ここに社長(年収3000万円)が加わると:
400, 450, 380, 420, 350, 3000万円
→ 算術平均:833万円

たった一人のデータで平均が2倍以上になってしまいました!

各平均の外れ値への影響

平均の種類外れ値への影響頑健性
算術平均非常に大きい低い
幾何平均大きい中程度
調和平均小さい高い

実際の比較 データ:1, 2, 3, 4, 100(100が外れ値)

算術平均:(1+2+3+4+100) ÷ 5 = 22.0
幾何平均:(1×2×3×4×100)^(1/5) = (2400)^(1/5) = 4.7
調和平均:5 ÷ (1/1+1/2+1/3+1/4+1/100) = 5 ÷ 2.35 = 2.1

調和平均が最も外れ値の影響を受けにくいことが分かります。

外れ値対策

1. 中央値の活用 中央値は外れ値に対して非常に頑健です。

上記の年収例:350, 380, 400, 420, 450, 3000万円

  • 算術平均:833万円
  • 中央値:410万円(3番目と4番目の平均)

2. トリム平均(刈り込み平均) 上下の極端な値を除外してから平均を計算:

元データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 100
20%トリム平均:上下20%(2個ずつ)を除外
→ 3, 4, 5, 6, 7, 8の平均 = 5.5

3. ウィンザー化 極端な値を一定の値に置き換える方法。

平均値が意味を持つ条件

条件1:データの性質を理解する

データの尺度(前回学習)によって、使える平均が決まります。

データの尺度使える平均
名義尺度最頻値のみ
順序尺度中央値(平均は厳密には不適切)
間隔尺度算術平均
比例尺度算術平均、幾何平均、調和平均

条件2:分布の形を考慮する

正規分布に近い場合 算術平均が最も適切で、平均値=中央値≒最頻値

右に歪んだ分布(年収、資産など)

例:年収分布
多くの人:300-600万円
少数の人:数千万円~億円
→ 平均 > 中央値

この場合、中央値の方が「一般的な年収」を表します。

左に歪んだ分布(寿命、試験の点数など)

例:製品の寿命
多くの製品:長持ち
少数の製品:早期故障
→ 平均 < 中央値

条件3:目的に応じた平均の選択

予算配分を考える場合 → 算術平均(総額を人数で割る)

成長率を評価する場合
→ 幾何平均(複利効果を考慮)

効率や速度を評価する場合 → 調和平均(時間の重み付け)

代表的な値を知りたい場合 → 中央値(外れ値の影響を避ける)

実践:適切な平均を選ぼう

ケーススタディ1:マラソンの記録

あるマラソン大会の記録(分:秒): 180:30, 185:15, 190:45, 195:20, 200:10, 280:30

問題:代表的な記録は?

分析

  • 算術平均:205:15(8人目の選手の影響で遅くなりすぎ)
  • 中央値:192:52(より代表的)

結論:中央値が適切

ケーススタディ2:投資ファンドの成績

3年間のリターン:+15%, -5%, +8%

問題:年平均リターンは?

分析

  • 算術平均:6.0%
  • 幾何平均:(1.15 × 0.95 × 1.08)^(1/3) - 1 = 5.8%

結論:幾何平均が実際の複利効果を反映

ケーススタディ3:通勤時間

往復の通勤:

  • 朝(混雑):時速20km
  • 夜(空いている):時速40km

問題:平均速度は?

分析

  • 算術平均:30km/h
  • 調和平均:26.7km/h

結論:調和平均が実際の平均速度

よくある間違いと注意点

間違い1:パーセンテージの算術平均

❌ 間違い:
年度別成長率:+10%, +20%, -5%
平均成長率:(10+20-5) ÷ 3 = 8.33%

✅ 正しい:
幾何平均:(1.10×1.20×0.95)^(1/3) - 1 = 7.8%

間違い2:比率データの平均

❌ 間違い:
燃費データ:15km/L, 20km/L, 25km/L
平均:20km/L

✅ より正確:
調和平均を考慮すべき場合もある

間違い3:外れ値の無視

外れ値を見つけたら:

  1. データエラーかチェック
  2. 意味のある外れ値か判断
  3. 適切な統計量を選択

まとめ

「平均」は一つではありません。データの性質と分析の目的に応じて、適切な平均を選択することが重要です。

今日のポイント

✅ 算術平均:一般的な平均、外れ値に弱い
✅ 幾何平均:成長率や比率データに適している
✅ 調和平均:速度や効率データに適している
✅ 外れ値の影響:調和平均 < 幾何平均 < 算術平均
✅ 中央値:外れ値に頑健な代表値

次回は「中央値と最頻値」について詳しく学びます。平均値以外の代表値がなぜ重要なのか、どんな時に使い分けるべきかを、実例とともに解説していきます!

タグ

-統計学基礎