目次
はじめに
「平均」と聞いて、多くの人が思い浮かべるのは「全部足して個数で割る」という計算方法でしょう。でも実は、「平均」には複数の種類があり、状況によって使い分ける必要があるんです。
例えば、「投資の平均利回り」「車の平均速度」「クラスの平均点」では、それぞれ異なる平均の計算方法が適している場合があります。また、クラスに一人だけ100点満点のテストで300点(不正解答)を取った生徒がいたら、クラス全体の平均は大きく歪んでしまいますよね。
今回は、私たちが普段何気なく使っている「平均」の奥深い世界を探検し、どんな時にどの平均を使うべきか、そして平均値の限界について学んでいきましょう。
3つの主要な平均
算術平均(いつもの平均)
算術平均は、私たちが最もよく知っている「普通の平均」です。すべての値を足して、データの個数で割ります。
計算式
算術平均 = (データの合計) ÷ (データの個数)
身近な例:クラスのテスト結果
5人のテスト結果:80点、85点、90点、75点、70点
算術平均 = (80 + 85 + 90 + 75 + 70) ÷ 5 = 400 ÷ 5 = 80点
算術平均が適している場面
- テストの平均点
- 平均身長・平均体重
- 平均気温
- 一般的な集計・比較
幾何平均(成長率や比率の平均)
幾何平均は、比率や成長率のデータに適した平均です。掛け算の関係にあるデータで真の中心を表します。
計算式
幾何平均 = n個のデータの積のn乗根
= (データ1 × データ2 × ... × データn)^(1/n)
身近な例:投資の年平均成長率
3年間の投資成果:
- 1年目:+10%(1.10倍)
- 2年目:+20%(1.20倍)
- 3年目:-5%(0.95倍)
算術平均を使うと:
(10% + 20% + (-5%)) ÷ 3 = 8.33%
幾何平均を使うと:
(1.10 × 1.20 × 0.95)^(1/3) = (1.254)^(1/3) = 1.078
→ 年平均成長率:7.8%
実際の計算確認
- 100万円 × 1.10 × 1.20 × 0.95 = 125.4万円
- 100万円 × (1.078)³ = 125.2万円
幾何平均の方が実際の成果により近い値を示します!
幾何平均が適している場面
- 投資の平均リターン
- 人口増加率
- インフレ率
- 細菌の増殖率
調和平均(速度や効率の平均)
調和平均は、比率や速度のような「単位時間あたり」のデータに適した平均です。
計算式
調和平均 = データの個数 ÷ (各データの逆数の合計)
= n ÷ (1/データ1 + 1/データ2 + ... + 1/データn)
身近な例:往復の平均速度
家から学校まで:
- 行き:時速60km(1km走るのに1分)
- 帰り:時速30km(1km走るのに2分)
算術平均を使うと:
(60 + 30) ÷ 2 = 45km/h
調和平均を使うと:
2 ÷ (1/60 + 1/30) = 2 ÷ (1/60 + 2/60) = 2 ÷ (3/60) = 40km/h
実際の確認 距離6kmの場合:
- 行き:6km ÷ 60km/h = 0.1時間(6分)
- 帰り:6km ÷ 30km/h = 0.2時間(12分)
- 合計:12km ÷ 0.3時間 = 40km/h
調和平均が正しい平均速度を示します!
調和平均が適している場面
- 往復の平均速度
- 作業効率の平均
- 電気回路の並列抵抗
- 価格の平均(株式投資のドルコスト平均法)
3つの平均の関係
一般的に、同じデータに対して「調和平均 ≤ 幾何平均 ≤ 算術平均」の関係が成り立ちます。
具体例で確認 データ:2, 8
算術平均:(2 + 8) ÷ 2 = 5.0
幾何平均:√(2 × 8) = √16 = 4.0
調和平均:2 ÷ (1/2 + 1/8) = 2 ÷ (5/8) = 3.2
結果:3.2 ≤ 4.0 ≤ 5.0
この関係は「平均の不等式」として数学的に証明されています。
外れ値に対する頑健性
外れ値とは何か
外れ値(アウトライアー)とは、他のデータから大きく外れた極端な値のことです。
身近な例:年収データ
一般社員5人の年収:
400万円、450万円、380万円、420万円、350万円
→ 算術平均:400万円
ここに社長(年収3000万円)が加わると:
400, 450, 380, 420, 350, 3000万円
→ 算術平均:833万円
たった一人のデータで平均が2倍以上になってしまいました!
各平均の外れ値への影響
平均の種類 | 外れ値への影響 | 頑健性 |
---|---|---|
算術平均 | 非常に大きい | 低い |
幾何平均 | 大きい | 中程度 |
調和平均 | 小さい | 高い |
実際の比較 データ:1, 2, 3, 4, 100(100が外れ値)
算術平均:(1+2+3+4+100) ÷ 5 = 22.0
幾何平均:(1×2×3×4×100)^(1/5) = (2400)^(1/5) = 4.7
調和平均:5 ÷ (1/1+1/2+1/3+1/4+1/100) = 5 ÷ 2.35 = 2.1
調和平均が最も外れ値の影響を受けにくいことが分かります。
外れ値対策
1. 中央値の活用 中央値は外れ値に対して非常に頑健です。
上記の年収例:350, 380, 400, 420, 450, 3000万円
- 算術平均:833万円
- 中央値:410万円(3番目と4番目の平均)
2. トリム平均(刈り込み平均) 上下の極端な値を除外してから平均を計算:
元データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 100
20%トリム平均:上下20%(2個ずつ)を除外
→ 3, 4, 5, 6, 7, 8の平均 = 5.5
3. ウィンザー化 極端な値を一定の値に置き換える方法。
平均値が意味を持つ条件
条件1:データの性質を理解する
データの尺度(前回学習)によって、使える平均が決まります。
データの尺度 | 使える平均 |
---|---|
名義尺度 | 最頻値のみ |
順序尺度 | 中央値(平均は厳密には不適切) |
間隔尺度 | 算術平均 |
比例尺度 | 算術平均、幾何平均、調和平均 |
条件2:分布の形を考慮する
正規分布に近い場合 算術平均が最も適切で、平均値=中央値≒最頻値
右に歪んだ分布(年収、資産など)
例:年収分布
多くの人:300-600万円
少数の人:数千万円~億円
→ 平均 > 中央値
この場合、中央値の方が「一般的な年収」を表します。
左に歪んだ分布(寿命、試験の点数など)
例:製品の寿命
多くの製品:長持ち
少数の製品:早期故障
→ 平均 < 中央値
条件3:目的に応じた平均の選択
予算配分を考える場合 → 算術平均(総額を人数で割る)
成長率を評価する場合
→ 幾何平均(複利効果を考慮)
効率や速度を評価する場合 → 調和平均(時間の重み付け)
代表的な値を知りたい場合 → 中央値(外れ値の影響を避ける)
実践:適切な平均を選ぼう
ケーススタディ1:マラソンの記録
あるマラソン大会の記録(分:秒): 180:30, 185:15, 190:45, 195:20, 200:10, 280:30
問題:代表的な記録は?
分析:
- 算術平均:205:15(8人目の選手の影響で遅くなりすぎ)
- 中央値:192:52(より代表的)
結論:中央値が適切
ケーススタディ2:投資ファンドの成績
3年間のリターン:+15%, -5%, +8%
問題:年平均リターンは?
分析:
- 算術平均:6.0%
- 幾何平均:(1.15 × 0.95 × 1.08)^(1/3) - 1 = 5.8%
結論:幾何平均が実際の複利効果を反映
ケーススタディ3:通勤時間
往復の通勤:
- 朝(混雑):時速20km
- 夜(空いている):時速40km
問題:平均速度は?
分析:
- 算術平均:30km/h
- 調和平均:26.7km/h
結論:調和平均が実際の平均速度
よくある間違いと注意点
間違い1:パーセンテージの算術平均
❌ 間違い:
年度別成長率:+10%, +20%, -5%
平均成長率:(10+20-5) ÷ 3 = 8.33%
✅ 正しい:
幾何平均:(1.10×1.20×0.95)^(1/3) - 1 = 7.8%
間違い2:比率データの平均
❌ 間違い:
燃費データ:15km/L, 20km/L, 25km/L
平均:20km/L
✅ より正確:
調和平均を考慮すべき場合もある
間違い3:外れ値の無視
外れ値を見つけたら:
- データエラーかチェック
- 意味のある外れ値か判断
- 適切な統計量を選択
まとめ
「平均」は一つではありません。データの性質と分析の目的に応じて、適切な平均を選択することが重要です。
今日のポイント
✅ 算術平均:一般的な平均、外れ値に弱い
✅ 幾何平均:成長率や比率データに適している
✅ 調和平均:速度や効率データに適している
✅ 外れ値の影響:調和平均 < 幾何平均 < 算術平均
✅ 中央値:外れ値に頑健な代表値
次回は「中央値と最頻値」について詳しく学びます。平均値以外の代表値がなぜ重要なのか、どんな時に使い分けるべきかを、実例とともに解説していきます!