統計学基礎

第4回:中央値と最頻値 - 平均以外の代表値

はじめに

前回は「平均値」の奥深い世界を学びましたが、データの特徴を表す代表値は平均だけではありません。「中央値」と「最頻値」という、平均とは全く異なる性質を持つ代表値があるんです。

例えば、「日本人の平均年収は約440万円」と聞いても、実際に440万円前後の年収の人はそれほど多くないかもしれません。なぜなら、一部の高収入者が平均を押し上げているからです。こんな時、「真ん中の人の年収」や「最も多い年収帯」を知る方が、実態をよく表していることがあります。

今日は、データの「真ん中」を表す中央値と、「最も多い値」を表す最頻値について、その計算方法から使い分けまで詳しく学んでいきましょう。

中央値:データの「真ん中」

中央値とは何か

**中央値(メディアン)**は、データを大小順に並べた時に、ちょうど真ん中に位置する値です。データ全体を「下半分」と「上半分」に分ける境界線と考えてください。

中央値の計算方法

データの個数が奇数個の場合

例:テストの点数(5人)
生データ:82, 67, 91, 75, 88

1. 大小順に並べる:67, 75, 82, 88, 91
2. 真ん中(3番目)の値:82点

中央値 = 82点

データの個数が偶数個の場合

例:テストの点数(6人)
生データ:82, 67, 91, 75, 88, 79

1. 大小順に並べる:67, 75, 79, 82, 88, 91
2. 真ん中2つ(3番目と4番目)の平均:(79 + 82) ÷ 2 = 80.5点

中央値 = 80.5点

中央値の特徴

長所

  • 外れ値に影響されにくい
  • 分布の形に関係なく計算できる
  • 直感的に理解しやすい(「真ん中の人」)

短所

  • すべてのデータの値を活用していない
  • 数学的操作(加減乗除)には向かない

身近な例:年収の中央値

10人の年収データ(万円):
300, 350, 380, 400, 450, 480, 520, 600, 800, 3000

算術平均:728万円(高所得者の影響)
中央値:465万円(6番目と7番目の平均)

「平均年収728万円」よりも「年収中央値465万円」の方が、一般的な年収を表していますね。

最頻値:最も「人気」な値

最頻値とは何か

**最頻値(モード)**は、データの中で最も頻繁に現れる値です。「一番人気の値」と考えると分かりやすいでしょう。

最頻値の見つけ方

例:靴のサイズ販売データ

サイズ販売数
23.0cm5足
23.5cm8足
24.0cm15足
24.5cm12足
25.0cm7足
25.5cm3足

最頻値 = 24.0cm(最も多く売れたサイズ)

最頻値の種類

1. 単峰性(モードが1つ) 上記の靴のサイズのように、1つの値が明確に最も多い場合

2. 二峰性(モードが2つ)

例:通勤ラッシュの電車利用者数
7:30 → 150人
8:00 → 250人(朝のピーク)
8:30 → 180人
17:30 → 120人
18:00 → 240人(夕方のピーク)
18:30 → 200人

モード:8:00と18:00(2つのピーク)

3. 多峰性(モードが3つ以上) 複数の値が同じ頻度で最大値を取る場合

4. モードなし すべての値の頻度が同じ場合

最頻値の特徴

長所

  • 名義尺度でも使用可能(唯一の代表値)
  • 実際に存在するデータ値
  • 「最も典型的」な値を表す

短所

  • データによってはモードが存在しない
  • 複数のモードが存在することがある
  • 計算には使いにくい

代表値の比較

3つの代表値の関係

分布の形によって、平均値・中央値・最頻値の位置関係が変わります。

正規分布(左右対称)

最頻値 = 中央値 = 平均値

右に歪んだ分布(正の歪み)

最頻値 < 中央値 < 平均値

例:年収分布
- 最頻値:350万円(最も多い年収帯)
- 中央値:400万円(真ん中の人の年収)
- 平均値:500万円(高所得者に引っ張られる)

左に歪んだ分布(負の歪み)

平均値 < 中央値 < 最頻値

例:試験の点数分布(難易度が低い場合)
- 平均値:82点(少数の低得点者に引っ張られる)
- 中央値:88点
- 最頻値:95点(最も多い得点)

分布の形による代表値の選び方

正規分布に近い場合

特徴:左右対称、釣鐘型 適切な代表値:平均値 理由:3つの代表値がほぼ同じ値になり、平均値が最も効率的

例:身長データ
男性の身長(成人)は正規分布に近い
→ 平均身長が最も適切な代表値

右に歪んだ分布の場合

特徴:少数の極端に大きい値が存在 適切な代表値:中央値 理由:平均値は外れ値に引っ張られ、実態を表さない

例:
- 年収・資産
- 企業の売上
- ウェブサイトのアクセス数
- 都市の人口

左に歪んだ分布の場合

特徴:少数の極端に小さい値が存在 適切な代表値:中央値または最頻値 理由:平均値は低い方に引っ張られる

例:
- 製品の寿命(多くは長持ち、一部は早期故障)
- 試験の高得点分布
- 反応時間(多くは短時間、一部は遅延)

名義尺度データの場合

唯一の選択肢:最頻値 理由:順序や数値計算に意味がないため

例:
- 好きな色:赤、青、緑、黄...
- 血液型:A、B、O、AB
- 出身地:東京、大阪、名古屋...

実践的な使い分け

ケーススタディ1:不動産価格

マンション価格(万円):
2800, 3200, 3500, 3800, 4000, 4200, 4500, 8000

算術平均:4250万円
中央値:3900万円
最頻値:なし(すべて異なる)

結論:中央値(3900万円)が「一般的な価格」を最もよく表す

ケーススタディ2:レストランの評価

★の評価分布:
★☆☆☆☆:2件
★★☆☆☆:5件
★★★☆☆:8件
★★★★☆:25件
★★★★★:10件

平均:3.72★
中央値:4★
最頻値:4★

結論:最頻値(4★)が「最も典型的な評価」を表す

ケーススタディ3:通勤時間

通勤時間(分):
20, 25, 30, 30, 35, 35, 35, 40, 45, 90

平均:38.5分
中央値:35分
最頻値:35分

結論:中央値または最頻値(35分)が実態に近い

代表値選択のガイドライン

目的別の選び方

目的適切な代表値理由
予算計画平均値総額の計算に必要
一般的な値を知りたい中央値外れ値の影響を避ける
最も典型的な値最頻値実際に多く存在する値
数学的計算平均値加減乗除が可能

データの性質別の選び方

データの性質第1選択第2選択
正規分布平均値中央値
右歪み中央値最頻値
左歪み中央値最頻値
名義尺度最頻値なし
外れ値あり中央値最頻値

複数の代表値を同時に報告する

実際の分析では、複数の代表値を同時に報告することで、データの特徴をより正確に伝えることができます。

報告例

「当社の従業員年収について分析した結果:
- 平均年収:520万円
- 年収中央値:450万円  
- 最頻年収帯:400-450万円

平均値が中央値より高いことから、一部の高収入者により
平均が押し上げられていることが分かります。
一般的な従業員の年収は450万円程度と考えられます。」

まとめ

代表値は「平均だけ」では不十分です。データの性質と分析の目的に応じて、中央値や最頻値を適切に使い分けることが重要です。

今日のポイント

✅ 中央値:データの真ん中、外れ値に強い
✅ 最頻値:最も頻繁な値、名義尺度でも使用可能
✅ 分布の形:歪みがある場合は中央値が適切
✅ 複数報告:複数の代表値で全体像を把握
✅ 目的に応じた選択:予算計画なら平均、実態把握なら中央値

次回は「分散と標準偏差」について学びます。データの「ばらつき」を数値化する方法と、その実践的な活用法を詳しく解説していきます!

タグ

-統計学基礎