目次
はじめに
前回は「平均値」の奥深い世界を学びましたが、データの特徴を表す代表値は平均だけではありません。「中央値」と「最頻値」という、平均とは全く異なる性質を持つ代表値があるんです。
例えば、「日本人の平均年収は約440万円」と聞いても、実際に440万円前後の年収の人はそれほど多くないかもしれません。なぜなら、一部の高収入者が平均を押し上げているからです。こんな時、「真ん中の人の年収」や「最も多い年収帯」を知る方が、実態をよく表していることがあります。
今日は、データの「真ん中」を表す中央値と、「最も多い値」を表す最頻値について、その計算方法から使い分けまで詳しく学んでいきましょう。
中央値:データの「真ん中」
中央値とは何か
**中央値(メディアン)**は、データを大小順に並べた時に、ちょうど真ん中に位置する値です。データ全体を「下半分」と「上半分」に分ける境界線と考えてください。
中央値の計算方法
データの個数が奇数個の場合
例:テストの点数(5人)
生データ:82, 67, 91, 75, 88
1. 大小順に並べる:67, 75, 82, 88, 91
2. 真ん中(3番目)の値:82点
中央値 = 82点
データの個数が偶数個の場合
例:テストの点数(6人)
生データ:82, 67, 91, 75, 88, 79
1. 大小順に並べる:67, 75, 79, 82, 88, 91
2. 真ん中2つ(3番目と4番目)の平均:(79 + 82) ÷ 2 = 80.5点
中央値 = 80.5点
中央値の特徴
長所
- 外れ値に影響されにくい
- 分布の形に関係なく計算できる
- 直感的に理解しやすい(「真ん中の人」)
短所
- すべてのデータの値を活用していない
- 数学的操作(加減乗除)には向かない
身近な例:年収の中央値
10人の年収データ(万円):
300, 350, 380, 400, 450, 480, 520, 600, 800, 3000
算術平均:728万円(高所得者の影響)
中央値:465万円(6番目と7番目の平均)
「平均年収728万円」よりも「年収中央値465万円」の方が、一般的な年収を表していますね。
最頻値:最も「人気」な値
最頻値とは何か
**最頻値(モード)**は、データの中で最も頻繁に現れる値です。「一番人気の値」と考えると分かりやすいでしょう。
最頻値の見つけ方
例:靴のサイズ販売データ
サイズ | 販売数 |
---|---|
23.0cm | 5足 |
23.5cm | 8足 |
24.0cm | 15足 |
24.5cm | 12足 |
25.0cm | 7足 |
25.5cm | 3足 |
最頻値 = 24.0cm(最も多く売れたサイズ)
最頻値の種類
1. 単峰性(モードが1つ) 上記の靴のサイズのように、1つの値が明確に最も多い場合
2. 二峰性(モードが2つ)
例:通勤ラッシュの電車利用者数
7:30 → 150人
8:00 → 250人(朝のピーク)
8:30 → 180人
17:30 → 120人
18:00 → 240人(夕方のピーク)
18:30 → 200人
モード:8:00と18:00(2つのピーク)
3. 多峰性(モードが3つ以上) 複数の値が同じ頻度で最大値を取る場合
4. モードなし すべての値の頻度が同じ場合
最頻値の特徴
長所
- 名義尺度でも使用可能(唯一の代表値)
- 実際に存在するデータ値
- 「最も典型的」な値を表す
短所
- データによってはモードが存在しない
- 複数のモードが存在することがある
- 計算には使いにくい
代表値の比較
3つの代表値の関係
分布の形によって、平均値・中央値・最頻値の位置関係が変わります。
正規分布(左右対称)
最頻値 = 中央値 = 平均値
右に歪んだ分布(正の歪み)
最頻値 < 中央値 < 平均値
例:年収分布
- 最頻値:350万円(最も多い年収帯)
- 中央値:400万円(真ん中の人の年収)
- 平均値:500万円(高所得者に引っ張られる)
左に歪んだ分布(負の歪み)
平均値 < 中央値 < 最頻値
例:試験の点数分布(難易度が低い場合)
- 平均値:82点(少数の低得点者に引っ張られる)
- 中央値:88点
- 最頻値:95点(最も多い得点)
分布の形による代表値の選び方
正規分布に近い場合
特徴:左右対称、釣鐘型 適切な代表値:平均値 理由:3つの代表値がほぼ同じ値になり、平均値が最も効率的
例:身長データ
男性の身長(成人)は正規分布に近い
→ 平均身長が最も適切な代表値
右に歪んだ分布の場合
特徴:少数の極端に大きい値が存在 適切な代表値:中央値 理由:平均値は外れ値に引っ張られ、実態を表さない
例:
- 年収・資産
- 企業の売上
- ウェブサイトのアクセス数
- 都市の人口
左に歪んだ分布の場合
特徴:少数の極端に小さい値が存在 適切な代表値:中央値または最頻値 理由:平均値は低い方に引っ張られる
例:
- 製品の寿命(多くは長持ち、一部は早期故障)
- 試験の高得点分布
- 反応時間(多くは短時間、一部は遅延)
名義尺度データの場合
唯一の選択肢:最頻値 理由:順序や数値計算に意味がないため
例:
- 好きな色:赤、青、緑、黄...
- 血液型:A、B、O、AB
- 出身地:東京、大阪、名古屋...
実践的な使い分け
ケーススタディ1:不動産価格
マンション価格(万円):
2800, 3200, 3500, 3800, 4000, 4200, 4500, 8000
算術平均:4250万円
中央値:3900万円
最頻値:なし(すべて異なる)
結論:中央値(3900万円)が「一般的な価格」を最もよく表す
ケーススタディ2:レストランの評価
★の評価分布:
★☆☆☆☆:2件
★★☆☆☆:5件
★★★☆☆:8件
★★★★☆:25件
★★★★★:10件
平均:3.72★
中央値:4★
最頻値:4★
結論:最頻値(4★)が「最も典型的な評価」を表す
ケーススタディ3:通勤時間
通勤時間(分):
20, 25, 30, 30, 35, 35, 35, 40, 45, 90
平均:38.5分
中央値:35分
最頻値:35分
結論:中央値または最頻値(35分)が実態に近い
代表値選択のガイドライン
目的別の選び方
目的 | 適切な代表値 | 理由 |
---|---|---|
予算計画 | 平均値 | 総額の計算に必要 |
一般的な値を知りたい | 中央値 | 外れ値の影響を避ける |
最も典型的な値 | 最頻値 | 実際に多く存在する値 |
数学的計算 | 平均値 | 加減乗除が可能 |
データの性質別の選び方
データの性質 | 第1選択 | 第2選択 |
---|---|---|
正規分布 | 平均値 | 中央値 |
右歪み | 中央値 | 最頻値 |
左歪み | 中央値 | 最頻値 |
名義尺度 | 最頻値 | なし |
外れ値あり | 中央値 | 最頻値 |
複数の代表値を同時に報告する
実際の分析では、複数の代表値を同時に報告することで、データの特徴をより正確に伝えることができます。
報告例
「当社の従業員年収について分析した結果:
- 平均年収:520万円
- 年収中央値:450万円
- 最頻年収帯:400-450万円
平均値が中央値より高いことから、一部の高収入者により
平均が押し上げられていることが分かります。
一般的な従業員の年収は450万円程度と考えられます。」
まとめ
代表値は「平均だけ」では不十分です。データの性質と分析の目的に応じて、中央値や最頻値を適切に使い分けることが重要です。
今日のポイント
✅ 中央値:データの真ん中、外れ値に強い
✅ 最頻値:最も頻繁な値、名義尺度でも使用可能
✅ 分布の形:歪みがある場合は中央値が適切
✅ 複数報告:複数の代表値で全体像を把握
✅ 目的に応じた選択:予算計画なら平均、実態把握なら中央値
次回は「分散と標準偏差」について学びます。データの「ばらつき」を数値化する方法と、その実践的な活用法を詳しく解説していきます!