統計学基礎

第4回:中央値と最頻値 - 平均以外の代表値

こんにちは、シラスです。

前回は「平均値」について学びましたが、最後に少し怖い話をしましたね。
「平均値は、たった一人の大富豪がいるだけで跳ね上がってしまう」という話です。

🤔 よくあるニュースの疑問

「日本人の平均年収は約460万円」
これを聞いて「そんなに貰ってる人、周りに多くないけど…?」と感じたことはありませんか?

その違和感は正解です。実はこの場合、平均値よりも「もっと適切な数字」があるんです。

今回は、平均値の弱点を補う最強のパートナー、「中央値」「最頻値」について解説します。

1. 中央値(メディアン):真ん中の人

中央値とは、その名の通り「データを順に並べたとき、ど真ん中に来る値」のことです。
データ全体を「上半分」と「下半分」に分ける境界線になります。

計算方法:奇数と偶数で違う!

奇数個(5人)の場合

順に並べて…

67, 75, 82, 88, 91

中央値 = 82点

真ん中の数字をそのまま採用!

偶数個(6人)の場合

順に並べて…

67, 75, 79, 82, 88, 91

(79 + 82) ÷ 2 = 80.5点

真ん中2つの平均をとる!

✅ 中央値のメリット:外れ値に強い

年収データ:300, 350, 380, 400, 3000(社長) 万円
・平均値:846万円(社長に引っ張られる)
・中央値:380万円(実感に近い!)

2. 最頻値(モード):一番人気

最頻値は、「最も頻繁に登場する値」です。
多数決で1位になったもの、と考えると分かりやすいですね。

例:靴のサイズ販売数

23.5cm24.0cm24.5cm25.0cm
8足15足12足7足

最頻値 = 24.0cm (最も売れたサイズ)

💡 ポイント

「平均サイズは24.32cmです」と言われても靴は作れませんよね。
商品の仕入れや、「好きな色」のような数字ではないデータ(名義尺度)の時は、最頻値が活躍します。

3. データの形で使い分ける!

データの分布(ヒストグラム)の形によって、平均値・中央値・最頻値の位置関係が変わります。
ここが一番重要なポイントです!

① 右に歪んだ分布(年収・貯蓄など)

少数の「超・大金持ち」が右側に長く裾を引いている状態です。

最頻値 < 中央値 < 平均値

平均値が右(高い方)に引っ張られます。
この場合、実態を表すのは「中央値」「最頻値」です。

② 左に歪んだ分布(簡単なテストなど)

みんな高得点で、少数の人だけ0点に近いような状態です。

平均値 < 中央値 < 最頻値

平均値が左(低い方)に引っ張られます。
「平均点とったけど、順位は真ん中より下だった…」という現象はこれで起きます。

4. 実践:どれを使うべき?

最後に、ケーススタディで実践力をつけましょう。

ケース1:マンションの価格

2800万, 3500万, 4000万... と続き、一つだけ8億円の物件がある。


✅ 正解:中央値

8億円は明らかな外れ値。平均を使うと高くなりすぎます。「一般的な価格」を知りたいなら中央値です。

ケース2:レストランの評価(★1〜5)

★1:2件、★2:5件、★3:8件、★4:25件、★5:10件


✅ 正解:最頻値

平均3.72点と言うより、「★4をつける人が一番多い」と言ったほうが、お店の評判が伝わります。

まとめ

中央値:データの真ん中。外れ値(極端な値)に強い。
最頻値:一番人気の値。サイズや評価などに使う。
分布が歪んでいる時:平均値よりも中央値の方が実態に近いことが多い。
賢い報告:平均値だけでなく、中央値も併記することでデータの信頼性が上がる。

これで「代表値(平均・中央・最頻)」の3つが揃いました!
しかし、代表値だけでは分からないことがあります。

それは「データのばらつき」です。
平均点が同じ80点のクラスでも、「全員80点」なのか「100点と60点ばかり」なのかで状況は全く違いますよね。

次回は、データの散らばり具合を数値化する「分散」「標準偏差」について解説します!

タグ

-統計学基礎