目次
はじめに
前回は統計学が身近なものであることを学びました。今回は、統計学を学ぶ上で絶対に欠かせない「データの種類」について詳しく見ていきましょう。
「データはデータでしょ?」と思うかもしれませんが、実はデータには4つの異なるタイプがあり、それぞれで使える統計手法が全く違うんです。これを理解せずに統計分析をすると、間違った結論を導いてしまう可能性があります。
例えば、「好きな色」と「身長」と「気温」は、すべて数値で表せますが、扱い方は全く異なります。今日はこの違いを、身近な例を使って分かりやすく解説していきます!
データの4つの尺度とは?
統計学では、データを「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4つに分類します。これは「測定の尺度」と呼ばれ、1946年にスタンレー・スティーヴンスという心理学者が提案した分類法です。
この4つの尺度は、以下のような特徴を持っています:
尺度 | 分類 | 順序 | 等間隔 | 絶対零点 |
---|---|---|---|---|
名義尺度 | ○ | × | × | × |
順序尺度 | ○ | ○ | × | × |
間隔尺度 | ○ | ○ | ○ | × |
比例尺度 | ○ | ○ | ○ | ○ |
それぞれを詳しく見ていきましょう。
名義尺度:ただの「ラベル」
名義尺度とは
名義尺度は、データを単純に分類・区別するためだけに使われる尺度です。数値が使われていても、その数字に大小関係や計算の意味はありません。
身近な名義尺度の例
日常生活での例
- 性別:男性、女性
- 血液型:A型、B型、O型、AB型
- 居住地域:東京都、大阪府、北海道...
- 好きな色:赤、青、緑、黄...
- 学部:文学部、理学部、工学部...
数値が使われている名義尺度
- 背番号:野球選手の1番、2番、3番...
- 学籍番号:20241001、20241002...
- 郵便番号:100-0001、150-0002...
名義尺度の特徴
できること
- 分類・区別する
- 個数を数える(頻度を調べる)
- 最頻値(モード)を求める
できないこと
- 大小関係を論じる(「A型はB型より大きい」は意味不明)
- 足し算・引き算・掛け算・割り算
- 平均値を求める(血液型の平均って何?)
具体例:好きなスポーツの調査
- サッカー:15人
- 野球:12人
- バスケットボール:8人
- テニス:5人
この場合、「最も人気なのはサッカー」とは言えますが、「サッカーは野球の1.25倍人気」という表現は適切ではありません。
順序尺度:「順番」に意味がある
順序尺度とは
順序尺度は、データに順序・ランキングの意味がある尺度です。大小関係は分かりますが、その間隔が等しいとは限りません。
身近な順序尺度の例
満足度調査
- 非常に満足(5)
- やや満足(4)
- どちらでもない(3)
- やや不満(2)
- 非常に不満(1)
学校の成績
- A(優)、B(良)、C(可)、D(不可)
スポーツの順位
- 1位、2位、3位...
企業の規模
- 大企業、中企業、小企業
順序尺度の特徴
できること
- 順序をつける・ランキングする
- 中央値を求める
- 「AはBより上位」と言える
できないこと
- 間隔を等しく扱う
- 平均値を求める(厳密には不適切)
- 比率を論じる
具体例:レストランの評価
★★★★★(5): 10件
★★★★☆(4): 25件
★★★☆☆(3): 15件
★★☆☆☆(2): 3件
★☆☆☆☆(1): 2件
この場合、「★4の方が★3より高評価」とは言えますが、「★4と★3の差」と「★3と★2の差」が同じとは限りません。
間隔尺度:「間隔」が等しい
間隔尺度とは
間隔尺度は、データの間隔が等しく、足し算・引き算に意味がある尺度です。ただし、絶対的な零点がないため、比率には意味がありません。
身近な間隔尺度の例
気温(摂氏・華氏)
- 10℃、20℃、30℃...
- 20℃と30℃の差 = 10℃と20℃の差
年号
- 2020年、2021年、2022年...
知能指数(IQ)
- IQ90、IQ100、IQ110...
標準偏差得点(偏差値)
- 偏差値40、50、60...
間隔尺度の特徴
できること
- 足し算・引き算(温度差を求める)
- 平均値・標準偏差を求める
- 「AはBより10度高い」
できないこと
- 掛け算・割り算による比率の計算
- 「30℃は15℃の2倍暖かい」とは言えない
なぜ比率が使えないの?
摂氏0℃は「寒さがゼロ」という意味ではなく、水が凍る温度という人為的な基準点です。実際に:
- 摂氏0℃ = 華氏32℉ = 絶対温度273K
- 摂氏30℃ = 華氏86℉ = 絶対温度303K
摂氏で「30℃は0℃の∞倍」と言えないのと同様に、間隔尺度では比率計算はできません。
比例尺度:「比率」まで意味がある
比例尺度とは
比例尺度は、絶対的な零点を持ち、すべての数学的操作が可能な尺度です。これが最も「数学的」なデータと言えます。
身近な比例尺度の例
物理的測定値
- 身長・体重:170cm、60kg
- 距離・時間:5km、30分
- 価格・給料:1000円、30万円
カウントデータ
- 人数:クラス30人
- 売上個数:100個販売
- 得点:テスト80点(満点100点)
比率データ
- 正答率:80%正解
- 成長率:前年比110%
比例尺度の特徴
できること
- すべての数学的操作(+、-、×、÷)
- 平均値、中央値、最頻値すべて
- 標準偏差、分散の計算
- 比率の計算(「AはBの2倍」)
なぜすべてが可能?
絶対零点(真のゼロ)があるからです:
- 身長0cm = 長さが全くない
- 重量0kg = 重さが全くない
- 時間0秒 = 時間が経っていない
具体例:年収データ
年収300万円の人と年収600万円の人がいる場合:
- 差:600 - 300 = 300万円
- 比率:600 ÷ 300 = 2倍
これらの計算すべてに意味があります。
尺度によって使える統計手法の違い
各尺度で使える代表値
尺度 | 最頻値 | 中央値 | 平均値 |
---|---|---|---|
名義尺度 | ○ | × | × |
順序尺度 | ○ | ○ | △* |
間隔尺度 | ○ | ○ | ○ |
比例尺度 | ○ | ○ | ○ |
*△ = 厳密には不適切だが、実際にはよく使われる
各尺度で使えるグラフ
名義尺度
- 棒グラフ、円グラフ
- ヒストグラムは不適切
順序尺度
- 棒グラフ(順序を保って)
- 累積グラフ
間隔尺度・比例尺度
- ヒストグラム、箱ひげ図
- 散布図、線グラフ
実際の分析での注意点
間違いやすい例
❌ 満足度の平均を計算
満足度調査(5段階評価)
非常に満足(5): 10人
満足(4): 20人
普通(3): 15人
不満(2): 3人
非常に不満(1): 2人
平均満足度 = (5×10 + 4×20 + 3×15 + 2×3 + 1×2) ÷ 50 = 3.7
これは順序尺度なので、厳密には平均値計算は不適切です。
✅ 正しいアプローチ
- 中央値を使用:中央値 = 4(満足)
- 最頻値を使用:最頻値 = 4(満足)
- 分布を示す:「80%の人が満足以上」
実践:データの尺度を見分けよう
練習問題
以下のデータがどの尺度か考えてみましょう:
- 郵便番号 → 名義尺度
- マラソンの順位 → 順序尺度
- 気温(摂氏) → 間隔尺度
- 身長 → 比例尺度
- 学校の成績(A、B、C、D) → 順序尺度
- 売上金額 → 比例尺度
- 星座 → 名義尺度
- IQ → 間隔尺度
判断のポイント
名義尺度かどうか → 「平均値」に意味があるか?
順序尺度かどうか
→ 順番に意味があるか?間隔は等しいか?
間隔尺度かどうか → 真のゼロ点があるか?
比例尺度かどうか → 比率に意味があるか?
データ変換の考慮
尺度の変換
より高次の尺度から低次の尺度への変換は可能ですが、逆は不可能です。
可能な変換
比例尺度 → 間隔尺度 → 順序尺度 → 名義尺度
例:年収データの変換
- 比例尺度:年収350万円、520万円、680万円...
- 間隔尺度:平均からの差分(+50万円、-30万円...)
- 順序尺度:高収入、中収入、低収入
- 名義尺度:収入あり、収入なし
変換の注意点
情報は失われるため、分析目的に応じて適切な尺度を選択することが重要です。
まとめ
データの尺度を正しく理解することは、統計分析の第一歩です。間違った尺度で分析すると、誤った結論を導いてしまう可能性があります。
今日のポイント
✅ 名義尺度:ただの分類(性別、血液型)
✅ 順序尺度:順番に意味あり(満足度、成績)
✅ 間隔尺度:等間隔だが真のゼロなし(気温、IQ)
✅ 比例尺度:すべての計算が可能(身長、重量、価格)
✅ 使える統計手法が尺度によって決まる
次回は「平均値の奥深い世界」として、私たちが普段何気なく使っている「平均」について、実は複数の種類があることを学んでいきます。算術平均、幾何平均、調和平均...それぞれの使い分けを身近な例で解説します!