こんにちは、シラスです。
前回は「統計学は賢い判断をするための道具」ということを学びました。
今回は、その道具を使う前に絶対に知っておくべき「データの種類(尺度)」の話です。
「データなんて全部数字でしょ?」と思っていませんか?
実はデータには4つのタイプがあり、タイプを間違えると分析結果がデタラメになってしまいます。
(例:血液型の「平均」を計算しようとする、など…)
目次
1. データの「4つの尺度」とは?
統計学では、データを以下の4つのレベル(尺度)に分類します。
下に行くほど「情報量が多く、計算できること」が増えていきます。
それぞれ詳しく見ていきましょう。
① 名義尺度(ただのラベル)
データを単純に「区別・分類」するためだけのものです。
数字が割り振られていても、その数字に「大きさ」の意味はありません。
- 性別:男性、女性
- 血液型:A型、B型...(A型がB型より偉いわけではない)
- 背番号:野球の1番、10番(10番が1番の10倍強いわけではない)
- 郵便番号:100-0001など
② 順序尺度(順番に意味がある)
「順位・ランキング」の大小関係は分かりますが、その間隔(差)が等しいとは限りません。
- 満足度:★★★★★(5)~★(1)
- 順位:1位、2位、3位...(1位と2位のタイム差と、2位と3位のタイム差は違う)
- 企業の規模:大企業、中企業、小企業
③ 間隔尺度(目盛りが等間隔)
目盛りの間隔が等しく、「足し算・引き算」に意味があります。
ただし、「ゼロ」が「無」を意味しません(相対的なゼロ)。
- 気温(℃):20℃と30℃の差は10℃。
※注意:0℃は「熱エネルギーが無い」わけではないので、「40℃は20℃の2倍暑い」とは言えません。 - 西暦:2000年、2020年
- 偏差値・IQ:偏差値50など
④ 比例尺度(最強のデータ)
「絶対的なゼロ(無)」があり、全ての計算が可能です。
「AはBの2倍」といった比率の表現ができます。
- 身長・体重:0kgは「重さ無し」。60kgは30kgの2倍重い。
- 金額:0円は「所持金無し」。1000円は500円の2倍。
- 時間:30分、60分。
2. 早見表:何が計算できる?
4つの尺度で「使える計算」をまとめました。
| 尺度 | 大小比較 | 足し算 引き算 | 掛け算 割り算 | 平均値 |
|---|---|---|---|---|
| 名義尺度 | × | × | × | × |
| 順序尺度 | ○ | × | × | △ |
| 間隔尺度 | ○ | ○ | × | ○ |
| 比例尺度 | ○ | ○ | ○ | ○ |
※順序尺度の平均値は、厳密には不適切ですが実務では使われることがあります。
3. 実践!尺度当てクイズ
理解度チェックです。以下のデータはどの尺度でしょうか?
- Q1. 郵便番号(100-0001)
A. 名義尺度 (ただのラベルです。足しても意味がありません) - Q2. マラソンの順位(1位、2位…)
A. 順序尺度 (順番に意味があります) - Q3. 気温(25℃)
A. 間隔尺度 (0℃でも熱はあります。「2倍暑い」とは言えません) - Q4. 年収(500万円)
A. 比例尺度 (0円=無し。1000万は500万の2倍と言えます)
まとめ
どの分析手法を使うか迷ったときは、まず「このデータはどの尺度だろう?」と考える癖をつけましょう!
次回は、私たちが普段何気なく使っている「平均値」の落とし穴について。
実は平均には「算術平均」「幾何平均」「調和平均」と種類があるのを知っていますか?
統計学のおすすめ書籍
統計学の「数式アレルギー」を治してくれた一冊
「Σ(シグマ)や ∫(インテグラル)を見ただけで眠くなる…」 そんな私を救ってくれたのが、小島寛之先生の『完全独習 統計学入門』です。
この本は、難しい記号を一切使いません。 「中学レベルの数学」と「日本語」だけで、検定や推定の本質を驚くほど分かりやすく解説してくれます。
「計算はソフトに任せるけど、統計の『こころ(意味)』だけはちゃんと理解したい」 そう願う学生やエンジニアにとって、これ以上の入門書はありません。
【QC2級】「どこが出るか」がひと目で分かる!最短合格へのバイブル
私がQC検定2級に合格した際、使い倒したのがこの一冊です。
この本の最大の特徴は、「各単元の平均配点(何点分出るか)」が明記されていること。 「ここは出るから集中」「ここは出ないから流す」という戦略が立てやすく、最短ルートで合格ラインを突破できます。
解説が分かりやすいため、私はさらに上の「QC1級」を受験する際にも、基礎の確認用として辞書代わりに使っていました。 迷ったらまずはこれを選んでおけば間違いありません。
