こんにちは、シラスです。
これから数回にわたり、実務で最も重要な「平均値の検定(t検定ファミリー)」について解説していきます。
その記念すべき第1回目が、今回紹介する「Z検定(母分散既知)」です。
最初にショッキングなことを言いますが、この検定、実務の現場では99%使いません。
「えっ、使わないなら勉強しなくていいんじゃない?」
そう思うかもしれませんが、それは違います。
Z検定は、すべての検定の「原型(オリジン)」です。
理想的な状態であるこの検定を理解していないと、実務で使う「t検定」の意味が全く分からなくなってしまいます。
今日は、統計学における「神様の視点」とも言えるこの検定について、その仕組みと「なぜ現実では使えないのか」を解説します。
目次
1. Z検定とは?:すべてを知っている「神の検定」
Z検定は、「データの真のバラつき(母分散 $\sigma^2$)を知っている」という前提で行う検定です。
判定には「正規分布(Z分布)」を使います。

正規分布は、統計学で最も美しい左右対称の山です。
この山の形が「完全に確定している」状態でジャッジできるのが、Z検定の強みです。
2. 計算式:シンプルにして最強の「標準化」
Z検定で使う計算式(検定統計量 $Z$)は、非常にシンプルで美しい形をしています。
一見難しそうに見えますが、分解するとたった2つの要素でできています。
- 分子(上): ズレの大きさ(データ平均 - 基準値)
- 分母(下): データのブレ幅(標準誤差)
つまり、「今回のズレは、いつものブレ幅の何倍か?」を計算しているだけです。
3. 実践:もしも神様が工場にいたら
では、架空のケーススタディで計算してみましょう。
ある機械で作る部品の長さは、平均 $\mu = 50mm$ です。
そして神様(全知全能の管理者)は、この機械の真のバラつきが標準偏差 $\sigma = 2mm$ であることを知っています。
今日、$n=9$ 個のサンプルを測ったら、平均 $\bar{x} = 52mm$ でした。
「今日の平均52mmは、ズレすぎ(異常)か?」
ステップ1:Z値を計算する
公式に数字を当てはめます。
計算結果は 3.0 でした。
これは「標準的なブレ幅の3倍もズレている」という意味です。
ステップ2:判定(1.96の壁)
ここで、判定の基準となる「標準正規分布表」を使います。
教科書の巻末にある表から、必要な部分を抜き出してみました。
今回は「両側5%(両端合わせて5%)」の検定なので、片側では「2.5%(0.0250)」になる確率の場所を探します。
| Z | 0.05 | 0.06 | 0.07 |
|---|---|---|---|
| 1.8 | 0.0322 | 0.0314 | 0.0307 |
| 1.9 | 0.0256 | 0.0250 | 0.0244 |
| 2.0 | 0.0202 | 0.0197 | 0.0192 |
表を見ると、確率がちょうど 0.0250 になるのは、
縦の「1.9」と横の「0.06」が交差する場所、つまり 1.96 のときです。
これが今回の「デッドライン(棄却限界値)」になります。
ステップ3:結論
- 計算値:3.0
- 基準値:1.96
3.0 > 1.96 なので、基準を遥かにオーバーしています。
判定:有意差あり(異常である)。
「偶然でここまでズレる確率は5%未満(実際は0.2%以下)だ。だから、これは偶然ではなく何らかの異常が発生している!」と結論づけられます。
4. なぜ現実には「使えない」のか?
ここまで見ると、計算も簡単で完璧な検定に見えます。
しかし、冒頭で言った通り、これは現実には使えません。
なぜなら、「真の標準偏差 $\sigma$(シグマ)」なんて、誰も知らないからです。
$\sigma$(母標準偏差)を知るためには、過去に作った何万、何億個という製品データをすべて把握している必要があります。
もしそんなにデータを把握しているなら、そもそも平均値 $\mu$ だって知っているはずですよね?
「平均値を知りたい(検定したい)のに、バラつきだけは完全に知っている」
そんな都合の良い状況は、現実にはありえません。
まとめ:人間には「t検定」が必要だ
Z検定は、あくまで「理論上の理想形」です。
- 母分散($\sigma^2$)を知っている時だけ使える。
- 計算式はシンプルで美しい。
- しかし、我々人間は神様ではないので使えない。
では、神様ではない私たちはどうすればいいのでしょうか?
真の値($\sigma$)の代わりに、手元のデータから計算した「不偏分散($s^2$)」で代用するしかありません。
しかし、代用品を使うと、当然ですが「精度」が落ちます。
その「落ちた精度」を補正するために生まれたのが、次回紹介する「t検定(t分布)」なのです。