検定・推定

t分布と自由度|なぜデータが少ないと「合格基準」が厳しくなるのか?裾野の広がりの正体

こんにちは、シラスです。

前回の記事で、実務で最も使う「t検定」を行いました。
そのとき、判定基準(限界値)を見て「おや?」と思った方もいるかもしれません。

🤔 判定基準の変化
  • Z検定(正規分布): 1.96 を超えたら異常。
  • t検定(自由度8): 2.306 を超えないと異常と言えない。

「なぜデータが少ないと、ハードル(基準値)が上がってしまうの?」
「1.96じゃダメなの?」

実はこれ、データ不足に対する「ペナルティ」なんです。

今日は、t検定の背後にある「t分布」という山の形と、そこから導かれる「少数のデータには厳しくあれ」という統計学の哲学を解説します。

1. t分布の形:「裾野(すその)」が広い

まずは、この記事の一番上の画像から正規分布(Z)とt分布(t)の形を見比べてみましょう。

  • 正規分布(青線): シュッと引き締まった形。
  • t分布(赤線): 山が低く、左右の裾野(すその)がダラッと広がっている形。

この「裾野が広い(Fat Tail)」というのが最大の特徴です。

なぜ広がるのか?

正規分布は「真の分散($\sigma$)」を知っている、完璧な状態の分布です。

一方、t分布は「手元のデータから計算した分散($s$)」を使っています。
この $s$ は、たまたま変なデータが混じると大きくブレてしまいます。

つまり、t分布には「データの不確実さ(迷い)」が含まれているため、正規分布のように「ここだ!」と一点に集中できず、「もしかしたら、もっと極端な値が出るかも…」と左右に広がってしまうのです。

2. 裾野が広いと、基準値はどうなる?

分布が横に広がると、判定基準(5%のライン)はどうなるでしょうか?

面積(確率)は全体の100%で決まっています。
山が潰れて横に広がると、「端っこ5%のエリア」は、より外側(遠く)へ押し出されます。

🏃‍♂️ ゴールが遠くなる

有意水準5%のライン(棄却限界値):

正規分布 $\approx 1.96$
t分布 $\approx 2.306$

1.96ならゴールだったのに、t分布では「まだだ!もっと遠く(2.306)まで行かないと認めないぞ!」と言われている状態です。

これが「データが少ないと判定が厳しくなる」理由です。
情報の信頼性が低い分、「よほど大きな差がない限り、異常とは認めないよ(偶然かもしれないからね)」という、慎重な姿勢の表れなのです。

3. 自由度($n-1$)による進化

しかし、t分布はずっと低いままではありません。
データ数($n$)が増えれば増えるほど、計算した分散($s$)の信頼度が上がり、真の値($\sigma$)に近づいていきます。

これを「自由度($n-1$)が増える」と言います。

📈 t分布の進化
  • データ数 2個: 裾野がめちゃくちゃ広い。(基準値 12.7)
    → ほぼ何も判定できない。
  • データ数 10個: 少し引き締まる。(基準値 2.26)
  • データ数 100個: かなり正規分布に近い。(基準値 1.98)
  • データ数 $\infty$個: 正規分布と完全に一致する。(基準値 1.96)

データさえ集めれば、人間(t分布)もいつかは神様(正規分布)と同じ判断ができるようになる。
これが統計学の面白いところです。

4. 豆知識:ギネスビールが生んだ理論

実はこのt分布、ギネスビール工場の技術者だったウィリアム・ゴセットという人が発見しました。

「ビールの品質検査をするのに、何百個もサンプルを取るわけにはいかない(商品がなくなるから)。
少ないサンプル数($n$)でも、正確に品質を保証する方法はないか?」

そう考えて研究した結果、「データが少ない時は、正規分布よりも少し裾野を広げた分布を使えば計算が合う!」と発見したのです。
(会社の方針で本名が出せなかったので、「Student(学生)」というペンネームで論文を出しました。だから今でも「スチューデントのt検定」と呼ばれます)

まとめ

t分布は、正規分布より裾野が広く、山が低い。
✅ これは「データ不足の不確実さ」を反映しているため。
✅ データ数(自由度)が増えるほど、正規分布に近づき、判定基準も甘くなる(1.96に近づく)。

「データが少ないときは慎重に。データが多いときは大胆に。」
t分布は、このリスク管理を自動的にやってくれる、非常に優秀なツールなのです。

さて、t分布の仕組みが分かったところで、次はいよいよ「2つのグループの比較」に入ります。

「A工場とB工場の製品、品質に差はあるか?」
次回は、実務で最も出番の多い「2標本のt検定(等分散)」を解説します。

タグ

-検定・推定
-