検定・推定

F分布のイメージ|なぜ分散は「引き算」ではなく「割り算」で比べるのか?

こんにちは、シラスです。

前回、2つの機械のバラつきを比較する「F検定」を行いました。
その計算式は、とてもシンプルな「割り算」でした。

$$ F = \frac{V_A}{V_B} $$

しかし、ここで一つの疑問が浮かびます。

🤔 なぜ引き算じゃない?

「平均値の比較(t検定)」では、差を見るために引き算 $(A - B)$ をしました。

「バラつきの比較」だって、差を知りたいなら引き算 $(V_A - V_B)$ で良さそうな気がしませんか?
なぜわざわざ「比率(倍率)」を見るのでしょうか?

実は、ここには統計学が「割り算」を選ばざるを得なかった、2つの決定的な理由があるのです。

理由1:単位の呪縛から逃げるため(スケーリング)

最大の理由は、「単位の影響を受けなくするため」です。

例えば、ある部品の長さのバラつき(分散)を比較するとします。

  • 機械Aの分散: $100$
  • 機械Bの分散: $25$

ここで「引き算」をしてしまうと、単位によって「差の大きさ」が変わってしまいます。

📏 単位を変えてみると…

ミリメートル ($mm^2$) で測った場合:
差 = $100 - 25 = \mathbf{75}$

センチメートル ($cm^2$) で測った場合:
分散は $1/100$ になるので、差 = $1 - 0.25 = \mathbf{0.75}$

同じ機械の性能を比べているのに、測る定規を変えただけで、差が「75」になったり「0.75」になったりするのは不便ですよね。
「75」という数字だけ見ても、それが大きいのか小さいのか判断できません。

割り算なら「単位」が消える

一方、「割り算」ならどうでしょう?

  • mmの場合: $100 \div 25 = \mathbf{4倍}$
  • cmの場合: $1 \div 0.25 = \mathbf{4倍}$

ご覧の通り、単位が何であっても結果は「4倍」で変わりません。
割り算をすることで、分子と分母の単位が約分されて消え、純粋な「強さの比率」だけが残るのです。

だからF検定では、「差がいくらか?」ではなく「何倍違うか?」という土俵で勝負をするのです。

理由2:「負の数」を出さないため

もう一つの理由は、分散の性質に関わります。
分散(二乗の世界)には「マイナスが存在しない」という鉄則がありましたね。

  • 引き算 ($A - B$): もし $B$ の方が大きければ、答えはマイナスになります。
  • 割り算 ($A \div B$): $A$ も $B$ もプラスなので、答えは必ずプラスになります。

統計学において、確率分布(グラフ)を作る際、マイナス側に突き抜けてしまう数値は扱いづらいのです。
割り算にしておけば、最小値は「0(分子が0の時)」で止まり、扱いやすくなります。

3. F分布の形を見てみよう

こうして生まれた「分散比(F値)」の分布図がこちらです。

[Image of F distribution probability density function curve]

この形の特徴

  1. スタート地点は「0」:
    マイナスにはなりません。
  2. 山頂は「1」付近:
    もし2つのバラつきが同じなら、$A \div B = 1$ になるはずです。
    だから、F分布は「1」の周りにデータが集中する形になります。
  3. 右に伸びる裾野:
    もし $A$ が $B$ より異常に大きければ、F値は 10倍、100倍…と青天井に大きくなります。

F検定とは、計算したF値が「1(対等)の周辺にあるか?」それとも「右端のレアゾーン(有意水準)まで飛んでいってしまったか?」を確認する作業なのです。

まとめ

割り算にする理由①:
単位(mmやcm)の影響を消して、純粋な「倍率」で比較するため。
割り算にする理由②:
分散にマイナスはないので、比率(0以上)で扱ったほうが都合が良いから。

「平均値は引き算、分散は割り算」
この違いは、単なる計算ルールの違いではなく、「単位に依存するかどうか(スケールフリー)」という深い意味があったのです。

さて、ここまでは「検定(白黒つける)」話をしてきました。
次回は視点を変えて、「じゃあ、具体的なバラつきの値はいくつなの?」と予測する、「母分散の区間推定」について解説します。

タグ

-検定・推定
-