こんにちは、シラスです。
前回、2つの機械のバラつきを比較する「F検定」を行いました。
その計算式は、とてもシンプルな「割り算」でした。
しかし、ここで一つの疑問が浮かびます。
「平均値の比較(t検定)」では、差を見るために引き算 $(A - B)$ をしました。
「バラつきの比較」だって、差を知りたいなら引き算 $(V_A - V_B)$ で良さそうな気がしませんか?
なぜわざわざ「比率(倍率)」を見るのでしょうか?
実は、ここには統計学が「割り算」を選ばざるを得なかった、2つの決定的な理由があるのです。
理由1:単位の呪縛から逃げるため(スケーリング)
最大の理由は、「単位の影響を受けなくするため」です。
例えば、ある部品の長さのバラつき(分散)を比較するとします。
- 機械Aの分散: $100$
- 機械Bの分散: $25$
ここで「引き算」をしてしまうと、単位によって「差の大きさ」が変わってしまいます。
ミリメートル ($mm^2$) で測った場合:
差 = $100 - 25 = \mathbf{75}$
センチメートル ($cm^2$) で測った場合:
分散は $1/100$ になるので、差 = $1 - 0.25 = \mathbf{0.75}$
同じ機械の性能を比べているのに、測る定規を変えただけで、差が「75」になったり「0.75」になったりするのは不便ですよね。
「75」という数字だけ見ても、それが大きいのか小さいのか判断できません。
割り算なら「単位」が消える
一方、「割り算」ならどうでしょう?
- mmの場合: $100 \div 25 = \mathbf{4倍}$
- cmの場合: $1 \div 0.25 = \mathbf{4倍}$
ご覧の通り、単位が何であっても結果は「4倍」で変わりません。
割り算をすることで、分子と分母の単位が約分されて消え、純粋な「強さの比率」だけが残るのです。
だからF検定では、「差がいくらか?」ではなく「何倍違うか?」という土俵で勝負をするのです。
理由2:「負の数」を出さないため
もう一つの理由は、分散の性質に関わります。
分散(二乗の世界)には「マイナスが存在しない」という鉄則がありましたね。
- 引き算 ($A - B$): もし $B$ の方が大きければ、答えはマイナスになります。
- 割り算 ($A \div B$): $A$ も $B$ もプラスなので、答えは必ずプラスになります。
統計学において、確率分布(グラフ)を作る際、マイナス側に突き抜けてしまう数値は扱いづらいのです。
割り算にしておけば、最小値は「0(分子が0の時)」で止まり、扱いやすくなります。
3. F分布の形を見てみよう
こうして生まれた「分散比(F値)」の分布図がこちらです。
[Image of F distribution probability density function curve]この形の特徴
- スタート地点は「0」:
マイナスにはなりません。 - 山頂は「1」付近:
もし2つのバラつきが同じなら、$A \div B = 1$ になるはずです。
だから、F分布は「1」の周りにデータが集中する形になります。 - 右に伸びる裾野:
もし $A$ が $B$ より異常に大きければ、F値は 10倍、100倍…と青天井に大きくなります。
F検定とは、計算したF値が「1(対等)の周辺にあるか?」それとも「右端のレアゾーン(有意水準)まで飛んでいってしまったか?」を確認する作業なのです。
まとめ
単位(mmやcm)の影響を消して、純粋な「倍率」で比較するため。
分散にマイナスはないので、比率(0以上)で扱ったほうが都合が良いから。
「平均値は引き算、分散は割り算」
この違いは、単なる計算ルールの違いではなく、「単位に依存するかどうか(スケールフリー)」という深い意味があったのです。
さて、ここまでは「検定(白黒つける)」話をしてきました。
次回は視点を変えて、「じゃあ、具体的なバラつきの値はいくつなの?」と予測する、「母分散の区間推定」について解説します。