検定・推定

F検定(等分散の検定)「A機とB機、精度が良いのはどっち?」2つのバラつきを比較する

こんにちは、シラスです。

前回は、1つの機械の精度を判定する「カイ二乗検定」を行いました。

しかし、実務でエンジニアが直面するのは、もっと比較的なシチュエーションではないでしょうか。

  • 「長年使った『旧型機A』と、導入したばかりの『新型機B』。本当に新型の方が精度(バラつき)は良いのか?」
  • 『熟練工』『新人』。作業のバラつきにどれくらい差があるのか?」

このように、2つのグループのバラつきに差があるか(等分散か)を判定するリング。それが今回紹介する「F検定」です。

1. F検定の正体=「分散比」

平均値の比較(t検定)では、AとBの差を「引き算($A - B$)」で見ました。
しかし、バラつきの比較(F検定)では、「割り算(比率)」を使います。

📊 F検定の計算式
$$ F = \frac{V_1}{V_2} $$

2つの不偏分散($V_1, V_2$)を割り算して、「一方がもう一方の何倍バラついているか?」を計算します。
これを「分散比」と呼びます。

計算の鉄則:「大きい方が上」

F検定を行う際、手計算やQC検定では暗黙のルールがあります。

💡 分散が大きい方のデータを、分子(上)にする!

こうすることで、F値は必ず「1以上」になります。
(もし $V_1$ と $V_2$ が全く同じなら、$F=1$ になりますね)

「1からどれだけ離れているか?」を見ることで、差の大きさを判定するのです。

2. 実践:新旧マシンの精度対決

具体的なデータでやってみましょう。

🏭 ケーススタディ

旧型機Aと新型機Bから、それぞれ10個ずつサンプルを取りました。

  • 旧型機A: 不偏分散 $V_A = 10.0$ (データ数 $n_A=10$)
  • 新型機B: 不偏分散 $V_B = 2.5$ (データ数 $n_B=10$)

「新型機Bの方がバラつきが小さい(優秀)」と言いたいですが、これは偶然の範囲内でしょうか?
(有意水準 5% で検定します)

ステップ1:仮説を立てる

  • 帰無仮説 ($H_0$): バラつきに差はない($\sigma_A^2 = \sigma_B^2$)
  • 対立仮説 ($H_1$): バラつきに差がある($\sigma_A^2 \neq \sigma_B^2$)

ステップ2:F値を計算する

「大きい方が上」のルールに従い、バラつきの大きい旧型機Aを分子にします。

$$ F = \frac{10.0}{2.5} = \mathbf{4.0} $$

計算結果は4.0です。
つまり、「旧型機のバラつきは、新型機の4倍もある」ということが分かりました。

ステップ3:判定基準(限界値)を調べる

この「4倍」という差が、統計的に意味があるのかを「F分布表」で確認します。

見るべきポイントは「2つの自由度」です。

  • 分子の自由度(A): $10 - 1 = 9$
  • 分母の自由度(B): $10 - 1 = 9$

F分布表の $(9, 9)$ の交差点、かつ 2.5%(両側検定で5%なので片側2.5%を見ます)の値を探すと…
限界値は 4.03 です。

ステップ4:結論

  • 計算値:4.00
  • 基準値:4.03

4.00 < 4.03 なので、ギリギリ基準を超えていません!

判定:有意差なし(帰無仮説を棄却できない)。

なんと、分散が4倍も違うのに、統計学的には「サンプル数10個程度では、明確に差があるとは言い切れない(偶然4倍くらいになることもある)」という冷徹な判定が下されました。
(※もっとサンプル数を増やせば、有意になる可能性が高いです)

3. 素朴な疑問:なぜ「割り算」なの?

F検定の手順はこれだけです。
しかし、ここで一つ、統計学における根本的な疑問が湧いてきませんか?

🤔 なぜ引き算じゃない?

平均値の検定(t検定)では、差を見るために「引き算 ($A - B$)」をしました。

なのに、なぜ分散の検定(F検定)では「割り算 ($A \div B$)」をするのでしょうか?
「分散の差」を見るなら、引き算でも良さそうな気がしませんか?

実は、ここに「分散(二乗の世界)」特有の事情が隠されています。

まとめ

F検定は、2つのバラつきの比率(何倍違うか?)を見る。
✅ 計算は「大きい分散 ÷ 小さい分散」をするだけ。
✅ 判定には、2つの自由度(分子・分母)を使う。

次回は、いよいよバラつきシリーズの理論的な核心部分。
「なぜ統計学では、バラつきを比較するときに『割り算』を選ぶのか?」
その理由を、F分布の形を見ながら解明していきます。

タグ

-検定・推定
-