検定・推定

ウェルチのt検定(等分散なし)|F検定で「バラつきが違う」と出た後の救世主

こんにちは、シラスです。

前回、2つのグループを比較する「スチューデントのt検定」を紹介しました。
しかし、この手法を使うには「F検定で『等分散(バラつきが同じ)』と認められる」という厳しい条件をクリアする必要がありました。

では、もしF検定で「有意差あり(バラつきが違う!)」と判定されてしまったら、どうすればいいのでしょうか?

😰 現場の悩み

「A機は高精度(バラつき小)だけど、B機はガタガタ(バラつき大)。
でも、平均値に差があるか比較したいんだ!」

こんな時に「分散を混ぜる(プールする)」なんてことをしたら、精度の良いA機のデータが汚染されてしまいます。
そこで登場するのが、現代の実務における救世主「ウェルチのt検定」です。

1. ウェルチの流儀:混ぜるな、危険

ウェルチのt検定の思想はシンプルです。
「バラつきが違うなら、無理に混ぜずに、それぞれのバラつきのまま計算しよう」というものです。

t値の計算式

前回の「スチューデントのt検定」では、無理やり合併分散 $s_p^2$ を作りましたが、ウェルチではそんなことはしません。

$$ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$

見てください。分母のルートの中で、$s_1^2$ と $s_2^2$ が独立しています。
「AはAの分散、BはBの分散」を使って、そのまま合算しているのです。

これなら、バラつきが全く違うデータ同士でも、お互いを汚染することなく比較できます。

2. その代償:悪魔的な「自由度」の計算

「なんだ、こっちの方が計算が簡単じゃないか!」
一瞬そう思えますが、実はウェルチには恐ろしい罠があります。

それは「自由度($df$)」の計算です。

スチューデントの時は $n_1 + n_2 - 2$ という単純な引き算でした。
しかし、ウェルチの自由度は、「ウェルチ・サタスウェイトの近似式」という呪文のような式で求めなければなりません。

近似自由度 $\nu$ の式:
$$ \nu \approx \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1 - 1} + \frac{(\frac{s_2^2}{n_2})^2}{n_2 - 1}} $$

……手計算でやる気が失せますよね。
しかも、この計算結果は「整数になりません」

例えば「自由度 = 13.4」のような半端な数字になります。
(t分布表には整数しか載っていないので、実務では近い整数に丸めるか、Excelなどのソフトに任せることになります)

3. 現代のスタンダードは「いきなりウェルチ」

計算が面倒なウェルチですが、ExcelやPython、Rなどの統計ソフトで「t検定」を選ぶと、デフォルトでこのウェルチが適用されることが多いです。

なぜでしょうか?

🏆 ウェルチが最強な理由
  • 等分散じゃなくても使える: もちろんOK。
  • 等分散の時に使ってもOK: 実はバラつきが同じ時にウェルチを使っても、スチューデントとほぼ同じ結果になります(劣化しない)。

つまり、「事前確認(F検定)でミスをするリスクを負うくらいなら、最初から万能なウェルチを使っておけば安全だよね」というのが、現代統計学の主流な考え方なのです。

4. 実践:手計算はオススメしません

一応、ケーススタディを載せますが、ウェルチに関しては「計算の流れ」だけ理解できれば十分です。

  • A群: 平均50, 分散1, n=10
  • B群: 平均55, 分散10, n=10
  • (明らかに分散が違うので、ウェルチ適用)

ステップ1:t値を出す

$$ t = \frac{50 - 55}{\sqrt{\frac{1}{10} + \frac{10}{10}}} = \frac{-5}{\sqrt{0.1 + 1}} = \frac{-5}{1.05} \approx \mathbf{-4.76} $$

ステップ2:自由度を出す(近似)

あの複雑な式に当てはめると…
$$ \nu \approx 10.9 $$
となります。(スチューデントなら $10+10-2=18$ だったので、自由度がかなり減ってペナルティを受けていることが分かります)

ステップ3:判定

自由度10(切り捨て)、有意水準5%の基準値は 2.228
4.76 > 2.228 なので、有意差あり!

まとめ

ウェルチのt検定は、等分散でなくても使える万能選手。
✅ 分散をプールせず、個別に計算する。
✅ 自由度の計算が複雑で、小数になる(ソフト任せでOK)。

「バラつきが違う比較」はこれで完璧です。
しかし、ここまで紹介した検定(2標本t検定)は、「AグループとBグループは、全くの別人(独立)」という前提でした。

もし、比較したいデータが「同一人物」だったらどうでしょう?

  • 「ダイエット前」の私 vs 「ダイエット後」の私
  • 「講習前」の点数 vs 「講習後」の点数

この場合、もっと効率的に、劇的に小さな差を見つけられる「最強のt検定」が存在します。
次回は、実務での改善効果確認によく使われる「対応のあるt検定」を紹介します。

タグ

-検定・推定
-