こんにちは、シラスです。
前回、2つのグループを比較する「スチューデントのt検定」を紹介しました。
しかし、この手法を使うには「F検定で『等分散(バラつきが同じ)』と認められる」という厳しい条件をクリアする必要がありました。
では、もしF検定で「有意差あり(バラつきが違う!)」と判定されてしまったら、どうすればいいのでしょうか?
「A機は高精度(バラつき小)だけど、B機はガタガタ(バラつき大)。
でも、平均値に差があるか比較したいんだ!」
こんな時に「分散を混ぜる(プールする)」なんてことをしたら、精度の良いA機のデータが汚染されてしまいます。
そこで登場するのが、現代の実務における救世主「ウェルチのt検定」です。
目次
1. ウェルチの流儀:混ぜるな、危険
ウェルチのt検定の思想はシンプルです。
「バラつきが違うなら、無理に混ぜずに、それぞれのバラつきのまま計算しよう」というものです。
t値の計算式
前回の「スチューデントのt検定」では、無理やり合併分散 $s_p^2$ を作りましたが、ウェルチではそんなことはしません。
見てください。分母のルートの中で、$s_1^2$ と $s_2^2$ が独立しています。
「AはAの分散、BはBの分散」を使って、そのまま合算しているのです。
これなら、バラつきが全く違うデータ同士でも、お互いを汚染することなく比較できます。
2. その代償:悪魔的な「自由度」の計算
「なんだ、こっちの方が計算が簡単じゃないか!」
一瞬そう思えますが、実はウェルチには恐ろしい罠があります。
それは「自由度($df$)」の計算です。
スチューデントの時は $n_1 + n_2 - 2$ という単純な引き算でした。
しかし、ウェルチの自由度は、「ウェルチ・サタスウェイトの近似式」という呪文のような式で求めなければなりません。
……手計算でやる気が失せますよね。
しかも、この計算結果は「整数になりません」。
例えば「自由度 = 13.4」のような半端な数字になります。
(t分布表には整数しか載っていないので、実務では近い整数に丸めるか、Excelなどのソフトに任せることになります)
3. 現代のスタンダードは「いきなりウェルチ」
計算が面倒なウェルチですが、ExcelやPython、Rなどの統計ソフトで「t検定」を選ぶと、デフォルトでこのウェルチが適用されることが多いです。
なぜでしょうか?
- 等分散じゃなくても使える: もちろんOK。
- 等分散の時に使ってもOK: 実はバラつきが同じ時にウェルチを使っても、スチューデントとほぼ同じ結果になります(劣化しない)。
つまり、「事前確認(F検定)でミスをするリスクを負うくらいなら、最初から万能なウェルチを使っておけば安全だよね」というのが、現代統計学の主流な考え方なのです。
4. 実践:手計算はオススメしません
一応、ケーススタディを載せますが、ウェルチに関しては「計算の流れ」だけ理解できれば十分です。
- A群: 平均50, 分散1, n=10
- B群: 平均55, 分散10, n=10
- (明らかに分散が違うので、ウェルチ適用)
ステップ1:t値を出す
$$ t = \frac{50 - 55}{\sqrt{\frac{1}{10} + \frac{10}{10}}} = \frac{-5}{\sqrt{0.1 + 1}} = \frac{-5}{1.05} \approx \mathbf{-4.76} $$
ステップ2:自由度を出す(近似)
あの複雑な式に当てはめると…
$$ \nu \approx 10.9 $$
となります。(スチューデントなら $10+10-2=18$ だったので、自由度がかなり減ってペナルティを受けていることが分かります)
ステップ3:判定
自由度10(切り捨て)、有意水準5%の基準値は 2.228。
4.76 > 2.228 なので、有意差あり!
まとめ
「バラつきが違う比較」はこれで完璧です。
しかし、ここまで紹介した検定(2標本t検定)は、「AグループとBグループは、全くの別人(独立)」という前提でした。
もし、比較したいデータが「同一人物」だったらどうでしょう?
- 「ダイエット前」の私 vs 「ダイエット後」の私
- 「講習前」の点数 vs 「講習後」の点数
この場合、もっと効率的に、劇的に小さな差を見つけられる「最強のt検定」が存在します。
次回は、実務での改善効果確認によく使われる「対応のあるt検定」を紹介します。