検定・推定

t検定(2標本・等分散)「スチューデントのt検定」でAとBの差を証明する手順

こんにちは、シラスです。

前回までは「1つのデータ」と「規格値」を比べる検定をしてきました。
しかし、実務で本当にやりたいのは、「2つのデータ同士」の比較ではないでしょうか。

  • 「A工場の製品と、B工場の製品。平均値に差はあるか?」
  • 「改善前と改善後。歩留まりは向上したと言えるか?」

これに白黒つけるのが「2標本のt検定」です。
今回は、その中でも最も基本となる「等分散(バラつきが同じ)」の場合の手法を解説します。

通称「スチューデントのt検定」と呼ばれる、統計学の王道中の王道です。

1. スタート地点:まずは「F検定」から

2つの平均値を比べる前に、必ず確認しなければならないことがあります。
それは「土俵(バラつき)は同じか?」ということです。

🚦 検定の分岐点

まず、2つのデータの分散($V_1, V_2$)を使って「F検定」を行います。

  • 有意差なし(等分散): 今回紹介する「スチューデントのt検定」へ。
  • 有意差あり(非等分散): 次回紹介する「ウェルチのt検定」へ。

「バラつきが同じ(等分散)」とみなせる場合、私たちは「分散をプールする(混ぜる)」という必殺技を使うことができます。

2. 必殺技:分散をプールする(合併分散 $s_p^2$)

これが今回の最重要ポイントです。

「AとB、バラつき具合はだいたい同じだね」と分かったなら、AとBの分散を別々に計算するのではなく、ひとまとめ(プール)にして、より精度の高い「共通の分散」を作ってしまおう、という考え方です。

🍲 スープの味見でイメージする

2つの鍋(AとB)にスープが入っています。
「塩加減(分散)は同じ」だと分かっています。

それなら、別々に味見するよりも、2つの鍋を大きな寸胴にまとめて(プールして)から味見したほうが、量がたっぷりで測定しやすくないですか?

統計学的に言うと、データを混ぜることで「自由度」が増えます。
自由度が増えると、情報の信頼性が上がり、微妙な差でも「有意差あり」と検出しやすくなる(検出力が上がる)のです。

合併分散 $s_p^2$ の計算式

2つの分散を、データ数(自由度)で重み付けして平均します。

$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$

一見複雑そうですが、要するに「平方和($S_1+S_2$)を足して、自由度($f_1+f_2$)の合計で割っている」だけです。

3. 実践:A工場とB工場の比較

では、実際に計算してみましょう。

🏭 ケーススタディ

製品の強度を比較します。F検定の結果、等分散とみなせました。

  • A工場: 平均 $\bar{x}_A = 50$, 分散 $s_A^2 = 10$, データ数 $n_A = 10$
  • B工場: 平均 $\bar{x}_B = 55$, 分散 $s_B^2 = 10$, データ数 $n_B = 10$

「平均値に5の差があるが、これは有意か?」(有意水準5%)

ステップ1:合併分散 $s_p^2$ を求める

まずは分散をプールします。

$$ \begin{aligned} s_p^2 &= \frac{(9 \times 10) + (9 \times 10)}{10 + 10 - 2} \\[10pt] &= \frac{90 + 90}{18} \\[10pt] &= \frac{180}{18} = \mathbf{10} \end{aligned} $$

※今回は元々分散が同じ(10)だったので、プールしても10のままです。

ステップ2:t値を計算する

プールした分散を使って、標準誤差を作ります。

$$ t = \frac{\bar{x}_A - \bar{x}_B}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$

数値を代入します。($s_p = \sqrt{10} \approx 3.16$)

$$ \begin{aligned} t &= \frac{50 - 55}{3.16 \times \sqrt{\frac{1}{10} + \frac{1}{10}}} \\[10pt] &= \frac{-5}{3.16 \times \sqrt{0.2}} \\[10pt] &= \frac{-5}{3.16 \times 0.447} \\[10pt] &= \frac{-5}{1.41} \approx \mathbf{-3.54} \end{aligned} $$

t値の大きさ(絶対値)は 3.54 です。

ステップ3:判定(自由度に注意!)

判定基準(t分布表)を見ますが、ここの自由度がポイントです。
2つのデータを合体させたので、自由度も合体します。

自由度 $\phi = n_1 + n_2 - 2$

今回は $10 + 10 - 2 = 18$ です。
自由度18、有意水準5%の基準値は 2.101 です。

$3.54 > 2.101$ なので、有意差あり!
「A工場とB工場の強度には、明確な差がある」と証明できました。

まとめ

前提: F検定で等分散と分かった時だけ使える。
方法: 分散をプール(合体)して $s_p^2$ を作る。
理由: データを混ぜて自由度($n_1+n_2-2$)を増やし、判定精度を上げるため。

しかし、世の中そんなに都合よく「バラつきが同じ」ケースばかりではありません。
F検定で「バラつきが違う(非等分散)」と判定されてしまったら、どうすればいいのでしょうか?

「分散が違うなら、混ぜちゃダメだよね?」

そんなピンチを救うのが、現代の実務におけるスタンダード、「ウェルチのt検定」です。

タグ

-検定・推定
-