実験計画法 統計学基礎

【統計学】「分散をプールする」とは?t検定と実験計画法をつなぐ直感的イメージ

こんにちは、シラスです。

統計の勉強をしていると、「プールする(Pooling)」という言葉によく出会います。

  • t検定における「プールした分散(Pooled Variance)」
  • 実験計画法における「誤差項へのプーリング」

「プール」と聞くと水泳のプールを思い浮かべますが、統計学では「溜める・合算する」という意味で使われます。

この操作、一見すると「データを勝手に混ぜていいの?」と不安になりますが、実は少ないデータで戦うエンジニアにとっては最強の武器になります。

今回は、数式が苦手な方でも分かるように、この「分散をプールする」という操作の直感的な意味と、なぜそれが必要なのかを解説します。

1. 結論:情報を合体させて「信頼度」を上げる

まず、統計学におけるプーリングの正体はこれです。

📊 プーリング(Pooling)の定義
複数のグループのバラつき(分散)が「同じくらい」だとみなせる時、
それらのデータをひとまとめ(プール)にして、より精度の高い「共通の分散」を計算すること。

メリットは?

データ数(自由度)が増えるため、検定のパワー(検出力)が上がり、微妙な差でも「有意」と言えるようになる。

これだけでは抽象的なので、具体的な「t検定」の例で見てみましょう。

2. t検定での例え:2人の職人の腕前

ある工場で「AさんとBさん、どっちが作業が速いか?」を調べるために、作業時間を5回ずつ計測したとします。

  • Aさんのデータ(5回): 平均10分、バラつき小
  • Bさんのデータ(5回): 平均12分、バラつき小

この「2分の差」が偶然なのか実力なのかを判定するには、彼らの「作業時間のバラつき(標準偏差)」を基準にする必要があります。

ここで、2つの計算方法があります。

① プールしない場合(別々に計算)

「Aさんのバラつき」はAさんの5個のデータだけで計算。「Bさんのバラつき」はBさんの5個のデータだけで計算します。 データがたった5個ずつしかないので、計算された「バラつき」の値はあまり信用できません(たまたま安定していただけかもしれません)。

これは「ウェルチのt検定」と呼ばれる手法です。

② プールする場合(合体して計算)

ここで、もし「AさんもBさんもベテランだから、作業の安定感(分散)自体は同じくらいのはずだ」と仮定できたらどうでしょうか?

それなら、AさんとBさんのデータを「合計10個のデータ」としてひとまとめ(プール)にして、「職人の平均的な作業バラつき」を計算した方が、よりデータ数が多くなり、正確な値が出せますよね?

これが「分散のプーリング」です。 「別々に計算するより、合わせたほうがデータ数(n)が増えてお得でしょ?」という考え方です。これは一般的な「スチューデントのt検定」で使われます。

3. なぜプーリングすると「お得」なのか?

なぜそこまでしてデータを合体させたいのでしょうか? その理由は、統計的検定のパワーの源である「自由度」にあります。

🔍 自由度は「レンズの解像度」

統計の世界では、データ数(自由度)が増えるほど、判定用の分布(t分布)の形が鋭くなり、「わずかな差」でも厳密に見分けられるようになります。

プーリングとは、「分散が同じ」という条件でデータを借りてきて、メガネの度数を上げる(=検定力を高める)テクニックなのです。

4. 実験計画法(DOE)におけるプーリング

さて、この考え方は、もっと複雑な「実験計画法」でも全く同じように使われます。

実験計画法では、効果のなかった因子を「誤差項(Error)」にプーリング(対象外配置)しますよね? あれは何をやっているのでしょうか?

  1. 「この因子(例:湿度)は、結果に影響を与えていないようだ」
  2. 「ということは、この因子の変動は、ただの偶然のノイズ(誤差)と同じ性質のものだ」
  3. 「だったら、誤差項と混ぜて(プールして)、『誤差のデータ数』を増やしてあげよう
  4. 「そうすれば、分母(誤差分散)の精度が上がって、本当に重要な因子をより正確に見つけられるはずだ!」

少ない実験回数(L8やL18)で戦うエンジニアにとって、死に体の因子を誤差にプールすることは、「かき集められる情報は全部かき集めて、判定精度を上げる」ための生存戦略なのです。

5. ただし「混ぜるな危険」のルールがある

最後に重要な注意点です。プーリングは常に許されるわけではありません。

「等分散(バラつきが同じ)」であることが大前提です。

もし、「Aさんは超精密機械のように正確(バラつき小)」で、「Bさんは日によってムラがある(バラつき大)」だった場合、この2人を混ぜて「平均的なバラつき」を作るのはナンセンスです。実態とかけ離れた基準ができてしまいます。

  • t検定の場合: 明らかに分散が違うなら、プールしない「ウェルチのt検定」を使う。
  • 実験計画法の場合: 明らかに意味がありそうな(P値が小さい)因子は、無理やり誤差にプールしない。

まとめ

「分散をプールする」という操作の意味、イメージできましたか?

  • 何をしている? 似たもの同士のデータを混ぜて、母数(データ数)を水増ししている。
  • なぜするの? 自由度が増えれば、推定の精度が上がり、検定で「差」を見つけやすくなるから。

統計学において「混ぜる」という行為は、決して適当にやっているわけではなく、「限られたデータの中から、少しでも真実に近づきたい」という工夫の結果なのです。

タグ

-実験計画法, 統計学基礎
-