こんにちは、シラスです。
統計の勉強をしていると、「プールする(Pooling)」という言葉によく出会います。
- t検定における「プールした分散(Pooled Variance)」
- 実験計画法における「誤差項へのプーリング」
「プール」と聞くと水泳のプールを思い浮かべますが、統計学では「溜める・合算する」という意味で使われます。
この操作、一見すると「データを勝手に混ぜていいの?」と不安になりますが、実は少ないデータで戦うエンジニアにとっては最強の武器になります。
今回は、数式が苦手な方でも分かるように、この「分散をプールする」という操作の直感的な意味と、なぜそれが必要なのかを解説します。
目次
1. 結論:情報を合体させて「信頼度」を上げる
まず、統計学におけるプーリングの正体はこれです。
それらのデータをひとまとめ(プール)にして、より精度の高い「共通の分散」を計算すること。
メリットは?
データ数(自由度)が増えるため、検定のパワー(検出力)が上がり、微妙な差でも「有意」と言えるようになる。
これだけでは抽象的なので、具体的な「t検定」の例で見てみましょう。
2. t検定での例え:2人の職人の腕前
ある工場で「AさんとBさん、どっちが作業が速いか?」を調べるために、作業時間を5回ずつ計測したとします。
- Aさんのデータ(5回): 平均10分、バラつき小
- Bさんのデータ(5回): 平均12分、バラつき小
この「2分の差」が偶然なのか実力なのかを判定するには、彼らの「作業時間のバラつき(標準偏差)」を基準にする必要があります。
ここで、2つの計算方法があります。
① プールしない場合(別々に計算)
「Aさんのバラつき」はAさんの5個のデータだけで計算。「Bさんのバラつき」はBさんの5個のデータだけで計算します。 データがたった5個ずつしかないので、計算された「バラつき」の値はあまり信用できません(たまたま安定していただけかもしれません)。
これは「ウェルチのt検定」と呼ばれる手法です。
② プールする場合(合体して計算)
ここで、もし「AさんもBさんもベテランだから、作業の安定感(分散)自体は同じくらいのはずだ」と仮定できたらどうでしょうか?
それなら、AさんとBさんのデータを「合計10個のデータ」としてひとまとめ(プール)にして、「職人の平均的な作業バラつき」を計算した方が、よりデータ数が多くなり、正確な値が出せますよね?
これが「分散のプーリング」です。 「別々に計算するより、合わせたほうがデータ数(n)が増えてお得でしょ?」という考え方です。これは一般的な「スチューデントのt検定」で使われます。
3. なぜプーリングすると「お得」なのか?
なぜそこまでしてデータを合体させたいのでしょうか? その理由は、統計的検定のパワーの源である「自由度」にあります。
統計の世界では、データ数(自由度)が増えるほど、判定用の分布(t分布)の形が鋭くなり、「わずかな差」でも厳密に見分けられるようになります。
プーリングとは、「分散が同じ」という条件でデータを借りてきて、メガネの度数を上げる(=検定力を高める)テクニックなのです。
4. 実験計画法(DOE)におけるプーリング
さて、この考え方は、もっと複雑な「実験計画法」でも全く同じように使われます。
実験計画法では、効果のなかった因子を「誤差項(Error)」にプーリング(対象外配置)しますよね? あれは何をやっているのでしょうか?
- 「この因子(例:湿度)は、結果に影響を与えていないようだ」
- 「ということは、この因子の変動は、ただの偶然のノイズ(誤差)と同じ性質のものだ」
- 「だったら、誤差項と混ぜて(プールして)、『誤差のデータ数』を増やしてあげよう」
- 「そうすれば、分母(誤差分散)の精度が上がって、本当に重要な因子をより正確に見つけられるはずだ!」
少ない実験回数(L8やL18)で戦うエンジニアにとって、死に体の因子を誤差にプールすることは、「かき集められる情報は全部かき集めて、判定精度を上げる」ための生存戦略なのです。
5. ただし「混ぜるな危険」のルールがある
最後に重要な注意点です。プーリングは常に許されるわけではありません。
「等分散(バラつきが同じ)」であることが大前提です。
もし、「Aさんは超精密機械のように正確(バラつき小)」で、「Bさんは日によってムラがある(バラつき大)」だった場合、この2人を混ぜて「平均的なバラつき」を作るのはナンセンスです。実態とかけ離れた基準ができてしまいます。
- t検定の場合: 明らかに分散が違うなら、プールしない「ウェルチのt検定」を使う。
- 実験計画法の場合: 明らかに意味がありそうな(P値が小さい)因子は、無理やり誤差にプールしない。
まとめ
「分散をプールする」という操作の意味、イメージできましたか?
- 何をしている? 似たもの同士のデータを混ぜて、母数(データ数)を水増ししている。
- なぜするの? 自由度が増えれば、推定の精度が上がり、検定で「差」を見つけやすくなるから。
統計学において「混ぜる」という行為は、決して適当にやっているわけではなく、「限られたデータの中から、少しでも真実に近づきたい」という工夫の結果なのです。