検定・推定

検出力(Power)の計算|「実験したけど差が出なかった」を防ぐためのサンプルサイズ n の決め方

こんにちは、シラスです。

実験や調査を始める前、上司や同僚から必ず聞かれる質問があります。

「で、サンプル数($n$)は何個取ればいいの? 3個でいい? それとも10個?」

この問いに対して、「うーん、前回も5個だったから5個で…」と、なんとなく答えていませんか?

実は、この「$n$数を決める」という作業こそが、実験計画において最も重要で、かつ最初にやるべき設計なのです。

適当な$n$数で実験を始めると、後で取り返しのつかないことになります。
今日は、失敗しない実験のための必須知識、「検出力(Power)」を用いたサンプルサイズの決定法を解説します。

1. 検出力(Power)とは「視力」である

まず、用語の定義です。
検出力($1 - \beta$)とは、一言で言えば「差がある時に、ちゃんと『差がある!』と見抜く確率」のことです。

📊 検出力の正体
  • 第2種の過誤($\beta$): 差があるのに「見逃す」確率(ぼんやり者)。
  • 検出力($1 - \beta$): 差がある時に「見つける」確率(しっかり者)。

検出力80%とは、「本当に効果があるなら、10回実験して8回はちゃんと『有意差あり』と判定できる」という能力(視力)のことです。

2. サンプル数 $n$ を決める「3つの要素」

では、必要な $n$ はどうやって計算するのでしょうか?
実は、計算式に入れるべき変数は決まっています。

以下の3つを決めることで、自動的に $n$ が導き出されます。

🧪 nを決めるトライアングル
  1. 有意水準($\alpha$): 誤報を許容する確率(通常 5%)。
  2. 検出力($1-\beta$): 見逃しを防ぐ確率(通常 80%〜90%)。
  3. 検出したい差($\Delta$): 「どれくらい小さな差」を見つけたいか?

特に重要なのが、3つ目の「検出したい差(効果量)」です。

望遠鏡の例え

実験を「夜空の星(差)を探すこと」に例えてみましょう。

  • 巨大な星(大きな差)を見つけたい場合:
    肉眼や、安物の双眼鏡(少ないデータ $n$)でも十分見つかります。
  • 微小な星(小さな差)を見つけたい場合:
    高性能な巨大天体望遠鏡(大量のデータ $n$)が必要です。

つまり、「どれくらい微細な違いにこだわりたいか?」を決めないと、必要な $n$ は決まらないのです。

3. 実践:n数を設計してみよう

例えば、新しいダイエット薬の効果を検証するとします。
(過去のデータから、体重のバラつき(標準偏差)は $\sigma = 2kg$ だと分かっているとします)

ケースA:「0.1kg」の差でも見逃したくない!

「0.1kgでも減るなら効果ありとしたい!」という厳しい要求です。
微細な星を見つけるために、巨大な望遠鏡が必要です。

  • 計算結果: $n = 3,000$ 人 くらい必要

→ コストがかかりすぎて現実的ではありません。

ケースB:「2kg」くらい減らないと意味がない

「2kgも変わらないような薬なら、効果なしでいいよ」という割り切りです。
大きな星だけ見つかればいいので、双眼鏡で十分です。

  • 計算結果: $n = 10$ 人 くらいでOK

→ これなら明日から実験できますね。

4. 「実験したけど有意差が出なかった」の正体

よくある失敗パターンがこれです。

「とりあえず $n=3$ で実験してみました。
結果、平均値に差はありそうでしたが、検定したら『有意差なし』でした。
やっぱり効果ないんですかね?」

これは、効果がないのではありません。
「望遠鏡の性能($n$)が低すぎて、星(差)が見えなかっただけ」である可能性が高いです(検出力不足)。

これは、非常にもったいない「実験の無駄遣い」です。
最初に検出力を計算していれば、「この差を見つけるには最低でも $n=10$ は必要だ」と分かっていたはずだからです。

まとめ

検出力とは、差がある時に「ある」と言える確率。
小さな差を見つけたいなら、データ数を増やすしかない。
実験を始める前に、必ず「見つけたい差」を決めて $n$ を計算する。

「なんとなく $n=5$」はやめましょう。
「私はこれくらいの差を見つけたい。だから $n$ はこれだけ必要なんです」と論理的に説明できてこそ、プロのエンジニアです。

これで「計量値の検定・推定シリーズ」の基礎は完了です。

タグ

-検定・推定
-