こんにちは、シラスです。
これまで、比率の比較には「カイ二乗検定」や「Z検定」を使ってきました。
これらは非常に便利ですが、一つだけ致命的な弱点があります。
例えば、希少な副作用の調査や、破壊検査のようなコストのかかる実験では、データ数が「3個」や「5個」しかないことがあります。
そんな極限状態でカイ二乗検定を使うと、近似(ごまかし)が効かなくなり、誤った判定を下してしまいます。
そんな時に使うのが、今回紹介する統計学の奥義、「フィッシャーの正確確率検定(Fisher's Exact Test)」です。
近似を一切使わず、真正面から確率を計算するこの手法は、まさに「正確(Exact)」の名にふさわしい最強の検定です。
目次
1. なぜ「カイ二乗」じゃダメなのか?
カイ二乗検定は、本来カクカクしているデータ(離散型)を、滑らかなカーブ(連続型分布)に無理やり当てはめて計算しています。
データ数が多いときはこのズレは無視できますが、少ないと無視できなくなります。
例:「Aグループ5人のうち、成功は1人だけ」
→ 期待度数が小さすぎるため、カイ二乗検定を使うとP値が不正確になります。
2. フィッシャーのロジック:壺の中のボール
フィッシャーの検定は、近似(カーブ)を使いません。
その代わり、高校数学で習った「場合の数(コンビネーション)」を使って、その事象が起きる確率をドンピシャで計算します。
超幾何分布(Hypergeometric Distribution)
イメージは「壺の中からボールを取り出す」実験です。
- 壺の中に「赤玉(成功)」と「白玉(失敗)」が入っています。
- そこから何個か取り出した時、「赤玉がちょうど〇個出る確率」はいくらでしょう?
これを2つのグループ(A群・B群)の比較に応用したのがフィッシャーの検定です。
3. 計算式:階乗(!)の嵐
具体的な計算式を見てみましょう。
以下のような2×2の分割表(クロス集計表)があるとします。
| 成功 | 失敗 | 計 | |
|---|---|---|---|
| A群 | a | b | a+b |
| B群 | c | d | c+d |
| 計 | a+c | b+d | n |
この表が得られる確率 $P$ は、以下の式で求められます。
「!」は階乗(例:$5! = 5 \times 4 \times 3 \times 2 \times 1$)です。
周辺度数(外側の合計値)を固定した状態で、内側のセル(a,b,c,d)が偶然こうなる確率を計算しています。
4. 実践:副作用の有無を検定する
実際の「少数データ」でやってみましょう。
新薬の副作用を調べました。
- 投薬群(5人): 副作用あり 4人
- 偽薬群(5人): 副作用あり 1人
「投薬群の方が明らかに副作用が多いように見えるが、たった5人ずつのデータで有意差と言えるか?」
ステップ1:確率を計算する
この表(投薬4人、偽薬1人)が発生する確率を計算します。
(※手計算は大変ですが、イメージだけ掴んでください)
$$ P_{今の状態} = \frac{5! 5! 5! 5!}{10! 4! 1! 1! 4!} \approx \mathbf{0.024} \ (2.4\%) $$
ステップ2:「もっと極端なケース」も足す
P値とは「今の状態、またはそれ以上に極端な状態が起きる確率」でしたね。
今回より極端なケースとは、「投薬5人全員、偽薬0人」という状態です。
$$ P_{極端} \approx \mathbf{0.004} \ (0.4\%) $$
ステップ3:P値を出す
これらを合計します。
$$ P = 0.024 + 0.004 = \mathbf{0.028} $$
P値 = 0.028(2.8%) となりました。
有意水準 5% なら、「有意差あり」です!
わずか5人のデータでも、「これは偶然にしては出来すぎている(2.8%しかない)」と正確に判定できました。
まとめ
昔は計算が大変すぎて「小サンプル専用」と言われていましたが、PCが進化した現代では、「サンプル数が多くても、とりあえずフィッシャーを使っておけば間違いない(常に正確だから)」という使い方が主流になりつつあります。
「データが少ないから解析できない…」と諦める前に、この奥義を思い出してください。
さて、検定(白黒つける)はこれで完璧です。
最後は、この少数データから「真の発生率(%)の信頼区間」を導き出す、もう一つの奥義を紹介します。
次回、F分布を使った「正確な信頼区間」の計算方法です。
統計学のおすすめ書籍
統計学の「数式アレルギー」を治してくれた一冊
「Σ(シグマ)や ∫(インテグラル)を見ただけで眠くなる…」 そんな私を救ってくれたのが、小島寛之先生の『完全独習 統計学入門』です。
この本は、難しい記号を一切使いません。 「中学レベルの数学」と「日本語」だけで、検定や推定の本質を驚くほど分かりやすく解説してくれます。
「計算はソフトに任せるけど、統計の『こころ(意味)』だけはちゃんと理解したい」 そう願う学生やエンジニアにとって、これ以上の入門書はありません。
【QC2級】「どこが出るか」がひと目で分かる!最短合格へのバイブル
私がQC検定2級に合格した際、使い倒したのがこの一冊です。
この本の最大の特徴は、「各単元の平均配点(何点分出るか)」が明記されていること。 「ここは出るから集中」「ここは出ないから流す」という戦略が立てやすく、最短ルートで合格ラインを突破できます。
解説が分かりやすいため、私はさらに上の「QC1級」を受験する際にも、基礎の確認用として辞書代わりに使っていました。 迷ったらまずはこれを選んでおけば間違いありません。