こんにちは、シラスです。
前回、サンプル数が少ない時は「カイ二乗検定(近似)」ではなく「フィッシャーの正確検定」を使うべきだ、という話をしました。
では、「推定(区間推定)」の場合はどうでしょうか?
以前紹介した「母比率の信頼区間」の公式は、正規分布近似を使ったものでした。
しかし、この公式には致命的な欠陥があります。
発生数が「0回」の時、計算不能(誤差ゼロ)になってしまうのです。
例えば、「5回実験して、失敗は0回だった」とします。
- 比率 $\hat{p} = 0$
- 標準誤差 $\sqrt{0 \times 1 / 5} = 0$
すると、信頼区間は $0 \pm 0$ (絶対失敗しない!) という、あり得ない結論になってしまいます。
「たった5回成功しただけで、未来永劫失敗しない」なんて言いきれませんよね?
この矛盾を解決し、少ないデータからでも厳密なリスク(上限値)を弾き出すのが、今回紹介する「F分布を利用した正確な信頼区間」です。
目次
1. なぜ「F分布」が出てくるのか?
「比率の話なのに、なぜ分散比のF分布?」と不思議に思うかもしれません。
数学的な証明は省きますが、「二項分布(カクカクした分布)」と「ベータ分布(連続分布)」と「F分布」は、親戚関係にあります。
数式変換すると、二項分布の累積確率は、F分布の形に書き換えることができるのです。
これを利用すると、近似(ごまかし)を一切使わずに、厳密な確率計算が可能になります。
(これを「クロッパー・ピアソン(Clopper-Pearson)の正確信頼区間」と呼びます)
2. 計算式:見るだけで嫌になる?
公式は非常に長くて複雑です。
(※QC検定1級を受験する人以外は、暗記する必要はありません。「F値を使うんだな」とだけ覚えてください)
▼ 下側信頼限界 $P_L$
自由度: $\phi_1 = 2(n-x+1), \ \phi_2 = 2x$
▼ 上側信頼限界 $P_U$
自由度: $\phi_3 = 2(x+1), \ \phi_4 = 2(n-x)$
複雑ですね…。
しかし、実務で重要なのは、この式を使って「0回の時のリスク」を見積もることです。
3. 実践:失敗ゼロでも油断するな
具体的なケースで計算してみましょう。
宇宙開発用の部品を $n=5$ 個 作成し、耐久テストを行いました。
結果、$x=0$ 個(全数合格、故障ゼロ) でした。
「この部品の故障率は、最悪(95%信頼区間の上限)で何%と見積もるべきか?」
通常の計算では「故障率0%」ですが、F分布を使うと「隠れたリスク」が見えてきます。
ステップ1:自由度を決める
上側限界 $P_U$ の式の自由度を計算します。
$n=5, x=0$ なので、
- 分子自由度 $\phi_3 = 2(0+1) = 2$
- 分母自由度 $\phi_4 = 2(5-0) = 10$
ステップ2:F分布表を見る
F分布表から、自由度 $(2, 10)$、片側2.5%(両側5%)の値を探します。
$F(2, 10; 0.025) = 5.46$ (※表によっては載っていないので補間します。ここでは約5.46とします)
ステップ3:公式に代入
なんと! 上限値は 52% です。
「5回連続で成功した」というデータだけでは、統計学的には「故障率が50%を超える(2回に1回壊れる)粗悪品である可能性」を否定できないのです。
これが「小サンプルの怖さ」であり、正確な区間推定を行う意義です。
4. 実務での使い所
このF分布を使った推定は、主に「信頼性工学」の分野で使われます。
- 破壊検査: 製品を壊すテストなので、数個しか試せない。
- 医療データ: 症例数が極端に少ない。
こうした場面で「発生ゼロでした!安全です!」と報告するのは素人です。
プロはF分布を使って「発生はゼロでしたが、信頼区間上限は〇〇%なので、リスクはまだ残っています」と報告します。
まとめ
これで「比率(確率)」シリーズは完結です。
近似(Z検定)から厳密解(フィッシャー・F分布)まで、状況に合わせて武器を使い分けられるようになれば、あなたはもうデータ分析の上級者です。
次回からは、いよいよ統計学の最難関にして最高峰。
複数の条件を同時に操る「実験計画法(Design of Experiments)」の深淵へと進んでいきましょう。
統計学のおすすめ書籍
統計学の「数式アレルギー」を治してくれた一冊
「Σ(シグマ)や ∫(インテグラル)を見ただけで眠くなる…」 そんな私を救ってくれたのが、小島寛之先生の『完全独習 統計学入門』です。
この本は、難しい記号を一切使いません。 「中学レベルの数学」と「日本語」だけで、検定や推定の本質を驚くほど分かりやすく解説してくれます。
「計算はソフトに任せるけど、統計の『こころ(意味)』だけはちゃんと理解したい」 そう願う学生やエンジニアにとって、これ以上の入門書はありません。
【QC2級】「どこが出るか」がひと目で分かる!最短合格へのバイブル
私がQC検定2級に合格した際、使い倒したのがこの一冊です。
この本の最大の特徴は、「各単元の平均配点(何点分出るか)」が明記されていること。 「ここは出るから集中」「ここは出ないから流す」という戦略が立てやすく、最短ルートで合格ラインを突破できます。
解説が分かりやすいため、私はさらに上の「QC1級」を受験する際にも、基礎の確認用として辞書代わりに使っていました。 迷ったらまずはこれを選んでおけば間違いありません。