統計学基礎

第12回:二項分布 - 成功と失敗の繰り返し

はじめに

「コインを10回投げて、表が何回出るか?」「100個の製品を検査して、不良品が何個見つかるか?」「1000人にアンケートを取って、賛成する人は何人か?」...これらはすべて「成功」と「失敗」の2つの結果しかない試行を繰り返す状況です。

このような状況を数学的にモデル化したものが「二項分布」です。二項分布は統計学で最も重要な離散分布の一つで、品質管理、世論調査、医学研究、マーケティングなど、あらゆる分野で活用されています。

今日は、二項分布の基本的な仕組みから実際の計算方法、そして正規分布との関係まで、具体例を交えながら詳しく学んでいきましょう。

二項分布の条件と定義

二項分布が適用される条件

二項分布は、以下の4つの条件をすべて満たす場合に適用できます:

1. 固定された試行回数(n)

例:コインを10回投げる → n = 10

2. 各試行は独立

例:1回目のコイン投げの結果は、2回目の結果に影響しない

3. 各試行の結果は2種類のみ

例:コイン投げ → 表(成功)または裏(失敗)

4. 成功確率は一定(p)

例:どの回でも表が出る確率は0.5で一定

二項分布の定義

二項分布 B(n, p)は、n回の独立試行でちょうどk回成功する確率を表す分布です。

確率質量関数

P(X = k) = C(n,k) × p^k × (1-p)^(n-k)

X:成功回数(確率変数)
n:試行回数
p:1回の試行での成功確率  
k:成功回数(0, 1, 2, ..., n)
C(n,k):組み合わせ(nCk)

組み合わせの計算

C(n,k) = n! / (k! × (n-k)!)

身近な例での理解

例:コイン投げ(n=3, p=0.5)

3回投げて、表が2回出る確率は?

P(X = 2) = C(3,2) × (0.5)² × (0.5)¹
         = 3 × 0.25 × 0.5
         = 0.375 = 37.5%

組み合わせの確認:
表表裏、表裏表、裏表表 → 3通り

期待値と分散の導出

期待値の導出

二項分布の期待値

E(X) = np

導出の直感的理解:
・1回の試行で成功する期待回数:p
・n回繰り返すので:n × p

厳密な導出(概要)

E(X) = Σ(k=0 to n) k × P(X = k)
     = Σ(k=0 to n) k × C(n,k) × p^k × (1-p)^(n-k)
     = np (数学的操作により)

分散の導出

二項分散の分散

Var(X) = np(1-p)

導出の直感的理解:
・各試行は成功確率pのベルヌーイ分布
・ベルヌーイ分布の分散:p(1-p)
・n回の独立試行なので:n × p(1-p)

標準偏差

SD(X) = √[np(1-p)]

具体例での確認

例:コイン投げ10回

n = 10, p = 0.5

期待値:E(X) = 10 × 0.5 = 5回
分散:Var(X) = 10 × 0.5 × 0.5 = 2.5
標準偏差:SD(X) = √2.5 ≈ 1.58回

解釈:10回投げると平均5回表が出て、
      ±1.58回程度のばらつきが予想される

身近な二項分布の例

例1:品質検査

設定

製品の不良率:3%
検査個数:50個
不良品の個数をXとする → X ~ B(50, 0.03)

基本統計量

期待値:E(X) = 50 × 0.03 = 1.5個
分散:Var(X) = 50 × 0.03 × 0.97 = 1.455
標準偏差:SD(X) = √1.455 ≈ 1.21個

具体的な確率計算

不良品が0個の確率:
P(X = 0) = C(50,0) × (0.03)⁰ × (0.97)⁵⁰
         = 1 × 1 × (0.97)⁵⁰
         ≈ 0.218 = 21.8%

不良品が1個の確率:
P(X = 1) = C(50,1) × (0.03)¹ × (0.97)⁴⁹
         = 50 × 0.03 × (0.97)⁴⁹
         ≈ 0.337 = 33.7%

品質管理への応用

50個中3個以上不良品が出る確率:
P(X ≥ 3) = 1 - P(X ≤ 2)
         = 1 - [P(X = 0) + P(X = 1) + P(X = 2)]
         ≈ 1 - (0.218 + 0.337 + 0.258)
         ≈ 0.187 = 18.7%

→ 18.7%の確率で「異常」と判定される

例2:アンケート調査

設定

新商品への賛成率:40%
調査人数:200人
賛成者数をXとする → X ~ B(200, 0.4)

基本統計量

期待値:E(X) = 200 × 0.4 = 80人
分散:Var(X) = 200 × 0.4 × 0.6 = 48
標準偏差:SD(X) = √48 ≈ 6.93人

信頼区間の概算(±2標準偏差)

約95%の確率で以下の範囲に収まる:
80 ± 2 × 6.93 = 80 ± 13.86
→ 66人〜94人の範囲

解釈:200人調査で66〜94人が賛成なら
      「想定内」の結果

例3:医療検査

設定

ある治療法の成功率:70%
患者数:20人
成功者数をXとする → X ~ B(20, 0.7)

治療効果の評価

期待値:E(X) = 20 × 0.7 = 14人
標準偏差:SD(X) = √(20 × 0.7 × 0.3) = √4.2 ≈ 2.05人

実際の成功者が10人だった場合:
10人は期待値14人から約2標準偏差下
→ 「想定より低い」と判断できる

二項分布の形状特性

pの値による形状の変化

p = 0.5(対称分布)

期待値と中央値が一致
左右対称な釣鐘型

p < 0.5(右に歪んだ分布)

成功確率が低い
0に近い値が多い
長い右の尾

p > 0.5(左に歪んだ分布)

成功確率が高い  
nに近い値が多い
長い左の尾

nの値による変化

nが小さい場合

階段状の分布
離散性が目立つ

nが大きい場合

滑らかな釣鐘型に近づく
正規分布に近似可能

正規近似の条件

近似が有効な条件

二項分布は、一定の条件下で正規分布に近似できます。これにより計算が大幅に簡単になります。

近似の条件

np ≥ 5 かつ n(1-p) ≥ 5

または、より厳しい条件:
np ≥ 10 かつ n(1-p) ≥ 10

近似式

X ~ B(n,p) → X ~ N(np, np(1-p))

平均:μ = np
分散:σ² = np(1-p)

連続性補正

離散分布を連続分布で近似する際は、連続性補正を行います:

P(X = k) ≈ P(k - 0.5 < Z < k + 0.5)
P(X ≤ k) ≈ P(Z < k + 0.5)  
P(X ≥ k) ≈ P(Z > k - 0.5)

近似の実例

例:大規模アンケート

n = 1000, p = 0.3
条件確認:np = 300 ≥ 10, n(1-p) = 700 ≥ 10 ✓

近似:X ~ N(300, 210)
標準偏差:√210 ≈ 14.49

280人以上が賛成する確率:
P(X ≥ 280) = P(X ≥ 279.5) (連続性補正)

標準化:Z = (279.5 - 300) / 14.49 = -1.41
P(Z > -1.41) ≈ 0.921 = 92.1%

二項分布の実践的活用

A/Bテストでの応用

設定

ウェブサイトの2つのデザイン比較
・デザインA:コンバージョン率5%、訪問者500人
・デザインB:コンバージョン率7%、訪問者500人

統計的有意性の検定

帰無仮説:両デザインのコンバージョン率は同じ
対立仮説:デザインBの方が高い

各デザインでのコンバージョン数:
A ~ B(500, 0.05) → 期待値25人、標準偏差4.87人
B ~ B(500, 0.07) → 期待値35人、標準偏差5.70人

信頼性工学での応用

システムの冗長設計

各部品の故障率:10%
3つの部品を並列配置(1つでも動けばシステム稼働)

システム故障確率:
全部品が故障する確率 = (0.1)³ = 0.001 = 0.1%
システム稼働率:99.9%

→ 冗長性によりシステム信頼性が大幅向上

まとめ

二項分布は「成功・失敗」を繰り返す状況をモデル化する基本的な分布です。期待値np、分散np(1-p)という単純な公式により、品質管理から市場調査まで幅広い分野で実用的に活用できます。

今日のポイント

✅ 適用条件:固定回数、独立性、2択結果、一定成功確率
✅ 基本公式:期待値np、分散np(1-p)
✅ 実践例:品質検査、アンケート調査、医療研究
✅ 正規近似:np≥5かつn(1-p)≥5で近似可能
✅ 連続性補正:離散→連続近似での重要な調整

次回は「ポアソン分布」について学びます。稀な事象をモデル化する分布で、事故件数や来客数の分析に威力を発揮する重要な分布を詳しく解説していきます!

タグ

-統計学基礎