統計学基礎

第14回:幾何分布 - 初回成功までの道のり

はじめに

「宝くじで初めて当たるまで何回買う必要があるか?」「就職活動で初めて合格をもらうまで何社受験するか?」「機械が初めて故障するまで何回使用できるか?」...これらはすべて「初回成功までの試行回数」を扱う問題です。

このような状況を数学的にモデル化したものが「幾何分布」です。名前の由来は、確率が幾何級数(等比数列)の形で表現されることにあります。幾何分布は「無記憶性」という興味深い性質を持ち、信頼性工学や待ち時間分析で重要な役割を果たしています。

今日は、幾何分布の基本的な性質から実際の応用例、そして連続版である指数分布との関係まで、具体例を交えながら詳しく学んでいきましょう。

幾何分布の定義と無記憶性

幾何分布が適用される条件

幾何分布は、以下の条件を満たす状況に適用できます:

1. 各試行は独立

例:毎回の宝くじ購入は独立
→ 前回の結果は次回の結果に影響しない

2. 各試行の結果は成功か失敗の2種類

例:合格/不合格、当選/落選、正常/故障

3. 成功確率は一定(p)

例:どの試行でも成功確率は同じp

4. 初回成功までの試行回数を数える

例:3回目で初めて成功 → X = 3

幾何分布の定義

幾何分布は、成功確率pの試行を繰り返して、ちょうどk回目で初めて成功する確率を表す分布です。

確率質量関数

P(X = k) = (1-p)^(k-1) × p

X:初回成功までの試行回数
p:1回の試行での成功確率
k:試行回数(1, 2, 3, ...)

累積分布関数

P(X ≤ k) = 1 - (1-p)^k
P(X > k) = (1-p)^k

無記憶性の理解

幾何分布の最も興味深い性質は「無記憶性」です。これは、過去の失敗が将来の成功確率に影響しないという性質です。

無記憶性の公式

P(X > s + t | X > s) = P(X > t)

解釈:「s回失敗した後、さらにt回以上かかる確率」
    = 「最初からt回以上かかる確率」

身近な例での理解

宝くじの例(成功確率p = 0.01):

「10回外れた後、さらに5回以上かかる確率」
= 「最初から5回以上かかる確率」

P(X > 15 | X > 10) = P(X > 5) = (0.99)^5 ≈ 0.951

→ 過去の失敗は将来に影響しない!

期待値と分散の計算

期待値の導出

幾何分布の期待値

E(X) = 1/p

直感的理解:
成功確率がpなら、平均して1/p回の試行で成功

厳密な導出(概要)

E(X) = Σ(k=1 to ∞) k × (1-p)^(k-1) × p
     = p × Σ(k=1 to ∞) k × (1-p)^(k-1)
     = p × 1/p² = 1/p (無限級数の計算により)

分散の導出

幾何分布の分散

Var(X) = (1-p)/p²

標準偏差:SD(X) = √[(1-p)/p²] = √(1-p)/p

具体例での確認

例:就職活動(合格確率20%)

p = 0.2

期待値:E(X) = 1/0.2 = 5回
→ 平均5社受験すれば1社合格

分散:Var(X) = 0.8/(0.2)² = 0.8/0.04 = 20
標準偏差:SD(X) = √20 ≈ 4.47回

解釈:5±4.47回、つまり1~10回程度の範囲でばらつく

身近な幾何分布の例

例1:資格試験の合格

設定

ある資格試験の合格率:30%
初回合格までの受験回数をXとする
X ~ Geo(0.3)

基本統計量

期待値:E(X) = 1/0.3 ≈ 3.33回
分散:Var(X) = 0.7/(0.3)² ≈ 7.78
標準偏差:SD(X) ≈ 2.79回

具体的な確率計算

1回で合格する確率:
P(X = 1) = 0.3 = 30%

2回で合格する確率:
P(X = 2) = 0.7 × 0.3 = 21%

3回で合格する確率:
P(X = 3) = (0.7)² × 0.3 = 14.7%

5回以内に合格する確率:
P(X ≤ 5) = 1 - (0.7)⁵ ≈ 1 - 0.168 = 83.2%

学習計画への応用

「5回以内に必ず合格したい」場合:
成功確率83.2%では不安

90%の確率で5回以内に合格するには:
P(X ≤ 5) = 1 - (1-p)⁵ = 0.9
(1-p)⁵ = 0.1
1-p = (0.1)^(1/5) ≈ 0.631
p ≈ 0.369

→ 合格率を37%まで上げる必要がある

例2:機械の故障分析

設定

製造機械の1日あたりの故障確率:2%
初回故障までの日数をXとする
X ~ Geo(0.02)

保守計画の策定

期待値:E(X) = 1/0.02 = 50日
→ 平均50日で故障

90%の確率で故障する日数:
P(X ≤ k) = 1 - (0.98)^k = 0.9
(0.98)^k = 0.1
k × ln(0.98) = ln(0.1)
k = ln(0.1) / ln(0.98) ≈ 115日

→ 100日程度で予防保守を実施

無記憶性の実践的意味

「30日間故障しなかった機械」でも、
明日故障する確率は依然として2%

→ 機械は「疲労しない」モデル
→ 実際の機械では疲労累積があるため注意が必要

例3:コールセンターでの初回応答

設定

コールセンターでの1回あたりの接続確率:40%
初回接続までのコール回数をXとする
X ~ Geo(0.4)

顧客満足度の分析

期待値:E(X) = 1/0.4 = 2.5回
→ 平均2~3回で接続

3回以内に接続する確率:
P(X ≤ 3) = 1 - (0.6)³ = 1 - 0.216 = 78.4%

5回以内に接続する確率:
P(X ≤ 5) = 1 - (0.6)⁵ = 1 - 0.078 = 92.2%

サービス改善の目標設定

「95%の顧客が3回以内に接続」を目標とする場合:
P(X ≤ 3) = 1 - (1-p)³ = 0.95
(1-p)³ = 0.05
1-p = (0.05)^(1/3) ≈ 0.368
p ≈ 0.632

→ 接続確率を63%まで向上させる必要

指数分布との関係

離散から連続への拡張

幾何分布を連続時間に拡張したものが指数分布です。どちらも「無記憶性」という共通の重要な性質を持ちます。

対応関係

幾何分布:離散時間での初回成功までの試行回数
指数分布:連続時間での初回事象までの時間

どちらも「待ち時間」をモデル化

無記憶性の比較

幾何分布(離散)

P(X > s + t | X > s) = P(X > t)

例:「5回失敗した後、さらに3回以上かかる確率」
  = 「最初から3回以上かかる確率」

指数分布(連続)

P(T > s + t | T > s) = P(T > t)

例:「2時間故障しなかった機械が、さらに1時間以上持つ確率」
  = 「新品の機械が1時間以上持つ確率」

パラメータの関係

離散→連続の変換

幾何分布:成功確率p、期待値1/p
指数分布:発生率λ、期待値1/λ

小さな時間間隔Δtで:
p ≈ λΔt (近似関係)

期待値の一致:1/p ≈ 1/(λΔt) = 1/λ × 1/Δt

実践的な使い分け

幾何分布を使う場合

・試行が明確に区切られている
・回数に意味がある
例:試験受験、製品検査、営業訪問

指数分布を使う場合

・時間が連続的
・瞬間的な発生率が重要
例:機器故障、電話着信、放射線検出

幾何分布の実践的活用

1. マーケティング戦略

新規顧客獲得

営業成功率:10%
初回成功までの訪問回数:X ~ Geo(0.1)

期待値:E(X) = 10回
営業コスト:1回あたり5,000円
期待獲得コスト:10 × 5,000 = 50,000円/顧客

成功率を15%に向上させた場合:
期待獲得コスト:(1/0.15) × 5,000 = 33,333円/顧客
コスト削減効果:16,667円/顧客

2. 品質管理

検査戦略の最適化

不良品発見確率:5%
初回発見までの検査個数:X ~ Geo(0.05)

95%の確率で検査完了する個数:
P(X ≤ k) = 1 - (0.95)^k = 0.95
k ≈ 59個

→ 60個検査すれば95%の確率で不良品を発見

3. システム設計

冗長システムの設計

各コンポーネントの故障確率:1%/日
1個目の故障までの期間:X ~ Geo(0.01)

期待値:100日

2個並列配置の場合:
どちらかが故障する確率:1 - (0.99)² = 0.0199
初回故障までの期待値:1/0.0199 ≈ 50.3日

→ 冗長化により信頼性は向上するが、
  故障頻度は約2倍になる

幾何分布の限界と注意点

1. 無記憶性の仮定

問題となる場合

・学習効果がある:試験受験(経験により合格率向上)
・疲労累積がある:機械部品(使用により故障率増加)
・環境変化がある:季節による成功率変動

代替モデル

・負の二項分布:異質性を考慮
・ワイブル分布:故障率の時間変化を考慮
・ベイズモデル:学習効果を考慮

2. 成功確率の推定

サンプルサイズの問題

観測された成功回数が少ない場合:
・成功確率の推定精度が低い
・期待値の信頼区間が広い

→ 十分なデータ収集が必要

3. 実用的な考慮事項

現実との乖離

・純粋にランダムな試行は稀
・外部環境の影響
・意思決定者の学習や疲労

→ モデルの限界を理解して適用

まとめ

幾何分布は「初回成功までの試行回数」をモデル化する基本的な分布です。無記憶性という興味深い性質により、多くの待ち時間分析や信頼性工学の問題に適用でき、期待値1/pという単純な公式で実用的な予測が可能になります。

今日のポイント

✅ 基本性質:期待値1/p、分散(1-p)/p²、無記憶性
✅ 適用条件:独立試行、一定成功確率、初回成功まで計測
✅ 無記憶性:過去の失敗は将来の成功確率に影響しない
✅ 実践例:資格試験、機械故障、営業活動の分析
✅ 指数分布との関係:離散版と連続版の対応関係

次回は「指数分布」について学びます。幾何分布の連続版として、連続的な待ち時間をモデル化し、信頼性工学やサービス理論で中核的な役割を果たす重要な分布を詳しく解説します!

タグ

-統計学基礎