統計学基礎

超幾何分布とは?くじ引きの当たる確率で一発でわかる入門ガイド

😣 こんなふうに思っていませんか?
  • 「超幾何分布」って名前からして難しそうで、見た瞬間に身構えてしまう
  • 公式に「C(コンビネーション)」がいっぱい出てきて、何をしているのか意味不明
  • 二項分布と何が違うのか、いつどっちを使えばいいのか分からない
✅ この記事でわかること
  • 超幾何分布が「くじ引き」とまったく同じ仕組みであること
  • 公式の意味を、中学レベルの計算で1ステップずつ理解できる
  • 二項分布との「たった1つの違い」と、見分け方
✅ 結論(まず30秒でわかる答え)

超幾何分布(ちょうきかぶんぷ)とは、「箱から取り出したものを戻さずに引く」ときに、当たりが何個入るかの確率を表す分布です。たとえば10本中3本が当たりのくじを、戻さずに2本引いたとき「当たりが1本入る確率」を計算するのが超幾何分布です。いちばんの特徴は「取ったら戻さない(これを非復元抽出といいます)」という点。この一点を押さえれば、難しそうな名前にだまされる必要はありません。

そもそも超幾何分布とは?くじ引きそのものです

超幾何分布とは、ひとことで言えば「箱の中身を戻さずに取り出したとき、当たりが何個含まれるか」の確率を表すものです。

名前が物々しいので難しく感じますが、やっていることは小学校でやった「くじ引き」とまったく同じです。クラスで箱に入ったくじを、1本ずつ引いていく——あの場面を思い浮かべてください。

ここで大事なのは、引いたくじを箱に戻さないという点です。当たりを1本引いてしまえば、箱に残る当たりは1本減ります。次の人が当たる確率は、その前の結果によって変わっていきます。この「戻さない」というルールこそが、超幾何分布の正体です。

🎟️ たとえると
福引きの箱に当たり玉と外れ玉が入っていて、引いた玉を箱に戻さずに何個か取り出す。そのとき「当たり玉が何個まじっているか」を確率で表したもの——それが超幾何分布です。

つまり超幾何分布とは、「戻さないくじ引きで、当たりが何個入るか」を数式にしたもの、ということです。

いちばん大事な言葉「非復元抽出」とは?

超幾何分布を理解するうえで、絶対に外せない言葉があります。それが「非復元抽出(ひふくげんちゅうしゅつ)」です。漢字がいかついですが、意味はとてもシンプルです。

「戻すか・戻さないか」だけの違い

取り出し方には2種類あります。引いたものを箱に「戻す」か、「戻さない」かです。この2つには、それぞれ名前がついています。

復元抽出(戻す)

  • 引いたら、箱に戻してから次を引く
  • 箱の中身はいつも同じ
  • 当たる確率は毎回変わらない
  • → こちらは「二項分布」

非復元抽出(戻さない)

  • 引いたら、戻さずに次を引く
  • 箱の中身がどんどん減る
  • 当たる確率が毎回変わる
  • → こちらが「超幾何分布」

「非復元」という言葉は、「復元(戻す)」を打ち消す「非」がついた言葉です。つまり「戻さない」という意味そのままです。むずかしく考える必要はありません。

つまり、超幾何分布とは「戻さない取り出し方(非復元抽出)」のための確率分布だ、ということです。

トランプで完全に納得する

もう一歩、確実に腑に落とすために、トランプで考えてみましょう。誰でも知っているので、イメージしやすいはずです。

52枚のトランプから、ハート(13枚)を「当たり」だと思ってください。ここから5枚を配ります。当然、配ったカードは山に戻しません。このとき「配られた5枚の中にハートが何枚あるか」——これがまさに超幾何分布の出番です。

💡 ポイント
1枚目にハートを引くと、残りのハートは12枚に減ります。だから2枚目にハートが来る確率は、1枚目の結果しだいで変わります。この「結果に引きずられて確率が変わる」のが、戻さないくじ(非復元抽出)の特徴です。

逆に、もし1枚配るたびに山に戻してシャッフルし直すなら、毎回ハートの確率は「13/52」で一定です。これなら二項分布の世界になります。

つまり、トランプを配る・くじを引く・箱から玉を取り出す——こうした「戻さない」場面はすべて超幾何分布で扱える、ということです。

公式を「3つのカタマリ」に分解すれば怖くない

いよいよ公式です。最初は記号が多くて身構えますが、登場する文字はたった4つ。まず文字の意味を整理しましょう。

記号意味くじ引きでいうと
N全部の数箱の中のくじ全部
M当たりの数当たりくじの本数
n引く数引くくじの本数
k引いた中の当たりの数手元に来た当たりの本数

公式はこうです。「C」は組み合わせ(何通りの選び方があるか)を表す記号です。

📐 公式
P(X=k) = (当たりの選び方)×(外れの選び方)÷(全体の選び方)
= ( ₘCₖ × ₙ₋ₘCₙ₋ₖ ) ÷ ₙCₙ

記号だけ見ると難しいですが、やっていることは3つのカタマリに分かれているだけです。

分子①

当たり(M個)の中から、ほしいk個を選ぶ選び方の数

分子②

外れ(N−M個)の中から、残りを選ぶ選び方の数

分母

全体(N個)からn個を選ぶ、すべての選び方の数

つまり「自分のほしいパターンは何通り?」を「全部で何通り?」で割っているだけです。確率の基本である「(あてはまる場合の数)÷(全部の場合の数)」そのものなのです。

具体例で計算してみる(途中式すべて公開)

公式を見ただけでは身につきません。実際に数字を入れて計算してみましょう。次の問題を考えます。

📝 問題
10本のくじがあり、そのうち3本が当たりです。ここから2本引いたとき、ちょうど1本が当たりになる確率は?(引いたくじは戻しません)

まず文字に当てはめます。全部 N=10、当たり M=3、引く数 n=2、ほしい当たり k=1 です。

3つのカタマリを順番に計算する

STEP 1

当たり3本から1本を選ぶ → ₃C₁ = 3通り

STEP 2

外れ7本(10−3)から1本(2−1)を選ぶ → ₇C₁ = 7通り

STEP 3

全体10本から2本を選ぶ → ₁₀C₂ = (10×9)÷(2×1) = 45通り

STEP 4

分子(3×7=21)を分母(45)で割る → 21 ÷ 45 ≒ 0.467

計算すると、答えは 21 ÷ 45 ≒ 0.467(約47%) です。2本引いてちょうど1本当たる確率は、だいたい半分くらい、ということが分かりました。

💡 検算してみよう
当たり0本の確率は ₇C₂÷₁₀C₂ = 21÷45、当たり2本の確率は ₃C₂÷₁₀C₂ = 3÷45。これに今回の21÷45を足すと、(21+21+3)÷45 = 45÷45 = 1。すべての確率を足すと1になりました。これで計算が正しいと確認できます。

つまり、文字に数字を当てはめて3つのカタマリを計算するだけで、超幾何分布の確率は求められる、ということです。

二項分布との違いは「戻すか戻さないか」だけ

超幾何分布を勉強すると、必ず気になるのが「二項分布と何が違うの?」という疑問です。結論を先に言うと、違いは「引いたものを戻すか・戻さないか」の一点だけです。

比べる点二項分布超幾何分布
取り出し方戻す(復元)戻さない(非復元)
当たる確率毎回同じ引くたびに変わる
向いている場面コイン投げ・サイコロくじ引き・トランプ配り・抜取検査
⚠️ ここで間違えやすい
「コイン投げ」は超幾何分布ではありません。コインは投げても表の出る確率は毎回1/2のまま。何も減らないからです。一方くじ引きは、当たりを引くと当たりが減る。減るかどうかで見分けるのがコツです。

じつは2つは「親戚」です

面白いことに、箱の中身がものすごく多いと、超幾何分布は二項分布とほとんど同じになります。たとえば100万本のくじから2本引く場合、1本引いて減っても確率はほぼ変わりません。減った影響が小さすぎて無視できるからです。

つまり「母集団が小さいときは超幾何分布、十分大きいときは二項分布で近似してよい」と覚えておけば実務でも困りません。

期待値と分散の公式(覚え方つき)

期待値(平均的にいくつ当たるか)と分散(バラつきの大きさ)の公式も見ておきましょう。じつは、二項分布とそっくりなので、関連づけると覚えやすくなります。

📐 期待値
E(X) = n × (M ÷ N)
= 引く数 × 当たりの割合

期待値はシンプルです。「引く数 × 当たりの割合」だけ。さっきの例(N=10、M=3、n=2)なら、E(X)=2×(3/10)=0.6本。2本引けば平均0.6本くらい当たる、という意味です。これは二項分布の期待値とまったく同じ形です。

📐 分散
V(X) = n × (M/N) × (1 − M/N) × (N−n)/(N−1)

分散は少し長いですが、前半「n×(M/N)×(1−M/N)」は二項分布の分散とまったく同じです。違いは最後にくっついている (N−n)/(N−1) という部分だけ。これは「有限母集団修正(ゆうげんぼしゅうだんしゅうせい)」と呼ばれます。

🧩 たとえると
「戻さない」とバラつきは少し小さくなります。引くほど中身が減って、結果が予測しやすくなるからです。その「バラつきが小さくなる分」を表すのが (N−n)/(N−1) です。だから二項分布の分散より、超幾何分布の分散のほうが少し小さくなります。

つまり期待値は二項分布と同じ、分散は「修正項を1個かけるだけ」と覚えれば、ゼロから丸暗記する必要はありません。なお、これらの数値は問題の前提(N・M・n)で変わるので、必ず問題文の数字を確認して計算してください。

よくある質問

Q. 超幾何分布とは何ですか?

A. 引いたものを戻さずに取り出すとき、当たりが何個含まれるかの確率を表す分布です。くじ引きと同じ仕組みです。

Q. 超幾何分布と二項分布の違いは?

A. 引いたものを戻すなら二項分布、戻さないなら超幾何分布です。違いはこの一点だけです。

Q. 超幾何分布の期待値は?

A. E(X)=n×(M÷N)、つまり「引く数×当たりの割合」です。二項分布の期待値と同じ形です。

Q. 超幾何分布はどんな場面で使いますか?

A. くじ引き、トランプ配り、製品の抜取検査など、「戻さずに取り出す」場面すべてで使えます。

まとめ:超幾何分布は「戻さないくじ引き」

📌 この記事の要点
  • 超幾何分布=「戻さずに取り出す(非復元抽出)」ときの当たりの数の分布
  • 公式は「ほしいパターンの数 ÷ 全パターンの数」というシンプルな割り算
  • 二項分布との違いは「戻すか戻さないか」の一点だけ
  • 母集団が十分大きいときは、二項分布で近似してよい
  • 期待値は二項分布と同じ、分散は修正項 (N−n)/(N−1) を1個かけるだけ

最初は「超幾何分布」という名前に身構えてしまいますが、中身はクラスのくじ引きそのものです。「戻さない」というルールさえ押さえれば、もう怖くありません。次は、関連する二項分布やポアソン分布も合わせて学ぶと、確率分布の全体像がぐっとクリアになりますよ。

S
シラス
電験三種 / QC検定1級 / パワエレ設計・品質保証 実務10年

自動車部品メーカーで電気設計・品質保証に携わってきた経験をもとに執筆しています。むずかしい専門用語をできるだけ使わず、はじめて統計や確率を学ぶ人がつまずかないように、図とたとえで説明することを大切にしています。

📚 次に読むべき記事

📘 【完全版】統計学の勉強ロードマップ|初心者が「データ分析」を武器にするまでの全手順 →

超幾何分布を含む確率分布全体を、どの順番で学べばいいか迷わなくなる学習地図です。

📘 第12回:二項分布とは?|コイン投げで理解する「成功回数」の確率分布 →

超幾何分布の「親戚」である二項分布。違いをセットで押さえると理解が一気に深まります。

📘 抜取検査の判定能力とOC曲線|二項・超幾何・ポアソン分布の使い分けを完全図解 →

超幾何分布が実務(製品の抜取検査)でどう使われるかが分かる、一歩進んだ記事です。

タグ

-統計学基礎