- 「超幾何分布」って名前からして難しそうで、見た瞬間に身構えてしまう
- 公式に「C(コンビネーション)」がいっぱい出てきて、何をしているのか意味不明
- 二項分布と何が違うのか、いつどっちを使えばいいのか分からない
- 超幾何分布が「くじ引き」とまったく同じ仕組みであること
- 公式の意味を、中学レベルの計算で1ステップずつ理解できる
- 二項分布との「たった1つの違い」と、見分け方
超幾何分布(ちょうきかぶんぷ)とは、「箱から取り出したものを戻さずに引く」ときに、当たりが何個入るかの確率を表す分布です。たとえば10本中3本が当たりのくじを、戻さずに2本引いたとき「当たりが1本入る確率」を計算するのが超幾何分布です。いちばんの特徴は「取ったら戻さない(これを非復元抽出といいます)」という点。この一点を押さえれば、難しそうな名前にだまされる必要はありません。
目次
そもそも超幾何分布とは?くじ引きそのものです
超幾何分布とは、ひとことで言えば「箱の中身を戻さずに取り出したとき、当たりが何個含まれるか」の確率を表すものです。
名前が物々しいので難しく感じますが、やっていることは小学校でやった「くじ引き」とまったく同じです。クラスで箱に入ったくじを、1本ずつ引いていく——あの場面を思い浮かべてください。
ここで大事なのは、引いたくじを箱に戻さないという点です。当たりを1本引いてしまえば、箱に残る当たりは1本減ります。次の人が当たる確率は、その前の結果によって変わっていきます。この「戻さない」というルールこそが、超幾何分布の正体です。
福引きの箱に当たり玉と外れ玉が入っていて、引いた玉を箱に戻さずに何個か取り出す。そのとき「当たり玉が何個まじっているか」を確率で表したもの——それが超幾何分布です。
つまり超幾何分布とは、「戻さないくじ引きで、当たりが何個入るか」を数式にしたもの、ということです。

いちばん大事な言葉「非復元抽出」とは?
超幾何分布を理解するうえで、絶対に外せない言葉があります。それが「非復元抽出(ひふくげんちゅうしゅつ)」です。漢字がいかついですが、意味はとてもシンプルです。
「戻すか・戻さないか」だけの違い
取り出し方には2種類あります。引いたものを箱に「戻す」か、「戻さない」かです。この2つには、それぞれ名前がついています。
復元抽出(戻す)
- 引いたら、箱に戻してから次を引く
- 箱の中身はいつも同じ
- 当たる確率は毎回変わらない
- → こちらは「二項分布」
非復元抽出(戻さない)
- 引いたら、戻さずに次を引く
- 箱の中身がどんどん減る
- 当たる確率が毎回変わる
- → こちらが「超幾何分布」
「非復元」という言葉は、「復元(戻す)」を打ち消す「非」がついた言葉です。つまり「戻さない」という意味そのままです。むずかしく考える必要はありません。
つまり、超幾何分布とは「戻さない取り出し方(非復元抽出)」のための確率分布だ、ということです。

トランプで完全に納得する
もう一歩、確実に腑に落とすために、トランプで考えてみましょう。誰でも知っているので、イメージしやすいはずです。
52枚のトランプから、ハート(13枚)を「当たり」だと思ってください。ここから5枚を配ります。当然、配ったカードは山に戻しません。このとき「配られた5枚の中にハートが何枚あるか」——これがまさに超幾何分布の出番です。
1枚目にハートを引くと、残りのハートは12枚に減ります。だから2枚目にハートが来る確率は、1枚目の結果しだいで変わります。この「結果に引きずられて確率が変わる」のが、戻さないくじ(非復元抽出)の特徴です。
逆に、もし1枚配るたびに山に戻してシャッフルし直すなら、毎回ハートの確率は「13/52」で一定です。これなら二項分布の世界になります。
つまり、トランプを配る・くじを引く・箱から玉を取り出す——こうした「戻さない」場面はすべて超幾何分布で扱える、ということです。

公式を「3つのカタマリ」に分解すれば怖くない
いよいよ公式です。最初は記号が多くて身構えますが、登場する文字はたった4つ。まず文字の意味を整理しましょう。
| 記号 | 意味 | くじ引きでいうと |
|---|---|---|
| N | 全部の数 | 箱の中のくじ全部 |
| M | 当たりの数 | 当たりくじの本数 |
| n | 引く数 | 引くくじの本数 |
| k | 引いた中の当たりの数 | 手元に来た当たりの本数 |
公式はこうです。「C」は組み合わせ(何通りの選び方があるか)を表す記号です。
P(X=k) = (当たりの選び方)×(外れの選び方)÷(全体の選び方)
= ( ₘCₖ × ₙ₋ₘCₙ₋ₖ ) ÷ ₙCₙ
記号だけ見ると難しいですが、やっていることは3つのカタマリに分かれているだけです。
当たり(M個)の中から、ほしいk個を選ぶ選び方の数
外れ(N−M個)の中から、残りを選ぶ選び方の数
全体(N個)からn個を選ぶ、すべての選び方の数
つまり「自分のほしいパターンは何通り?」を「全部で何通り?」で割っているだけです。確率の基本である「(あてはまる場合の数)÷(全部の場合の数)」そのものなのです。

具体例で計算してみる(途中式すべて公開)
公式を見ただけでは身につきません。実際に数字を入れて計算してみましょう。次の問題を考えます。
10本のくじがあり、そのうち3本が当たりです。ここから2本引いたとき、ちょうど1本が当たりになる確率は?(引いたくじは戻しません)
まず文字に当てはめます。全部 N=10、当たり M=3、引く数 n=2、ほしい当たり k=1 です。
3つのカタマリを順番に計算する
当たり3本から1本を選ぶ → ₃C₁ = 3通り
外れ7本(10−3)から1本(2−1)を選ぶ → ₇C₁ = 7通り
全体10本から2本を選ぶ → ₁₀C₂ = (10×9)÷(2×1) = 45通り
分子(3×7=21)を分母(45)で割る → 21 ÷ 45 ≒ 0.467
計算すると、答えは 21 ÷ 45 ≒ 0.467(約47%) です。2本引いてちょうど1本当たる確率は、だいたい半分くらい、ということが分かりました。
当たり0本の確率は ₇C₂÷₁₀C₂ = 21÷45、当たり2本の確率は ₃C₂÷₁₀C₂ = 3÷45。これに今回の21÷45を足すと、(21+21+3)÷45 = 45÷45 = 1。すべての確率を足すと1になりました。これで計算が正しいと確認できます。
つまり、文字に数字を当てはめて3つのカタマリを計算するだけで、超幾何分布の確率は求められる、ということです。

二項分布との違いは「戻すか戻さないか」だけ
超幾何分布を勉強すると、必ず気になるのが「二項分布と何が違うの?」という疑問です。結論を先に言うと、違いは「引いたものを戻すか・戻さないか」の一点だけです。
| 比べる点 | 二項分布 | 超幾何分布 |
|---|---|---|
| 取り出し方 | 戻す(復元) | 戻さない(非復元) |
| 当たる確率 | 毎回同じ | 引くたびに変わる |
| 向いている場面 | コイン投げ・サイコロ | くじ引き・トランプ配り・抜取検査 |
「コイン投げ」は超幾何分布ではありません。コインは投げても表の出る確率は毎回1/2のまま。何も減らないからです。一方くじ引きは、当たりを引くと当たりが減る。減るかどうかで見分けるのがコツです。
じつは2つは「親戚」です
面白いことに、箱の中身がものすごく多いと、超幾何分布は二項分布とほとんど同じになります。たとえば100万本のくじから2本引く場合、1本引いて減っても確率はほぼ変わりません。減った影響が小さすぎて無視できるからです。
つまり「母集団が小さいときは超幾何分布、十分大きいときは二項分布で近似してよい」と覚えておけば実務でも困りません。

期待値と分散の公式(覚え方つき)
期待値(平均的にいくつ当たるか)と分散(バラつきの大きさ)の公式も見ておきましょう。じつは、二項分布とそっくりなので、関連づけると覚えやすくなります。
期待値はシンプルです。「引く数 × 当たりの割合」だけ。さっきの例(N=10、M=3、n=2)なら、E(X)=2×(3/10)=0.6本。2本引けば平均0.6本くらい当たる、という意味です。これは二項分布の期待値とまったく同じ形です。
分散は少し長いですが、前半「n×(M/N)×(1−M/N)」は二項分布の分散とまったく同じです。違いは最後にくっついている (N−n)/(N−1) という部分だけ。これは「有限母集団修正(ゆうげんぼしゅうだんしゅうせい)」と呼ばれます。
「戻さない」とバラつきは少し小さくなります。引くほど中身が減って、結果が予測しやすくなるからです。その「バラつきが小さくなる分」を表すのが (N−n)/(N−1) です。だから二項分布の分散より、超幾何分布の分散のほうが少し小さくなります。
つまり期待値は二項分布と同じ、分散は「修正項を1個かけるだけ」と覚えれば、ゼロから丸暗記する必要はありません。なお、これらの数値は問題の前提(N・M・n)で変わるので、必ず問題文の数字を確認して計算してください。

よくある質問
まとめ:超幾何分布は「戻さないくじ引き」
- 超幾何分布=「戻さずに取り出す(非復元抽出)」ときの当たりの数の分布
- 公式は「ほしいパターンの数 ÷ 全パターンの数」というシンプルな割り算
- 二項分布との違いは「戻すか戻さないか」の一点だけ
- 母集団が十分大きいときは、二項分布で近似してよい
- 期待値は二項分布と同じ、分散は修正項 (N−n)/(N−1) を1個かけるだけ
最初は「超幾何分布」という名前に身構えてしまいますが、中身はクラスのくじ引きそのものです。「戻さない」というルールさえ押さえれば、もう怖くありません。次は、関連する二項分布やポアソン分布も合わせて学ぶと、確率分布の全体像がぐっとクリアになりますよ。

自動車部品メーカーで電気設計・品質保証に携わってきた経験をもとに執筆しています。むずかしい専門用語をできるだけ使わず、はじめて統計や確率を学ぶ人がつまずかないように、図とたとえで説明することを大切にしています。
📚 次に読むべき記事
超幾何分布を含む確率分布全体を、どの順番で学べばいいか迷わなくなる学習地図です。
超幾何分布の「親戚」である二項分布。違いをセットで押さえると理解が一気に深まります。
超幾何分布が実務(製品の抜取検査)でどう使われるかが分かる、一歩進んだ記事です。