こんにちは、シラスです。
データ分析の結果を上司やクライアントに報告するとき、あなたはどちらの言い方をしていますか?
- 「来月の売上予測は、ズバリ 1,000万円 です!」
- 「来月の売上予測は、950万円 〜 1,050万円 の間になりそうです」
前者はカッコよく聞こえますが、外れるリスクが高いです。 後者は少し弱気に見えますが、情報の信頼性は高いです。
統計学の世界では、前者を「点推定」、後者を「区間推定」と呼びます。
教科書では計算式ばかりが出てきますが、実務で大切なのは「なぜわざわざ幅を持たせるのか(区間推定するのか)?」というマインドセットです。
今日は、この2つの推定方法の違いを、「危うさ」と「誠実さ」という観点から解説します。
1. 点推定:カッコいいけれど「嘘つき」になりやすい
点推定(Point Estimation)とは、母集団の値を「たった一つの数値(点)」で言い当てることです。
- 「全国の平均身長は 170.5cm だ」
- 「この部品の寿命は 5,000時間 だ」
これは、「大海原にいる魚を、一本のモリで突き刺そうとする行為」に似ています。
⚠️ ここが危ない
真の値が「50.00001」だったとしても、予想が「50」なら、数学的には「ハズレ(誤差あり)」になってしまいます。
ピンポイントで当てる確率は、実質ゼロに近いのです。
「平均は50です!」と言い切ることは、分かりやすい反面、「誤差を無視している」という点で、統計学的には少し不誠実(乱暴)な態度と言えます。
2. 区間推定:曖昧だけど「誠実」なアプローチ
一方、区間推定(Interval Estimation)は、母集団の値が含まれるであろう「範囲」を提示します。
- 「全国の平均身長は 169cm 〜 172cm の間でしょう」
- 「この部品の寿命は 4,800時間 〜 5,200時間 の間でしょう」
これは、「魚がいそうな場所に、広めの網(あみ)を投げる行為」です。 モリで一点を突くよりも、網でガバっと掬ったほうが、魚(真の値)を捕まえられる確率は圧倒的に高くなりますよね。
統計学では、この「網の広さ」のことを「信頼区間(Confidence Interval)」と呼びます。
もっともよく使われるのが「95%信頼区間」です。
これは「95%の確率で当たる大きさの網」を使って推定することです。
「平均値は 48〜52 の間です(信頼係数95%)」と言うことは、
「5%くらいは外すリスクがあるけど、95%くらいの確率でこの範囲に真実があるよ」
という、リスクを開示した誠実な報告なのです。
3. 実務で「幅」を持たせる重要性
なぜ、エンジニアやデータサイエンティストは区間推定を好むのでしょうか? それは、「最悪のケース」を想定できるからです。
例えば、ある製品の強度が「規格:49以上」必要だとします。
- 点推定の報告:
- 「平均値は 50 です!」
- 判断:「お、規格(49)より上だな。ヨシ、合格!」
- リスク: 実はデータのバラつきが大きくて、真の平均が48である可能性が隠れているかもしれない。
- 区間推定の報告:
- 「平均値は 48 〜 52 の間です(95%信頼区間)」
- 判断:「ん? 下限が 48 になる可能性があるのか。それだと規格(49)を割るリスクがあるな。再検査しよう」
このように、幅(区間)を見ることで、ギリギリの判定やリスク管理ができるようになります。これが「推測統計」の威力です。
まとめ:「言い切る勇気」より「幅を持たせる知性」を
- 点推定 = 一点張り。分かりやすいが、外れるリスクが見えない。
- 区間推定 = 幅を持たせる。少し曖昧だが、リスクが見える化される。
ビジネスの現場では「結論ファーストでズバリ言え!」と求められることも多いですが、データのプロとしては「ズバリ50ですが、誤差を含めると48〜52の範囲になりそうです」と、必ず「幅」を添える癖をつけましょう。
その「幅」の中にこそ、エンジニアとしての誠実さと、統計学的な正しさが詰まっているのです。