回帰分析で直線を引いて「これで将来が予測できる!」と思ったことはありませんか?
実は、その予測には「どの範囲までを予測したいのか」によって、まったく異なる2つの答え(区間)が存在します。
図解:予測区間と信頼区間の違い
まずは、以下の図を見てください。
同じ「回帰直線」を使っていても、「平均」を知りたいのか、「個別」を知りたいのかで、予測の幅(リスクの範囲)が大きく異なります。
※両端(データの少ない領域)に行くほど、ラッパ型に区間が広がる点にも注目
1. 信頼区間(Confidence Interval)
「真の平均値はどこにあるか?」を示す範囲です。
例えば、「30代男性の平均年収」を推定する場合など、データのばらつき(個人差)は平均化されて消えるため、予測の幅は狭くなります。
データ数が増えれば増えるほど、この幅は限りなく0(線)に近づいていきます。
2. 予測区間(Prediction Interval)
「新しくやってくる1つのデータはどこにあるか?」を示す範囲です。
例えば、「明日入社するAさん(30歳)の年収」を予測する場合です。平均が分かっても、Aさん個人の事情(運や誤差)があるため、ドンピシャで当てるのは困難です。
そのため、個人のバラつき(誤差項)を含める必要があり、予測の幅は広くなります。
使い分けのポイント:誰のために分析するか?
ビジネスの現場では、目的によってこの2つを厳密に使い分ける必要があります。
| 項目 | 信頼区間(平均) | 予測区間(個別) |
|---|---|---|
| 幅の広さ | 狭い(精度が高い) | 広い(リスクが大きい) |
| 考え方 | 全体の傾向を知りたい | 個別のハズレを含めたい |
| 具体例 | 「新商品の平均売上はいくら?」 (経営判断・在庫計画) |
「来店のこの客はいくら買う?」 (個別与信・レコメンド) |
| データ数 の影響 |
データが増えると 幅は極端に狭くなる |
データが増えても ある程度の幅は残る (個体差はなくならない) |
まとめ
上司やクライアントに「予測の誤差はどれくらい?」と聞かれたら、必ずこう聞き返しましょう。
「全体の平均を知りたいですか? それとも、次回の一回の結果を予測したいですか?」
多くの失敗は、リスクの大きい「個別の未来(予測区間)」を知りたい場面で、リスクの小さい「平均の未来(信頼区間)」を提示してしまうことから起こります。