回帰分析 未分類

信頼区間と予測区間の違いは?「平均」と「個別」の未来予測

回帰分析で直線を引いて「これで将来が予測できる!」と思ったことはありませんか?
実は、その予測には「どの範囲までを予測したいのか」によって、まったく異なる2つの答え(区間)が存在します。

図解:予測区間と信頼区間の違い

まずは、以下の図を見てください。
同じ「回帰直線」を使っていても、「平均」を知りたいのか、「個別」を知りたいのかで、予測の幅(リスクの範囲)が大きく異なります。

x (原因) y (結果) 回帰直線 信頼区間 (狭い) 平均的な未来 予測区間 (広い) 個別の未来

※両端(データの少ない領域)に行くほど、ラッパ型に区間が広がる点にも注目

1. 信頼区間(Confidence Interval)

「真の平均値はどこにあるか?」を示す範囲です。
例えば、「30代男性の平均年収」を推定する場合など、データのばらつき(個人差)は平均化されて消えるため、予測の幅は狭くなります。

データ数が増えれば増えるほど、この幅は限りなく0(線)に近づいていきます。

2. 予測区間(Prediction Interval)

「新しくやってくる1つのデータはどこにあるか?」を示す範囲です。
例えば、「明日入社するAさん(30歳)の年収」を予測する場合です。平均が分かっても、Aさん個人の事情(運や誤差)があるため、ドンピシャで当てるのは困難です。

そのため、個人のバラつき(誤差項)を含める必要があり、予測の幅は広くなります。

使い分けのポイント:誰のために分析するか?

ビジネスの現場では、目的によってこの2つを厳密に使い分ける必要があります。

項目 信頼区間(平均) 予測区間(個別)
幅の広さ 狭い(精度が高い) 広い(リスクが大きい)
考え方 全体の傾向を知りたい 個別のハズレを含めたい
具体例 「新商品の平均売上はいくら?」
(経営判断・在庫計画)
「来店のこの客はいくら買う?」
(個別与信・レコメンド)
データ数
の影響
データが増えると
幅は極端に狭くなる
データが増えても
ある程度の幅は残る
(個体差はなくならない)

まとめ

上司やクライアントに「予測の誤差はどれくらい?」と聞かれたら、必ずこう聞き返しましょう。

「全体の平均を知りたいですか? それとも、次回の一回の結果を予測したいですか?」

多くの失敗は、リスクの大きい「個別の未来(予測区間)」を知りたい場面で、リスクの小さい「平均の未来(信頼区間)」を提示してしまうことから起こります。

タグ

-回帰分析, 未分類