こんにちは、シラスです。
これまで、回帰分析を使えば「未来が予測できる」「見えない数値が見える」とお伝えしてきました。
しかし、回帰分析は万能の魔法ではありません。
使い方を一歩間違えると、とんでもない大嘘をついてしまう危険なツールでもあります。
今日は、データ分析における最大のタブーの一つ、「外挿(がいそう)」のリスクと、回帰分析ができること・できないことの境界線について解説します。
目次
1. 「内挿」と「外挿」の違い
回帰分析の予測には、2つの種類があります。
⭕ 内挿 (Interpolation)
データの「範囲内」での予測。
(例:気温10℃〜30℃のデータがある時、25℃の売上を予測する)
→ 信頼できる。
❌ 外挿 (Extrapolation)
データの「範囲外」での予測。
(例:気温10℃〜30℃のデータしかないのに、40℃の売上を予測する)
→ 非常に危険(賭け)。
2. なぜ「外挿」は危険なのか?
「直線をそのまま伸ばせばいいだけじゃないの?」
そう思うかもしれません。しかし、現実世界では「ルールが変わる瞬間」が存在します。
例:お風呂の温度と気持ちよさ
「38℃〜42℃」のデータを取りました。
温度が上がるほど、「気持ちいい」という評価が上がりました(右肩上がり)。
では、この直線を延長して「100℃」のお風呂に入ったらどうなるでしょうか?
死にます。
(気持ちいいどころではありません)
データがある範囲内(〜42℃)では直線に見えても、その先では急激にカーブしたり、崖のように落ち込んだりすることがよくあります。
回帰分析で作った数式は、あくまで「私たちが知っている地図の内側」でしか通用しないのです。
3. 回帰分析ができること・できないこと
最後に、回帰分析の限界を整理しておきましょう。
🙆 できること
- 過去のデータ範囲内での「穴埋め(内挿)」。
- 変数同士の「関係性の強さ」を知る。
- 「もし今のトレンドが続けば…」という「仮定の話」。
🙅 できないこと(苦手なこと)
- 経験したことのない未来の「予言(外挿)」。
- 突発的なイベント(リーマンショックなど)の予測。
- 「なぜそうなるか?」という「因果関係の証明」。
まとめ
回帰直線を引くと、ついその線を定規でどこまでも伸ばしたくなります。
「来年は売上が2倍になるぞ!」と。
しかし、データサイエンティストとして誠実であるためには、こう言わなければなりません。
この先は『神のみぞ知る領域』です」
回帰分析は強力な武器ですが、決して水晶玉ではありません。
その限界を知った上で、慎重に使いこなしていきましょう。
📚 回帰分析を「武器」にする3冊
数式アレルギーだった私でも読破できた、厳選の良書です。