回帰分析

【統計学】回帰分析の限界とは?「内挿」は得意だが「外挿」は危険な理由

こんにちは、シラスです。

これまで、回帰分析を使えば「未来が予測できる」「見えない数値が見える」とお伝えしてきました。

しかし、回帰分析は万能の魔法ではありません。
使い方を一歩間違えると、とんでもない大嘘をついてしまう危険なツールでもあります。

「データがない範囲のことは、何も分からない」

今日は、データ分析における最大のタブーの一つ、「外挿(がいそう)」のリスクと、回帰分析ができること・できないことの境界線について解説します。

1. 「内挿」と「外挿」の違い

回帰分析の予測には、2つの種類があります。

⭕ 内挿 (Interpolation)

データの「範囲内」での予測。
(例:気温10℃〜30℃のデータがある時、25℃の売上を予測する)

→ 信頼できる。

❌ 外挿 (Extrapolation)

データの「範囲外」での予測。
(例:気温10℃〜30℃のデータしかないのに、40℃の売上を予測する)

→ 非常に危険(賭け)。

2. なぜ「外挿」は危険なのか?

「直線をそのまま伸ばせばいいだけじゃないの?」
そう思うかもしれません。しかし、現実世界では「ルールが変わる瞬間」が存在します。

例:お風呂の温度と気持ちよさ

「38℃〜42℃」のデータを取りました。
温度が上がるほど、「気持ちいい」という評価が上がりました(右肩上がり)。

では、この直線を延長して「100℃」のお風呂に入ったらどうなるでしょうか?

死にます。

(気持ちいいどころではありません)

データがある範囲内(〜42℃)では直線に見えても、その先では急激にカーブしたり、崖のように落ち込んだりすることがよくあります。

回帰分析で作った数式は、あくまで「私たちが知っている地図の内側」でしか通用しないのです。

3. 回帰分析ができること・できないこと

最後に、回帰分析の限界を整理しておきましょう。

🙆 できること

  • 過去のデータ範囲内での「穴埋め(内挿)」
  • 変数同士の「関係性の強さ」を知る。
  • 「もし今のトレンドが続けば…」という「仮定の話」

🙅 できないこと(苦手なこと)

  • 経験したことのない未来の「予言(外挿)」
  • 突発的なイベント(リーマンショックなど)の予測。
  • 「なぜそうなるか?」という「因果関係の証明」

まとめ

回帰直線を引くと、ついその線を定規でどこまでも伸ばしたくなります。
「来年は売上が2倍になるぞ!」と。

しかし、データサイエンティストとして誠実であるためには、こう言わなければなりません。

「この予測式が使えるのは、ここまでです。
この先は『神のみぞ知る領域』です」

回帰分析は強力な武器ですが、決して水晶玉ではありません。
その限界を知った上で、慎重に使いこなしていきましょう。

📚 回帰分析を「武器」にする3冊

数式アレルギーだった私でも読破できた、厳選の良書です。

まずはここから

『マンガでわかる統計学 回帰分析編』(高橋信)

「回帰分析って、結局なに?」
そんな疑問を、マンガのストーリーで直感的に解決してくれる一冊です。
喫茶店の売上予測という身近なテーマを通じて、「単回帰」から「重回帰」「ロジスティック回帰」まで、驚くほどスムーズに理解できます。
数式を見るだけで拒否反応が出るなら、迷わずここから始めてください。

理論のバイブル

『完全独習 統計学入門』(小島寛之)

このブログでも何度も紹介している名著ですが、実は「回帰分析」の章が秀逸なんです。
「なぜ最小二乗法で線を引くのか?」「t検定と回帰分析はどう繋がっているのか?」
そんな本質的な問いに、中学数学レベルの言葉で答えてくれます。
計算手順だけでなく「意味」を理解したいエンジニアの必読書です。

Excelで即実践

『Excelで学ぶ回帰分析入門』(上田太一郎)

理論は分かった。でも「明日までにデータ分析して」と言われたらどうする?
この本は、Excelの「分析ツール」を使った具体的な操作手順と、出力結果の読み方を手取り足取り教えてくれます。
「ダミー変数」や「マルチコ」といった実務でつまずくポイントも網羅されており、デスクに一冊あると安心できる実用書です。

タグ

-回帰分析