こんにちは、シラスです。
回帰分析や統計学を勉強していると、よく似た2つの言葉が出てきます。
「どっちも『ズレ』のことでしょ? 同じじゃないの?」
そう思うかもしれませんが、統計学的にはこの2つは「天と地ほど違う」概念です。
結論から言うと、
誤差は「神様しか知らない真実のズレ」であり、
残差は「人間が計算ではじき出した仮のズレ」です。
今日は、この混同しやすい2つの用語を、図解とストーリーで明確に区別していきましょう。
目次
1. 誤差(Error):神様の視点
まず、「誤差($\varepsilon$)」です。
これは、私たちが決して知ることのできない「真実のズレ」を指します。
真の回帰直線(モデル)
この世界のどこかに、神様だけが知っている「真の方程式」が存在するとします。
どんなデータも、この真の直線($\alpha x + \beta$)から、確率的なノイズ($\varepsilon$)の分だけズレて発生します。
この「発生した瞬間の、真の直線からの距離」こそが、本来の意味での「誤差」です。
誤差 $\varepsilon$ は「理論上の値」であり、人間が直接測定することは絶対にできません。
(神様の定規が見えないからです)
2. 残差(Residual):人間の視点
しかし、私たち人間は神様の直線が見えません。
そこで、手元のデータを使って、最小二乗法で「推定した直線(予測線)」を引きます。
予測値とのズレ
人間が引いた直線と、実際のデータとのズレ。
これが「残差($e$)」です。
残差は、計算結果として目の前に具体的な数値(+3.5とか-1.2とか)として現れます。
私たちがExcelなどの分析ツールで目にするのは、すべてこの「残差」の方です。
3. 図解:2つの線のズレ
言葉だとややこしいので、図でイメージしてみましょう。
ある1つのデータ点(●)に注目してください
-
----- 真の直線(見えない) -----
ここからの距離が 「誤差 $\varepsilon$」 -
━━━━ 回帰直線(引いた線) ━━━━
ここからの距離が 「残差 $e$」
私たちが一生懸命「最小二乗法」を使って残差(青)を小さくしようとするのは、
それによって「人間の引いた線を、神様の線に近づけたいから」なのです。
4. なぜ区別が重要なのか?
「結局、残差を見ればいいんでしょ?」と思うかもしれません。
しかし、この違いを理解していないと、データ分析の最後に行う「残差分析」の意味が分からなくなります。
回帰分析には「誤差項は正規分布に従う」という大前提があります。
しかし、誤差は見えないので確認しようがありません。
だから代わりに、目に見える「残差」をチェックするのです。
「残差がキレイな形(正規分布)をしているなら、
きっと背後にある真の誤差もキレイなはずだ!」
つまり、残差とは「見えない誤差の影」のようなものです。
影を見ることで、本体(モデルの正しさ)を推測しているわけです。
まとめ
Excelが出してくれるのは、あくまで「残差」です。
「これは真実の誤差ではない、あくまで推定の結果だ」という謙虚な姿勢を持つことが、データ分析者の第一歩です。
さて、直線の引き方(最小二乗法)と、そのズレ(残差)について理解しました。
次は、その引いた直線が「どれくらいイケてる線なのか?」を採点する指標が必要です。
次回は、回帰分析の通信簿とも言える「決定係数 ($R^2$)」について解説します。
📚 回帰分析を「武器」にする3冊
数式アレルギーだった私でも読破できた、厳選の良書です。