実験計画法

【統計学】「残差」と「誤差」の違いとは?神様の視点と人間の視点で図解

こんにちは、シラスです。

回帰分析や統計学を勉強していると、よく似た2つの言葉が出てきます。

  • 誤差 (Error): 記号 $\varepsilon$ (イプシロン)
  • 残差 (Residual): 記号 $e$ (イー)

「どっちも『ズレ』のことでしょ? 同じじゃないの?」
そう思うかもしれませんが、統計学的にはこの2つは「天と地ほど違う」概念です。

結論から言うと、
誤差は「神様しか知らない真実のズレ」であり、
残差は「人間が計算ではじき出した仮のズレ」です。

今日は、この混同しやすい2つの用語を、図解とストーリーで明確に区別していきましょう。

1. 誤差(Error):神様の視点

まず、「誤差($\varepsilon$)」です。
これは、私たちが決して知ることのできない「真実のズレ」を指します。

真の回帰直線(モデル)

この世界のどこかに、神様だけが知っている「真の方程式」が存在するとします。

$y = \alpha x + \beta + \varepsilon$

どんなデータも、この真の直線($\alpha x + \beta$)から、確率的なノイズ($\varepsilon$)の分だけズレて発生します。
この「発生した瞬間の、真の直線からの距離」こそが、本来の意味での「誤差」です。

【ポイント】
誤差 $\varepsilon$ は「理論上の値」であり、人間が直接測定することは絶対にできません。
(神様の定規が見えないからです)

2. 残差(Residual):人間の視点

しかし、私たち人間は神様の直線が見えません。
そこで、手元のデータを使って、最小二乗法で「推定した直線(予測線)」を引きます。

予測値とのズレ

人間が引いた直線と、実際のデータとのズレ。
これが「残差($e$)」です。

残差 $e$ = 実測値 $y$ - 予測値 $\hat{y}$

残差は、計算結果として目の前に具体的な数値(+3.5とか-1.2とか)として現れます。
私たちがExcelなどの分析ツールで目にするのは、すべてこの「残差」の方です。

3. 図解:2つの線のズレ

言葉だとややこしいので、図でイメージしてみましょう。

ある1つのデータ点(●)に注目してください

  • ----- 真の直線(見えない) -----
    ここからの距離が 「誤差 $\varepsilon$」
  • ━━━━ 回帰直線(引いた線) ━━━━
    ここからの距離が 「残差 $e$」

私たちが一生懸命「最小二乗法」を使って残差(青)を小さくしようとするのは、
それによって「人間の引いた線を、神様の線に近づけたいから」なのです。

[Image of linear regression error vs residual diagram]

4. なぜ区別が重要なのか?

「結局、残差を見ればいいんでしょ?」と思うかもしれません。
しかし、この違いを理解していないと、データ分析の最後に行う「残差分析」の意味が分からなくなります。

回帰分析には「誤差項は正規分布に従う」という大前提があります。
しかし、誤差は見えないので確認しようがありません。

だから代わりに、目に見える「残差」をチェックするのです。

「残差がキレイな形(正規分布)をしているなら、
きっと背後にある真の誤差もキレイなはずだ!」

つまり、残差とは「見えない誤差の影」のようなものです。
影を見ることで、本体(モデルの正しさ)を推測しているわけです。

まとめ

誤差 ($\varepsilon$): 真のモデル(神様の線)からのズレ。見えない。
残差 ($e$): 推定したモデル(人間の線)からのズレ。見える。
✅ 私たちは「残差」を最小にすることで、「誤差」に近づこうとしている。

Excelが出してくれるのは、あくまで「残差」です。
「これは真実の誤差ではない、あくまで推定の結果だ」という謙虚な姿勢を持つことが、データ分析者の第一歩です。

さて、直線の引き方(最小二乗法)と、そのズレ(残差)について理解しました。
次は、その引いた直線が「どれくらいイケてる線なのか?」を採点する指標が必要です。

次回は、回帰分析の通信簿とも言える「決定係数 ($R^2$)」について解説します。

📚 回帰分析を「武器」にする3冊

数式アレルギーだった私でも読破できた、厳選の良書です。

まずはここから

『マンガでわかる統計学 回帰分析編』(高橋信)

「回帰分析って、結局なに?」
そんな疑問を、マンガのストーリーで直感的に解決してくれる一冊です。
喫茶店の売上予測という身近なテーマを通じて、「単回帰」から「重回帰」「ロジスティック回帰」まで、驚くほどスムーズに理解できます。
数式を見るだけで拒否反応が出るなら、迷わずここから始めてください。

理論のバイブル

『完全独習 統計学入門』(小島寛之)

このブログでも何度も紹介している名著ですが、実は「回帰分析」の章が秀逸なんです。
「なぜ最小二乗法で線を引くのか?」「t検定と回帰分析はどう繋がっているのか?」
そんな本質的な問いに、中学数学レベルの言葉で答えてくれます。
計算手順だけでなく「意味」を理解したいエンジニアの必読書です。

Excelで即実践

『Excelで学ぶ回帰分析入門』(上田太一郎)

理論は分かった。でも「明日までにデータ分析して」と言われたらどうする?
この本は、Excelの「分析ツール」を使った具体的な操作手順と、出力結果の読み方を手取り足取り教えてくれます。
「ダミー変数」や「マルチコ」といった実務でつまずくポイントも網羅されており、デスクに一冊あると安心できる実用書です。

タグ

-実験計画法