こんにちは、シラスです。
回帰分析を学んでいると、必ず「線形回帰(Linear Regression)」という言葉に出会います。
これは文字通り、「データを直線($y=ax+b$)で説明する」という意味です。
しかし、冷静に考えてみてください。
私たちの住むこの世界に、定規で引いたような「完全な直線」なんて存在するでしょうか?
- 気温が上がれば売上が伸びる? → 暑すぎると逆にお客さんは減るはず(カーブ)。
- 勉強すれば点数が伸びる? → ある程度で頭打ちになるはず(S字カーブ)。
現実はいつだって、複雑で、曲がりくねっています。
それなのに、なぜ統計学者は頑固に「直線を引こう」とするのでしょうか?
今日は、統計学が「曲線(正確さ)」よりも「直線(単純さ)」を選ぶ理由。
その背後にある「単純化の哲学」について解説します。
目次
1. 「線形」とは?:予測可能な安心感
まず、「線形(Linear)」という言葉の定義を確認しましょう。
線形性(Linearity)の性質
「原因を2倍にすれば、結果も2倍になる」
(比例関係・加法性)
$y = 3x$ という式なら、$x$ が1増えれば $y$ は必ず3増えます。
どこまで行っても、このルールは変わりません。
この「どこまで行ってもルールが変わらない」という安心感こそが、線形モデル最大のメリットです。
人間が直感的に理解しやすく、ビジネスの現場でも「広告費を倍にすれば、売上も倍になります!」と説明しやすいのです。
2. 曲線の罠:「過学習」の恐怖
「でも、現実はカーブしてるんだから、曲線で予測したほうが正確じゃない?」
その通りです。
例えば、グニャグニャ曲がった「100次関数」を使えば、過去のデータ全ての点を完璧に通る線が引けます。
しかし、それを行うと致命的な問題が発生します。
「過学習(Overfitting)」です。
📈
大まかな傾向を捉えている。
細かい点は無視している。
未来の予測に強い。
〰️
過去の点を全部通ろうと必死。
ノイズ(偶然)まで学習してしまう。
未来の予測は大外しする。
データには必ず「偶然の誤差(ノイズ)」が含まれています。
曲線を複雑にしすぎると、この「本来無視すべきノイズ」にまで合わせて線を引いてしまいます。
「木を見て森を見ず」の状態になり、新しいデータが来た瞬間に全く使い物にならなくなるのです。
だから統計学者は、あえて「直線」という縛りプレイをすることで、ノイズを無視し、本質的なトレンド(森)だけを見ようとするのです。
3. 哲学:「地球は丸いが、地面は平らだ」
もう一つ、数学的な理由があります。
それは「ズームすれば、どんな曲線も直線に見える」という事実です。
地球は丸い(非線形)ですが、私たちが家を建てるときは「地面は平ら(線形)」だと仮定して設計図を引きますよね?
狭い範囲(局所)で見れば、曲線は直線で近似できるのです。
これを数学では「テイラー展開(1次近似)」と呼びます。
ビジネスや実験においても、私たちが知りたいのは「世界の全て」ではありません。
「今の売上規模の周辺」や「今の温度条件の周辺」という、限られた範囲での予測ができれば十分なことが多いのです。
「狭い範囲なら、直線と考えても誤差は少ないよね?」
この割り切り(近似)こそが、線形回帰の正体です。
まとめ
「世界は複雑だから、複雑なモデルで解くべきだ」というのは、一見正しそうでいて、実務では危険な思想です。
「世界は複雑だけど、まずは単純な直線で捉えてみよう」
この「単純化する勇気」こそが、データ分析を成功させる秘訣なのです。
📚 回帰分析を「武器」にする3冊
数式アレルギーだった私でも読破できた、厳選の良書です。