回帰分析

決定係数(R2)の正体|「あてはまりの良さ」を視覚的に理解する

こんにちは、シラスです。

統計データを見るときに出てくる「決定係数($R^2$)」
教科書には「回帰変動を全変動で割ったもの」と難しく書かれていますが、もっと直感的なイメージで捉えてみましょう。

今回は数式を一切使わず、「メーター」と「面積」でその正体を視覚化します。

1. 視覚で見る「0〜1」の評価基準

決定係数は、あなたの作った予測モデルの「的中精度メーター」だと思ってください。

R² = 1.0 (最強) 完全一致

予測線の上に全てのデータが乗っている状態。現実にはほぼあり得ない「神の予言」。

R² = 0.8 (優秀) かなり当たる

実務レベルで「使える」ライン。傾向がはっきりと読み取れる。

R² = 0.1 (ゴミ) 無関係

予測式が全く役に立っていない。サイコロを振っているのと同じ。

2. 正体は「解明できた謎の割合」

なぜ「寄与率」とも呼ばれるのか?
それは、$R^2$ が「データのバラつき(謎)」のうち、どれだけ原因を特定できたかを表しているからです。

例えば、「ラーメン屋の売上のバラつき」を分析するとします。

📊 売上の変動(全データのバラつき)

気温の影響 (70%)
謎 (30%)
決定係数 $R^2 = 0.7$

■ 青い部分: あなたの計算式で説明がついた部分(気温が暑いから売れた、寒いから売れた)。
■ 灰色の部分: 計算式では説明できない誤差(たまたま団体客が来た、店長の機嫌など)。

つまり、青い部分(説明できた部分)が多ければ多いほど、決定係数は1に近づきます。
逆に、灰色の部分(謎の誤差)ばかりだと、決定係数は0に近づきます。

3. グラフでの見た目比較

実際にグラフにしたとき、決定係数の違いは「点の散らばり具合」として現れます。

$R^2$ が高い (0.9)

📏✨

点が予測線(直定規)の周りに
「ビシッ!」と集まっている。
予測線を使えば、未来を高精度で当てられる。

$R^2$ が低い (0.2)

🌫️❓

点が予測線の周りに
「バラバラ」に散らばっている。
この線を信じて予測すると大怪我をする。

まとめ

  • $R^2$ は「的中精度メーター」: 1に近いほど優秀。
  • 正体は「面積の割合」: データのバラつきのうち、「理由がわかった部分」の割合。
  • 目安: 0.8以上ならかなり信頼できる。0.2以下なら作り直し。

難しい数式を覚える必要はありません。
Excelで $R^2$ を見たら、この「青とグレーのバー」を頭に思い浮かべて、「どれくらい謎が解明できたかな?」と考えてみてください。

タグ

-回帰分析