回帰分析

相関係数(r)と決定係数(R2)の不思議な関係|なぜ2乗すると一致するのか?

こんにちは、シラスです。

統計を勉強していると、ふと奇妙なことに気づきませんか?

相関係数 $r$ を2乗すると、
なぜか決定係数 $R^2$ と同じ数字になる。

例えば、相関係数が $0.9$ なら、決定係数は $0.9 \times 0.9 = 0.81$。
これは偶然ではありません。実は、単回帰分析(1対1の関係)においてのみ成立する、数学的な魔法なのです。

今回は、なぜこの2つが繋がっているのか、その「数学的な正体」を視覚的に紐解きます。

1. まずは「記号」で納得する

難しい理屈の前に、記号の見た目を見てみましょう。
統計学者がこの記号を選んだ時点で、答えは書いてあります。

$r$
相関係数
(-1 ~ 1)
➡ 2乗 ➡
$R^2$
決定係数
(0 ~ 1)

相関係数 $r$ には「プラスとマイナス」があります(右上がりか、右下がりか)。
しかし、決定係数 $R^2$ は「予測がどれくらい当たっているか(精度)」の話なので、右上がりだろうが右下がりだろうが関係ありません。

だから、2乗してプラスマイナスの情報を消してしまうのです。

2. 数学的な理由:「標準化」の世界

ここからが本題です。なぜピッタリ一致するのでしょうか?
その鍵は、データを扱いやすくする「標準化(平均0、分散1に変換すること)」にあります。

あらゆるデータを標準化された世界(単位のない世界)に連れて行くと、驚くべきことが起きます。

🌍 標準化された世界でのルール

① 回帰直線の「傾き」が、そのまま相関係数 $r$ になる。

通常、$y = ax+b$ の傾き $a$ は複雑な計算が必要ですが、標準化すると、なんと「傾き = $r$」になります。


② 決定係数 $R^2$ は、「傾き」の2乗で求まる。

この世界では、分散(データの広がり)が「1」です。
数学的に、「説明できた分散」は「(傾き)² × (Xの分散)」になります。
Xの分散は1なので、決定係数 = (傾き)² になります。

💡 つまり、こういうこと!

論理をつなげると、こうなります。

1. 回帰直線の「傾き」は $r$ である。
2. 決定係数は「傾き」の2乗である。
結論:決定係数 $R^2$ は、$r^2$ と一致する!

※あくまで「単回帰分析(xとyが1つずつ)」の場合に限ります。

3. 直感イメージ:重なり具合

数式が苦手な方は、このイメージだけ持ち帰ってください。
相関係数とは、2つのデータが「どれくらい同じ方向を向いているか」を表す矢印のようなものです。

  • 相関係数 ($r$):
    データの「結びつきの強さ」そのもの。
    例:身長と体重はかなり強く結びついている ($r=0.7$)
  • 決定係数 ($R^2$):
    その結びつきを使って「どれくらい説明できるか」というパワー。
    例:結びつき($0.7$)を2回掛けると、説明力($0.49$)になる。

なぜ2回掛けるのか?
それは、「確率」のようなものだからです。「あやふやさ($r$)」が2つ重なると、説明できる範囲($R^2$)は掛け算で小さくなるのです。

まとめ

単回帰分析では、$r^2 = R^2$ になる。
✅ 理由は、標準化すると「回帰直線の傾き」が相関係数そのものになるから。
✅ ただし、説明変数が2つ以上ある「重回帰分析」ではこの魔法は使えないので注意!

Excelで分析するとき、「相関が0.8もある!」と喜んでも、決定係数で見ると「0.64(64%しか説明できていない)」と冷静になれるのは、この「2乗の法則」があるからなのです。

タグ

-回帰分析