回帰分析

相関係数(r)と決定係数(R2)の不思議な関係|なぜ2乗すると一致するのか?

こんにちは、シラスです。

統計を勉強していると、ふと奇妙なことに気づきませんか?

相関係数 $r$ を2乗すると、
なぜか決定係数 $R^2$ と同じ数字になる。

例えば、相関係数が $0.9$ なら、決定係数は $0.9 \times 0.9 = 0.81$。
これは偶然ではありません。実は、単回帰分析(1対1の関係)においてのみ成立する、数学的な魔法なのです。

今回は、なぜこの2つが繋がっているのか、その「数学的な正体」を視覚的に紐解きます。

1. まずは「記号」で納得する

難しい理屈の前に、記号の見た目を見てみましょう。
統計学者がこの記号を選んだ時点で、答えは書いてあります。

$r$
相関係数
(-1 ~ 1)
➡ 2乗 ➡
$R^2$
決定係数
(0 ~ 1)

相関係数 $r$ には「プラスとマイナス」があります(右上がりか、右下がりか)。
しかし、決定係数 $R^2$ は「予測がどれくらい当たっているか(精度)」の話なので、右上がりだろうが右下がりだろうが関係ありません。

だから、2乗してプラスマイナスの情報を消してしまうのです。

2. 数学的な理由:「標準化」の世界

ここからが本題です。なぜピッタリ一致するのでしょうか?
その鍵は、データを扱いやすくする「標準化(平均0、分散1に変換すること)」にあります。

あらゆるデータを標準化された世界(単位のない世界)に連れて行くと、驚くべきことが起きます。

🌍 標準化された世界でのルール

① 回帰直線の「傾き」が、そのまま相関係数 $r$ になる。

通常、$y = ax+b$ の傾き $a$ は複雑な計算が必要ですが、標準化すると、なんと「傾き = $r$」になります。


② 決定係数 $R^2$ は、「傾き」の2乗で求まる。

この世界では、分散(データの広がり)が「1」です。
数学的に、「説明できた分散」は「(傾き)² × (Xの分散)」になります。
Xの分散は1なので、決定係数 = (傾き)² になります。

💡 つまり、こういうこと!

論理をつなげると、こうなります。

1. 回帰直線の「傾き」は $r$ である。
2. 決定係数は「傾き」の2乗である。
結論:決定係数 $R^2$ は、$r^2$ と一致する!

※あくまで「単回帰分析(xとyが1つずつ)」の場合に限ります。

3. 直感イメージ:重なり具合

数式が苦手な方は、このイメージだけ持ち帰ってください。
相関係数とは、2つのデータが「どれくらい同じ方向を向いているか」を表す矢印のようなものです。

  • 相関係数 ($r$):
    データの「結びつきの強さ」そのもの。
    例:身長と体重はかなり強く結びついている ($r=0.7$)
  • 決定係数 ($R^2$):
    その結びつきを使って「どれくらい説明できるか」というパワー。
    例:結びつき($0.7$)を2回掛けると、説明力($0.49$)になる。

なぜ2回掛けるのか?
それは、「確率」のようなものだからです。「あやふやさ($r$)」が2つ重なると、説明できる範囲($R^2$)は掛け算で小さくなるのです。

まとめ

単回帰分析では、$r^2 = R^2$ になる。
✅ 理由は、標準化すると「回帰直線の傾き」が相関係数そのものになるから。
✅ ただし、説明変数が2つ以上ある「重回帰分析」ではこの魔法は使えないので注意!

Excelで分析するとき、「相関が0.8もある!」と喜んでも、決定係数で見ると「0.64(64%しか説明できていない)」と冷静になれるのは、この「2乗の法則」があるからなのです。

🔧 現場ではこう使う/ここでつまずく

品質保証の現場で、工程の条件(温度・圧力など)と製品特性の関係を回帰で調べるとき、このr²=R²の関係はそのまま「過信のブレーキ」として効きます。本文の例のとおり、相関係数が0.8あると「強い関係だ」と判断しがちですが、決定係数は0.64で、特性のばらつきの36%は他の要因で説明できていない、という意味です。残り36%を無視して条件を1つだけ動かすと、狙ったほど効果が出ないことがよくあります。「相関の強さ」と「どれだけ説明できるか」は別物だと割り切るのが実務の第一歩です。

つまずきとして多いのが、この「2乗で一致する」関係を重回帰にそのまま持ち込んでしまうことです。本文にもあるとおり、r²=R²が成り立つのは単回帰のときだけです。説明変数を増やせばR²は必ず上がるので、現場では説明変数を足して「R²が上がったから良くなった」と誤解しがちです。説明変数が複数あるときは、見かけ上の上昇を補正した自由度調整済み決定係数(自由度調整R²)で比べないと、本当にモデルが良くなったのか判断できません。

もう一つ、R²が高いこと自体が品質の良さを意味しない点も実務では重要です。R²はあくまで「直線でどれだけ説明できたか」であり、外れ値が1点あるだけでも大きく動きます。客先に「この条件で管理すれば大丈夫」と説明する前に、必ず散布図を併せて確認し、数値だけで判断しないことが現場の鉄則です。

❓ よくある質問
Q. R²が0.64なら回帰分析として「良い」と言える?

A. 用途次第です。ばらつきの36%が未説明なので、要因分析なら追加変数を検討すべき水準です。

Q. 相関がマイナスでも決定係数はプラスになる?

A. なります。2乗で符号が消えるため、r=−0.9でもR²=0.81と必ず0〜1の正の値になります。

S
シラス
電験三種 / QC検定1級 / 品質保証・パワエレ設計 実務10年

製造業の品質保証の現場で、工程条件と製品特性の関係を回帰分析で調べ、相関係数や決定係数を実際の判断に使ってきました。「相関が強い」と「どれだけ説明できる」を取り違えない、単回帰と重回帰でR²の見方を変える、といった現場でつまずきやすい点を、自分の経験を踏まえて解説しています。

タグ

-回帰分析