こんにちは、シラスです。
統計を勉強していると、ふと奇妙なことに気づきませんか?
相関係数 $r$ を2乗すると、
なぜか決定係数 $R^2$ と同じ数字になる。
例えば、相関係数が $0.9$ なら、決定係数は $0.9 \times 0.9 = 0.81$。
これは偶然ではありません。実は、単回帰分析(1対1の関係)においてのみ成立する、数学的な魔法なのです。
今回は、なぜこの2つが繋がっているのか、その「数学的な正体」を視覚的に紐解きます。
1. まずは「記号」で納得する
難しい理屈の前に、記号の見た目を見てみましょう。
統計学者がこの記号を選んだ時点で、答えは書いてあります。
相関係数 $r$ には「プラスとマイナス」があります(右上がりか、右下がりか)。
しかし、決定係数 $R^2$ は「予測がどれくらい当たっているか(精度)」の話なので、右上がりだろうが右下がりだろうが関係ありません。
だから、2乗してプラスマイナスの情報を消してしまうのです。
2. 数学的な理由:「標準化」の世界
ここからが本題です。なぜピッタリ一致するのでしょうか?
その鍵は、データを扱いやすくする「標準化(平均0、分散1に変換すること)」にあります。
あらゆるデータを標準化された世界(単位のない世界)に連れて行くと、驚くべきことが起きます。
① 回帰直線の「傾き」が、そのまま相関係数 $r$ になる。
通常、$y = ax+b$ の傾き $a$ は複雑な計算が必要ですが、標準化すると、なんと「傾き = $r$」になります。
② 決定係数 $R^2$ は、「傾き」の2乗で求まる。
この世界では、分散(データの広がり)が「1」です。
数学的に、「説明できた分散」は「(傾き)² × (Xの分散)」になります。
Xの分散は1なので、決定係数 = (傾き)² になります。
💡 つまり、こういうこと!
論理をつなげると、こうなります。
※あくまで「単回帰分析(xとyが1つずつ)」の場合に限ります。
3. 直感イメージ:重なり具合
数式が苦手な方は、このイメージだけ持ち帰ってください。
相関係数とは、2つのデータが「どれくらい同じ方向を向いているか」を表す矢印のようなものです。
-
相関係数 ($r$):
データの「結びつきの強さ」そのもの。
例:身長と体重はかなり強く結びついている ($r=0.7$) -
決定係数 ($R^2$):
その結びつきを使って「どれくらい説明できるか」というパワー。
例:結びつき($0.7$)を2回掛けると、説明力($0.49$)になる。
なぜ2回掛けるのか?
それは、「確率」のようなものだからです。「あやふやさ($r$)」が2つ重なると、説明できる範囲($R^2$)は掛け算で小さくなるのです。
まとめ
Excelで分析するとき、「相関が0.8もある!」と喜んでも、決定係数で見ると「0.64(64%しか説明できていない)」と冷静になれるのは、この「2乗の法則」があるからなのです。
品質保証の現場で、工程の条件(温度・圧力など)と製品特性の関係を回帰で調べるとき、このr²=R²の関係はそのまま「過信のブレーキ」として効きます。本文の例のとおり、相関係数が0.8あると「強い関係だ」と判断しがちですが、決定係数は0.64で、特性のばらつきの36%は他の要因で説明できていない、という意味です。残り36%を無視して条件を1つだけ動かすと、狙ったほど効果が出ないことがよくあります。「相関の強さ」と「どれだけ説明できるか」は別物だと割り切るのが実務の第一歩です。
つまずきとして多いのが、この「2乗で一致する」関係を重回帰にそのまま持ち込んでしまうことです。本文にもあるとおり、r²=R²が成り立つのは単回帰のときだけです。説明変数を増やせばR²は必ず上がるので、現場では説明変数を足して「R²が上がったから良くなった」と誤解しがちです。説明変数が複数あるときは、見かけ上の上昇を補正した自由度調整済み決定係数(自由度調整R²)で比べないと、本当にモデルが良くなったのか判断できません。
もう一つ、R²が高いこと自体が品質の良さを意味しない点も実務では重要です。R²はあくまで「直線でどれだけ説明できたか」であり、外れ値が1点あるだけでも大きく動きます。客先に「この条件で管理すれば大丈夫」と説明する前に、必ず散布図を併せて確認し、数値だけで判断しないことが現場の鉄則です。
製造業の品質保証の現場で、工程条件と製品特性の関係を回帰分析で調べ、相関係数や決定係数を実際の判断に使ってきました。「相関が強い」と「どれだけ説明できる」を取り違えない、単回帰と重回帰でR²の見方を変える、といった現場でつまずきやすい点を、自分の経験を踏まえて解説しています。