はじめに
「気温が高い日にアイスがよく売れる」「円安になると輸入コストが上がる」──私たちはふだん、二つの数字が一緒に増えたり減ったりする場面を直感で捉えています。この“同じ方向にどれだけ動くか”を数値で測る物差しが 共分散 です。ここでは共分散の意味と限界、そこから生まれた相関係数、独立との関係を、例え話を交えてやさしく解説します。
共分散を直感的に感じよう
一旦、数式の話をする前に共分散がプラス、0、マイナスになった時のイメージを掴みましょう。
① 共分散がプラスになるとき ― 背が伸びるほど体重も増える
-
クラスの友達12人について「身長」と「体重」を調べたとします。
-
背の高い子ほど体重は重く、背の低い子ほど体重が少ない──こんなふうに2つの数字がいっしょに大きくなったり小さくなったりしていれば、散布図では右上と左下に点が集まります。
-
点がこの位置に偏ると “同じ方向に動いているね” という意味で 共分散はプラスになります。
② マイナスになるとき ― 暑くなるほどストーブを使う時間は減る
-
今度は「外の温度」と「ストーブをつけている時間」を比べます。
-
暑い日にストーブを長時間つける人はいませんし、寒いほど長く使います。つまり片方が大きくなるともう片方が小さくなる関係です。
-
その結果、散布図の点は左上と右下に多くなり、共分散はマイナスになります。
③ ゼロに近いとき ― 好きな色とテストの点は関係ない
-
「好きな色(赤=1 点、青=2 点、黄=3 点…と番号をつける)」と「テストの点」の2つで調べたらどうでしょう。
-
赤が好きだから点が高い、青が好きだから低い――そんな決まりはありません。みんなバラバラです。
-
点は4つの方向に散らばって偏らず、共分散はゼロ近くになります。数字同士に“そろった動き”が見つからないからです。
公式で確認:平均からのズレを掛け合わせる
共分散はCov(X,Y)で表されます。Covは英語のCovariance(コバリアンス)からきてます。式は以下の通りです。
-
:X の“横ブレ”
-
:Y の“縦ブレ”
-
横ブレと縦ブレを掛けると「同じ向きなら+、逆なら−」になる
自分と自分で掛ければ分散になるので、分散は“自分自身との共分散”と言えます
共分散だけでは比較が難しい理由
共分散は二つの数値の関係性を解き明かすために使う係数です。ただ、このままではちょっと困ったことがあります。
共分散は 単位が掛け算 になります。身長(cm)と体重(kg)の共分散は「cm×kg」、円とドルを混ぜれば「円×ドル」。
日常でこんな単位を見たこともなければ、直感的にも理解しづらいです。
また、この数値を見ても「どちらの関係が強いか」は判断しづらいのです。
-
大きく見えても単にスケールが大きいだけかもしれない
-
単位が違うデータ同士ではそもそも比べられない
相関係数が登場する理由
上記の共分散の単位の分かりずらさを解消する手段として相関係数があります。
共分散を各変数の標準偏差で割ると単位が打ち消され、−1〜1の無次元の物差しになります。
つまり、どんな単位同士の比較でも-1から1の数字で関係性の強さを比較することができるのです。
相関係数rの式は以下の通りです。
+、0、−の考え方は共分散と同じです。
-
+1 … 鏡写しのように完全に同方向
-
0 … 気ままに動く赤の他人
-
−1 … 綱引きで完全に逆方向
これが相関係数で、異なる単位や規模のデータでも一目で比較できます
独立なら共分散、相関係数がゼロになるわけ
独立とは「片方の値がもう片方に何も影響しない」状態。期待値の式で示すと、
独立なら
独立とはXとYが全く相関関係のない状態なので、
まとめ
-
共分散は「二つの変数が同じ方向に動く度合い」を数値化
-
単位が掛け算になるため大きさだけでは強さを比べにくい
-
相関係数は単位を消して −1〜1 に正規化した指標
-
独立なら共分散はゼロだが、ゼロでも曲線関係が隠れていることがある
共分散はデータどうしの“歩幅が揃う度合い”を示す第一歩。次は相関係数や決定係数まで視野を広げて、データの関係を立体的に捉えていきましょう。