~身近な例で理解する、データ同士の「仲良し度」の測り方~
目次
📊 はじめに:「共分散」って何?
「気温が上がると、アイスクリームの売上も上がる」 「勉強時間が増えると、テストの点数も上がる」 「雨の日が多いと、傘の売上も増える」
私たちの周りには、2つのものが一緒に変化する現象がたくさんあります。この「一緒に変化する度合い」を数値で表したものが共分散(きょうぶんさん)です。
今回は、誰でも理解できる身近な例を使って、共分散の世界を探検してみましょう!
🌡️ 身近な例:気温とアイスクリーム売上の関係
データで見る現実
ある街のコンビニで、1週間の気温とアイスクリーム売上を調べました:
| 曜日 | 気温(℃) | アイス売上(個) |
|---|---|---|
| 月 | 18 | 120 |
| 火 | 22 | 180 |
| 水 | 25 | 220 |
| 木 | 28 | 280 |
| 金 | 32 | 350 |
| 土 | 35 | 420 |
| 日 | 30 | 320 |
視覚的に見ると...
アイス売上(個)
450| ×(土)
400|
350| ×(金)
300| ×(日)
250| ×(木)
200| ×(水)
150| ×(火)
100|×(月)
50|________________________
15 20 25 30 35 気温(℃)
一目瞭然!気温が上がると、アイスの売上も上がっています。
🔢 共分散の定義:数学から日常語への翻訳
数学的定義
共分散 = Σ(xi - x̄)(yi - ȳ) / (n-1)
日常語で説明すると...
「2つのデータが、それぞれの平均からどのくらい一緒にズレるかの平均」
もっと簡単に言うなら:
- 「仲良し度」を数値で表したもの
- 一方が平均より大きいとき、もう一方も平均より大きくなりやすいか?
📈 共分散の3つのパターン
1. 正の共分散:「一緒に上がる仲良しさん」
例:身長と体重
体重(kg)
80| × ×
70| × × ×
60|× ×
50|________________
150 160 170 180 身長(cm)
- 共分散 > 0
- 一方が増えると、もう一方も増える傾向
- 「正の相関がある」
身近な例:
- 勉強時間 ↔ テストの点数
- 運動量 ↔ 筋肉量
- 広告費 ↔ 売上
- 経験年数 ↔ 給料
2. 負の共分散:「シーソーの関係」
例:車の価格と燃費
燃費(km/L)
25|×
20| ×
15| ×
10| × ×
5| × ×
0|________________
100 200 300 400 車の価格(万円)
- 共分散 < 0
- 一方が増えると、もう一方は減る傾向
- 「負の相関がある」
身近な例:
- 車の価格 ↔ 燃費
- 気温 ↔ 暖房費
- 年齢 ↔ 反応速度
- 価格 ↔ 需要量
3. 共分散≒0:「無関係な2人」
例:身長と数学の点数
数学点数
100| × × ×
80| × × ×
60|× × ×
40| × ×
20|________________
150 160 170 180 身長(cm)
- 共分散 ≒ 0
- 一方が変わっても、もう一方は関係なく変わる
- 「無相関」
身近な例:
- 身長 ↔ IQ
- 靴のサイズ ↔ 年収
- 誕生月 ↔ 性格
- 電話番号 ↔ 体重
🧮 実際に計算してみよう!
アイスクリーム例での共分散計算
ステップ1:平均を求める
気温の平均:(18+22+25+28+32+35+30) ÷ 7 = 27.14℃
売上の平均:(120+180+220+280+350+420+320) ÷ 7 = 270個
ステップ2:各データの偏差を求める
| 曜日 | 気温偏差 | 売上偏差 | 偏差の積 |
|---|---|---|---|
| 月 | -9.14 | -150 | 1,371 |
| 火 | -5.14 | -90 | 463 |
| 水 | -2.14 | -50 | 107 |
| 木 | 0.86 | 10 | 9 |
| 金 | 4.86 | 80 | 389 |
| 土 | 7.86 | 150 | 1,179 |
| 日 | 2.86 | 50 | 143 |
ステップ3:共分散を計算
共分散 = (1,371 + 463 + 107 + 9 + 389 + 1,179 + 143) ÷ 6
= 3,661 ÷ 6
= 610.17
結果:共分散 = 610.17(正の値) → 気温とアイス売上は正の相関がある!
⚖️ 共分散の問題点:「単位」という厄介者
共分散の弱点
問題1:単位に依存する
気温を「℃」で測ると:共分散 = 610.17
気温を「華氏」で測ると:共分散 = 1,098.31
→ 同じデータなのに数値が違う!
問題2:関係の強さが分からない
共分散 = 610.17って、強い関係?弱い関係?
→ 判断できない...
解決策:相関係数の登場
相関係数 = 共分散 ÷ (標準偏差X × 標準偏差Y)
相関係数の特徴:
- -1 ≤ 相関係数 ≤ 1
- 単位に依存しない
- 関係の強さが一目で分かる
相関係数の目安:
+0.8 ~ +1.0:とても強い正の相関
+0.6 ~ +0.8:強い正の相関
+0.4 ~ +0.6:中程度の正の相関
+0.2 ~ +0.4:弱い正の相関
-0.2 ~ +0.2:ほぼ無相関
-0.4 ~ -0.2:弱い負の相関
-0.6 ~ -0.4:中程度の負の相関
-0.8 ~ -0.6:強い負の相関
-1.0 ~ -0.8:とても強い負の相関
💰 金融データでの実例:株価の世界
例1:トヨタ株とホンダ株
データ(1週間の株価変動率):
| 日 | トヨタ(%) | ホンダ(%) |
|---|---|---|
| 月 | +2.1 | +1.8 |
| 火 | -1.5 | -1.2 |
| 水 | +3.2 | +2.9 |
| 木 | -0.8 | -0.5 |
| 金 | +1.9 | +1.7 |
結果:
- 共分散 = +2.15
- 相関係数 = +0.89
- 解釈:とても強い正の相関
なぜ?
- 同じ自動車業界
- 同じ経済環境の影響を受ける
- 投資家の心理も似ている
例2:金(ゴールド)価格と米ドル
一般的な傾向:
- 共分散:負の値
- 相関係数:約-0.7
- 解釈:強い負の相関
なぜ?
- ドル高 → 金が割高に見える → 金価格下落
- ドル安 → 金が割安に見える → 金価格上昇
- 金は「ドルの代替投資先」として機能
例3:日経平均とVIX指数(恐怖指数)
傾向:
- 強い負の相関(相関係数:約-0.8)
なぜ?
- VIX上昇 = 市場の不安増大 → 株価下落
- VIX下落 = 市場の安定 → 株価上昇
🏠 日常生活での共分散活用例
1. 家計管理での活用
収入と支出の関係
月収(万円) | 支出(万円)
25 | 22
30 | 26
35 | 30
40 | 33
45 | 36
共分散分析の結果:
- 正の相関が判明
- 収入が増えると支出も増える傾向
- 家計改善のヒント:収入増加時の支出管理が重要
2. 健康管理での活用
運動時間と体重の関係
週間運動時間(時間) | 体重変化(kg)
0 | +0.5
2 | +0.1
4 | -0.2
6 | -0.5
8 | -0.8
共分散分析の結果:
- 負の相関
- 運動時間が増えると体重が減る傾向
- 効果的なダイエット戦略の根拠となる
3. 学習効果の測定
勉強時間とテスト点数
勉強時間(時間) | テスト点数
1 | 65
2 | 72
3 | 78
4 | 85
5 | 91
共分散分析の結果:
- 強い正の相関
- 勉強時間と成績の関係が明確
- 効果的な学習計画の根拠
⚠️ 共分散使用時の注意点
1. 相関は因果関係ではない
間違った解釈の例:
「アイスクリーム売上と水難事故件数に正の相関がある」
↓
「アイスクリームを食べると水難事故が起きる」(×)
正しい解釈:
「夏という第3の要因が両方に影響している」(○)
2. 外れ値の影響
1つの異常なデータが共分散を大きく歪める
通常データ:気温35℃、アイス350個
異常データ:気温10℃、アイス500個(イベント特需)
→ 共分散が大幅に変わってしまう
3. 非線形関係の見落とし
共分散は「直線的な関係」しか捉えられない
例:年齢と反応速度
- 若い頃:反応速度向上
- 中年:安定
- 高齢:反応速度低下
→ U字型の関係だが、共分散では捉えきれない
🎯 まとめ:共分散を味方につけよう
共分散とは
- 2つの変数の「仲良し度」を数値化したもの
- 一緒に変化する傾向を測る指標
3つのパターン
- 正の共分散:一緒に上がる・下がる関係
- 負の共分散:シーソーのような逆の関係
- 無相関:お互い関係ない
実用的な活用場面
- 投資:リスク分散のための銘柄選択
- マーケティング:売上要因の分析
- 健康管理:生活習慣と健康指標の関係分析
- 学習:効果的な勉強法の検証
注意すべきポイント
- 相関 ≠ 因果関係
- 外れ値に注意
- 非線形関係の限界