こんにちは、シラスです。
回帰分析を使って $y = ax + b$ という数式を作ると、私たちはついこう考えてしまいます。
「だから $x$ を変えれば、$y$ も思い通りに動かせるはずだ!」
しかし、ここに大きな落とし穴があります。
統計学において、「相関関係(一緒に動くこと)」と「因果関係(原因と結果)」は全くの別物だからです。
もしここを履き違えると、良かれと思ってやった対策が全くの無駄に終わるどころか、事態を悪化させることさえあります。
今日は、データ分析者が最も警戒すべき罠、「擬似相関(ぎじそうかん)」について解説します。
目次
1. 有名なパラドックス:アイスクリーム殺人事件
統計学の世界で、あまりにも有名な例え話があります。
🍦 データの事実
ある都市のデータを分析したところ、以下の強い相関が見つかりました。
- アイスクリームの売上が増えると、水難事故(溺れる人)が増える。
- アイスクリームの売上が減ると、水難事故も減る。
回帰分析をすれば、見事な右肩上がりの直線が引けます。
$R^2$(決定係数)も非常に高い値が出るでしょう。
では、市長であるあなたは、水難事故を減らすために以下の政策を実行すべきでしょうか?
……もちろん、違いますよね。
アイスを禁止しても、水難事故は1件も減りません。
2. 真犯人:「交絡因子」の存在
なぜアイスと事故が連動していたのか?
それは、両方の背後に隠れた「第三の要因」がいたからです。
☀ 気温(夏)
暑いから → アイスが売れる
暑いから → 海に行って泳ぐ(事故が増える)
アイスと事故の間には、直接的な関係(因果)はありません。
共通の原因である「気温」によって、あたかも関係があるかのように見えていただけなのです。
このように、隠れた第三者(交絡因子)のせいで見えるニセモノの相関を、「擬似相関(Spurious Correlation)」と呼びます。
3. 回帰分析の限界:因果の壁
ここで重要な事実をお伝えします。
計算ソフトは優秀ですが、常識を持っていません。
「アイス」と「事故」の数字を与えれば、喜んで「強い関係があります!」と計算してしまいます。
だからこそ、最後に判断するのは「人間のドメイン知識(現場の知見)」なのです。
- 「物理的に考えて、アイスが人を溺れさせるメカニズムはあるか?」
- 「他に影響している要因(気温など)はないか?」
この「疑う力」こそが、データサイエンティストに求められる最大のスキルです。
まとめ
「データドリブン(データ駆動)」は素晴らしいことですが、「データだけ」見て判断するのは危険です。
回帰直線を引いた後は、必ず一度立ち止まって、「これは本当に因果関係なのか? 別の黒幕がいるんじゃないか?」と自問してみてください。
その慎重さが、あなたと組織を誤った意思決定から守ってくれるはずです。
📚 回帰分析を「武器」にする3冊
数式アレルギーだった私でも読破できた、厳選の良書です。