こんにちは、シラスです。
統計学の世界には、あまりにも有名で、そして恐ろしい「ミステリー」が存在します。
なぜか水難事故(溺れる人)が急増する」
データは嘘をつきません。散布図を描くと、見事な右肩上がりの相関が見えます。
相関係数も $r=0.8$ を超えるかもしれません。
さて、このデータを見た市長は、事故を減らすためにこう命令しました。
……もちろん、これは間違いです。
アイスを禁止しても、事故は一件も減りません。
なぜなら、ここには隠れた「真犯人」がいるからです。
今日は、データ分析の最大の落とし穴、「擬似相関(ぎじそうかん)」について解説します。
目次
1. 真犯人は誰だ?:交絡因子の存在
アイスと事故、この2つを裏で操っていた黒幕。
それは「気温(夏)」です。
因果の構造図
暑いから売れる
暑いから泳ぐ
「気温」が上がると「アイス」も売れるし、「事故」も増える。
それぞれが気温と繋がっているだけなのに、あたかも「アイスと事故が直接繋がっている」かのように見えてしまう。
これが擬似相関の正体です。
そして、この真犯人(気温)のことを、統計用語で「交絡因子(こうらくいんし)」と呼びます。
2. 他にもある「騙されやすい事例」
「アイスの話は極端でしょ?」と思うかもしれません。
しかし、ビジネスや生活の中には、もっと巧妙な擬似相関が潜んでいます。
事例①:警察官が多い地域ほど、犯罪が多い?
データを見ると、警察官の数と犯罪件数には正の相関があります。
「警察がいるから犯罪が増えるんだ!警察を減らせ!」というのは暴論です。
- 真犯人(交絡因子): 「人口の多さ(都市化)」
- 人口が多いから犯罪も多いし、警察もたくさん配置されているだけ。
事例②:年収が高い人ほど、ゴルフをしている?
「よし、俺も年収を上げるために明日からゴルフを始めよう!」
残念ながら、ゴルフをしても年収は上がりません。
- 真犯人(交絡因子): 「年齢(役職)」や「元々の富裕度」
- 偉くなると付き合いでゴルフをする機会が増えるだけ。
3. どうすれば見抜けるのか?(対策)
回帰分析や相関分析は、計算ソフトにデータを入れれば一瞬で終わります。
しかし、ソフトは「それが擬似相関かどうか」までは教えてくれません。
騙されないためには、私たち人間が以下の「ツッコミ」を入れる必要があります。
🕵️♂️ データへの尋問リスト
- 「逆はありえるか?」(雨が降るから傘をさす $\leftrightarrow$ 傘をさすから雨が降る)
- 「メカニズム(理屈)はあるか?」(アイスで溺れる物理的な理由は?)
- 「第三の要因はないか?」(時代、景気、気温、人口…)
この「メカニズムを考える力」のことを、専門用語で「ドメイン知識(現場の知見)」と呼びます。
統計学の計算式を知っているだけではダメで、その業界や現場の常識を知っていないと、正しい分析はできないのです。
まとめ
データ分析の結果が出たとき、すぐに「これが原因だ!」と飛びつく前に、一呼吸置いて周りを見渡してください。
「夏だからじゃない?」
その冷静な一言が、組織を誤った判断から救うことになるかもしれません。
統計学のおすすめ書籍
統計学の「数式アレルギー」を治してくれた一冊
「Σ(シグマ)や ∫(インテグラル)を見ただけで眠くなる…」 そんな私を救ってくれたのが、小島寛之先生の『完全独習 統計学入門』です。
この本は、難しい記号を一切使いません。 「中学レベルの数学」と「日本語」だけで、検定や推定の本質を驚くほど分かりやすく解説してくれます。
「計算はソフトに任せるけど、統計の『こころ(意味)』だけはちゃんと理解したい」 そう願う学生やエンジニアにとって、これ以上の入門書はありません。
【QC2級】「どこが出るか」がひと目で分かる!最短合格へのバイブル
私がQC検定2級に合格した際、使い倒したのがこの一冊です。
この本の最大の特徴は、「各単元の平均配点(何点分出るか)」が明記されていること。 「ここは出るから集中」「ここは出ないから流す」という戦略が立てやすく、最短ルートで合格ラインを突破できます。
解説が分かりやすいため、私はさらに上の「QC1級」を受験する際にも、基礎の確認用として辞書代わりに使っていました。 迷ったらまずはこれを選んでおけば間違いありません。