こんにちは、シラスです。
データ分析や実験をしていると、時として「完璧なデータ」が嘘をつくことがあります。
「データは嘘をつかないと言うけれど、
『そのデータが何によってもたらされたか』を読み間違えれば、
私たちは簡単に騙される」
その最大の原因こそが、今回解説する「交絡(Confounding)」です。
この概念を知らないと、良かれと思って行った改善が逆効果になったり、無実の要因を犯人扱い(冤罪)してしまったりします。
今日は、統計学や実験計画法における最重要注意点、「交絡」の正体を暴いていきましょう。
目次
1. 交絡とは?:影に潜む「第三の男」
まず、交絡を一言で定義します。
注目している要因(A)の効果に、別の要因(B)の効果が混ざり込んでしまい、
「どっちが結果に影響したのか区別がつかない状態」のこと。
これだけだと分かりにくいので、統計学で最も有名な例え話を出します。
アイスクリーム殺人事件
ある町でデータを取ったら、驚くべき相関が見つかりました。
- 🍦 アイスクリームの売上が増えると…
- 🏊 水難事故(溺れる人)が増える!
データは嘘をつきません。グラフにすると綺麗な右肩上がりです。
さて、この町は「水難事故を防ぐために、アイスクリームの販売を禁止すべき」でしょうか?
……絶対に違いますよね。
なぜなら、ここには隠れた「第三の男(真犯人)」がいるからです。
☀ 気温(夏)
暑いから、アイスが売れる。
暑いから、海に行って泳ぐ(事故が増える)。
アイスと事故には何の関係もありません。
両方を操っていたのは「気温」です。
しかし、もし私たちが「気温」というデータを無視して解析すると、「アイスが犯人だ!」という冤罪を生んでしまいます。
これが「交絡(交絡因子)」の恐怖です。
2. 実験計画法における「意図的な交絡」
さて、ここからがエンジニアの本題です。
実は、実験計画法(特に直交表)を使うとき、私たちは「意図的に交絡を利用」しています。
L8直交表などを思い出してください。
本来、$2^7=128$ 通りある組み合わせを、たった8回で済ませていますよね?
なぜそんなことができるのでしょうか。
重要な効果(主効果)と混ぜ合わせている(交絡させている)から」
同室の叫び声
実験計画法の列(Column)を「部屋」だと思ってください。
- 部屋No.3に、「因子C」を入れました。
- しかし、実はこの部屋には、最初から透明人間である「交互作用 A×B」も住んでいました。
部屋の中から「わー!」という叫び声(有意差)が聞こえました。
さて、叫んだのは「因子C」でしょうか? それとも「交互作用 A×B」でしょうか?
区別がつきませんよね? これが交絡です。
実験計画法では、「A×Bなんてめったに叫ばない(無視できる)だろう」と仮定して、「この声はCのものだ!」と断定して解析を進めます。
これを「交絡を許容する」といいます。
3. 対策:交絡に殺されないために
交絡は避けて通れませんが、制御することはできます。
エンジニアがやるべき対策は3つです。
① ランダム化(無作為化)
「実験日」「気温」「作業者の熟練度」など、制御できない邪魔者は、実験順序をランダムにすることで、特定の因子と交絡しないようにバラします。
(フィッシャーの3原則の鉄則ですね)
② 割り付けの確認(線点図・別名表)
直交表を使うときは、必ず「別名(Alias)」を確認してください。
「この列に因子Cを入れたら、どの交互作用と交絡するのか?」
これを把握せずに実験するのは、目隠しで高速道路を走るようなものです。
③ 層別(ブロック化)
「男性と女性」「AラインとBライン」など、明らかに性質が違うものは、データを混ぜずに分けて(層別して)解析します。
混ぜるな危険。交絡の元を断ち切ります。
まとめ:真犯人は常に隠れている
データ分析の結果が出たとき、すぐに「Aが原因だ!」と飛びつく前に、一呼吸置いて周りを見渡してください。
「本当にこいつが犯人か? 陰で糸を引いている『第三の男(交絡因子)』がいるんじゃないか?」
その疑いの目を持てたとき、あなたはデータに騙されない「本物のエンジニア」になれるはずです。
統計学のおすすめ書籍
統計学の「数式アレルギー」を治してくれた一冊
「Σ(シグマ)や ∫(インテグラル)を見ただけで眠くなる…」 そんな私を救ってくれたのが、小島寛之先生の『完全独習 統計学入門』です。
この本は、難しい記号を一切使いません。 「中学レベルの数学」と「日本語」だけで、検定や推定の本質を驚くほど分かりやすく解説してくれます。
「計算はソフトに任せるけど、統計の『こころ(意味)』だけはちゃんと理解したい」 そう願う学生やエンジニアにとって、これ以上の入門書はありません。
【QC2級】「どこが出るか」がひと目で分かる!最短合格へのバイブル
私がQC検定2級に合格した際、使い倒したのがこの一冊です。
この本の最大の特徴は、「各単元の平均配点(何点分出るか)」が明記されていること。 「ここは出るから集中」「ここは出ないから流す」という戦略が立てやすく、最短ルートで合格ラインを突破できます。
解説が分かりやすいため、私はさらに上の「QC1級」を受験する際にも、基礎の確認用として辞書代わりに使っていました。 迷ったらまずはこれを選んでおけば間違いありません。