こんにちは、シラスです。
統計的仮説検定を勉強していて、一番イライラするのは「言葉の回りくどさ」ではないでしょうか。
明らかにデータに差があるのに、統計学者はこう言います。 「帰無仮説を棄却する」
逆に、差が見られない時も、こう言います。 「帰無仮説を棄却できない(差があるとは言えない)」
「いや、スパッと『差がある!』『差がない!』と言ってくれよ!」と思いたくなりますよね。なぜ彼らはこんなに捻くれた言い方をするのでしょうか?
実はこれ、性格が悪いからではありません。「科学的に嘘をつかないための、ギリギリの誠実さ」が、この独特な言い回しを生んでいるのです。
今日は、この「帰無仮説」のロジックを、裁判の「推定無罪」に例えてスッキリ理解しましょう。
目次
1. そもそも「帰無仮説」とは?
まず、用語の整理です。検定を行う時、私たちは2つの仮説を立てます。
「差はない」「効果はない」「偶然である」という、否定したい仮説。
「差がある」「効果がある」という、主張したい仮説。
ここで重要なのは、統計的検定は「対立仮説(主張したいこと)を直接証明するのではない」ということです。
わざわざ「帰無仮説(否定したいこと)」が間違っていることを証明することで、消去法的に「じゃあ、対立仮説が正しいよね」と主張するスタイルを取ります。これを「背理法」と言います。
2. 「疑わしきは罰せず」の裁判と同じ
なぜこんな面倒なことをするのか? それは「裁判」をイメージすると一発で分かります。
- 検察官(あなた): 「被告人は有罪だ!」と主張したい(対立仮説)。
- 裁判のルール: 確実な証拠が出るまでは「被告人は無罪(シロ)」と仮定して進める(帰無仮説)。
これが「推定無罪」の原則です。
ケースA:証拠が十分な場合(P < 0.05)
あなたは強力な証拠(データ)を突きつけました。 「無罪だと仮定するには、この証拠の説明がつかない(確率が低すぎる)!」
裁判長は判決を下します。 「被告人の『無罪』という仮定は無理がある。よって棄却する。被告人は『有罪(クロ)』である!」
これが「有意差あり(帰無仮説を棄却する)」の状態です。 「無罪(差がない)」という可能性を消すことで、「有罪(差がある)」を勝ち取ったわけです。
ケースB:証拠が不十分な場合(P > 0.05)
ここが重要です。 証拠が弱く、「まあ、無罪の人でもこれくらいの行動はするよね」と判断された場合、どうなるでしょうか?
裁判長はこう言います。 「証拠不十分につき、無罪(として扱う)」
さて、ここで質問です。 この判決は、「被告人が100%清廉潔白で、絶対にやっていない」と証明したことになりますか?
なりませんよね。 「本当はやっているかもしれないが、今の証拠だけでは有罪とは言えない(クロと断定できない)」と言っているだけです。
検定で有意差が出なかった時、「差がない(AとBは同じ)」と結論づけるのは間違いです。
正しくは、「差があるとは言えない(保留)」です。
(サンプル数を増やせば、差が見つかるかもしれないから!)
3. なぜ「差がない」と言い切ってはいけないのか?
統計学者が「差がない(同じである)」と言い切るのを嫌がる理由は、「悪魔の証明」になるからです。
- 「差がある」ことの証明 = 1つでも反例(強いデータ)があればOK。
- 「差がない」ことの証明 = 世界中のあらゆるデータを集めてもズレがないことを示さなければならない。
工場で「A機とB機の性能は同じです!」と言い切るためには、無限に製品を作り続けなければ証明できません。 しかし、「A機とB機には差があります!」ということは、100個程度のデータ(有意差)があれば証明できます。
だから統計学では、「差があること(有罪)」は積極的に証明しますが、「差がないこと(無罪)」は「とりあえず保留」という消極的な態度をとるのです。
まとめ:捻くれた言い方は「謙虚さ」の表れ
統計的仮説検定のロジック、イメージできたでしょうか。
- 帰無仮説を棄却する
- =「無罪の仮定は無理がある。だから有罪(差がある)だ!」
- 帰無仮説を棄却できない
- =「無罪を覆すほどの証拠が出なかった。だから今回は無罪(差があるとは言えない)としておこう」
「差がないとは言えない」とか「棄却できない」という歯切れの悪い言い方は、「今のデータ量ではここまでしか分かりません」という、統計学の謙虚さ(リスク管理)の表れなのです。
実務で「有意差なし」の結果が出たときは、「同じでした!」と報告するのではなく、「今のデータ数では差を確認できませんでした(もっとN数を増やせば出るかも?)」と報告するのが、デキる技術者の作法です。