「回帰分析をしてみたけれど、予測精度が低い」
「p値や決定係数だけ見て、分析結果を信じていいのか不安」
そんな悩みを抱えていませんか?
実は、回帰分析(線形回帰)を行うには、データがクリアしていなければならない「4つの前提条件」があります。これらが満たされていないと、いくら高機能な分析ツールを使っても、出てくる結果は信頼できないもの(=ボロボロな結果)になってしまいます。
目次
なぜ「前提条件」が必要なのか?
回帰分析は「料理」に似ています。どんなに腕の良いシェフ(分析手法)がいても、食材(データ)が腐っていては、美味しい料理(正しい結果)は作れません。
統計学における「新鮮な食材の条件」にあたるのが、以下の4つです。
1. 線形性(Linearity):まっすぐな関係か?
最も基本的かつ重要な条件です。「原因(説明変数)」と「結果(目的変数)」の関係が、直線(y = ax + b)で表現できることを指します。
無理やり直線を引いても、予測は大きく外れてしまいます。
2. 独立性(Independence):データは無関係か?
集めたデータの一つひとつが、他から影響を受けていないことが必要です。「あるデータの値が決まると、自動的に次のデータの値も決まってしまう」ような状態はNGです。
3. 正規性(Normality):誤差は釣鐘型か?
ここでのポイントは、データそのものではなく、「予測とのズレ(残差)」に注目することです。
予測値と実際の値のズレ(誤差)をヒストグラムにしたとき、それが「正規分布(きれいな釣鐘型)」になっている必要があります。
これはモデルが何か重要な要素を見落としている証拠です。
4. 等分散性(Homoscedasticity):散らばりは均一か?
データの大小にかかわらず、誤差の範囲(散らばり具合)が一定であることを指します。
帯のように均一に散らばっていますか?
「値が小さいときは正確だが、大きいときは全然当たらない」という不安定なモデルになってしまいます。
まとめ:分析ボタンを押す前にプロットを見よう
回帰分析は強力なツールですが、万能ではありません。いきなり分析ツールで計算を始める前に、まずは散布図を描いてデータを「見る」クセをつけましょう。
- 線形性:直線関係か?
- 独立性:データは互いに無関係か?
- 正規性:誤差はバランス良いか?
- 等分散性:誤差の幅は一定か?