回帰分析

【超入門】重回帰分析とは?|複数の要因で結果を予測する「単回帰の進化版」を完全図解

😣 こんな悩みはありませんか?
  • 「重回帰分析って何?単回帰と何が違うの?」
  • 「複数の要因で結果を予測したいけど、やり方がわからない…」
  • 「偏回帰係数って何?普通の回帰係数と違うの?」
✅ この記事でわかること
  • 重回帰分析の基本的な考え方と単回帰との違い
  • 偏回帰係数の意味を直感的に理解
  • 重回帰分析がどんな場面で使えるかの具体例
  • QC検定・実務で必要な全体像を把握

「売上を予測したい」「品質に影響する要因を知りたい」

こんなとき、1つの要因だけで予測しても、なかなかうまくいかないですよね。

たとえば、マンションの価格を予測したいとき。「面積」だけで予測するより、「面積」「駅からの距離」「築年数」の3つを組み合わせた方が、ずっと正確に予測できるはずです。

このように、複数の要因(説明変数)を使って結果(目的変数)を予測する手法が「重回帰分析」です。

この記事では、重回帰分析の基本的な考え方を、数式をできるだけ使わずに解説します。

🔄 単回帰と重回帰の違い

まず、「単回帰分析」と「重回帰分析」の違いを明確にしましょう。

📊 単回帰分析:1つの要因で予測

単回帰分析は、1つの説明変数(x)から1つの目的変数(y)を予測する手法です。

📐 単回帰分析の式
y = β₀ + β₁x

・y:目的変数(予測したいもの)
・x:説明変数(予測に使う要因)
・β₀:切片、β₁:回帰係数

例えば、「面積(x)からマンション価格(y)を予測する」といった使い方です。

📊 重回帰分析:複数の要因で予測

重回帰分析は、複数の説明変数(x₁, x₂, x₃...)から1つの目的変数(y)を予測する手法です。

📐 重回帰分析の式
y = β₀ + β₁x₁ + β₂x₂ + β₃x₃ + ...

・y:目的変数(予測したいもの)
・x₁, x₂, x₃...:複数の説明変数
・β₁, β₂, β₃...:偏回帰係数(各要因の影響度)

例えば、「面積(x₁)・駅からの距離(x₂)・築年数(x₃)からマンション価格(y)を予測する」といった使い方です。

📋 比較表:単回帰 vs 重回帰

項目単回帰分析重回帰分析
説明変数の数1つ2つ以上
回帰式y = β₀ + β₁xy = β₀ + β₁x₁ + β₂x₂ + ...
グラフのイメージ直線(2次元)平面・超平面(3次元以上)
係数の呼び方回帰係数偏回帰係数
予測精度要因が1つだけなので限界あり複数の要因を考慮できるので高い
💡 ポイント
重回帰分析は「単回帰分析の進化版」と考えてOKです。説明変数が1つなら単回帰、2つ以上なら重回帰。それだけの違いです。

🤔 なぜ重回帰分析が必要なのか?

「単回帰でも予測できるなら、わざわざ複雑な重回帰を使う必要あるの?」

と思うかもしれません。でも、現実世界の現象は、1つの要因だけで説明できることはほとんどないんです。

🏠 具体例:マンション価格の予測

マンション価格を予測するとき、「面積」だけで予測したらどうなるでしょうか?

同じ80㎡のマンションでも、

  • 駅徒歩3分 vs 駅徒歩30分
  • 築5年 vs 築40年
  • タワマン最上階 vs 1階

では、価格が全然違いますよね。

面積だけで予測しようとすると、これらの違いが考慮されず、予測精度がガタ落ちになります。

⚠️ 単回帰の限界
単回帰分析では、「他の要因の影響」を無視してしまいます。そのため、本当は「駅からの距離」が価格に大きく影響しているのに、それを見落としてしまう可能性があります。

✅ 重回帰分析なら「複数の要因」を同時に考慮できる

重回帰分析を使えば、こんな予測式を作ることができます。

📐 マンション価格の重回帰式(例)
価格 = 500 + 50 × 面積30 × 駅徒歩分20 × 築年数

(単位:価格=万円、面積=㎡、駅徒歩分=分、築年数=年)

この式を使えば、面積・駅距離・築年数の3つを考慮して価格を予測できます。

例えば、「80㎡・駅徒歩10分・築15年」のマンションなら、

価格 = 500 + 50×80 − 30×10 − 20×15
= 500 + 4000 − 300 − 300
= 3,900万円

と予測できます。

🎯 偏回帰係数とは?

重回帰分析で最も重要な概念が「偏回帰係数」です。

📌 偏回帰係数の意味

📐 偏回帰係数とは?
「他の説明変数を固定したとき」に、その説明変数が1単位増えると、目的変数がどれだけ変化するかを表す係数です。

先ほどのマンション価格の例で説明しましょう。

説明変数偏回帰係数解釈
面積+50駅距離・築年数が同じなら、1㎡広くなると価格が50万円上がる
駅徒歩分−30面積・築年数が同じなら、駅から1分遠くなると価格が30万円下がる
築年数−20面積・駅距離が同じなら、1年古くなると価格が20万円下がる

🔑 「他を固定したとき」がポイント

偏回帰係数の「偏」は、「他の変数の影響を取り除いた(偏った)」という意味です。

単回帰の「回帰係数」は、他の変数を考慮していません。でも偏回帰係数は、他の変数の影響を「調整」した上での純粋な影響度を表しています。

💡 たとえ話:テストの点数
「勉強時間が長い人ほど点数が高い」という分析をしたいとき、もし「地頭の良さ」を考慮しないと、勉強時間の効果を過大評価してしまうかもしれません。

重回帰分析なら、「地頭の良さを固定したとき、勉強時間が1時間増えると点数は何点上がるか?」を正確に推定できます。
📙 偏回帰係数をもっと詳しく知りたい方はこちら
【図解】偏回帰係数とは?|「他を固定したときの影響度」を完全理解 →

🏭 重回帰分析の活用例

重回帰分析は、さまざまな分野で活用されています。

🔧 製造業(品質管理)

目的変数(y)説明変数(x₁, x₂, x₃...)
製品の強度温度、圧力、時間、原料の配合比
不良率機械の設定、作業者の熟練度、原材料のロット
加工精度切削速度、送り速度、工具の摩耗度

QC検定では、このような製造プロセスのデータを使った重回帰分析が頻出です。

💼 ビジネス

目的変数(y)説明変数(x₁, x₂, x₃...)
売上広告費、価格、競合数、季節
顧客満足度待ち時間、接客態度、価格、品質
離職率給与、残業時間、人間関係、キャリアパス

🏥 医療・健康

目的変数(y)説明変数(x₁, x₂, x₃...)
血圧年齢、体重、塩分摂取量、運動量
治療効果薬の種類、投与量、患者の年齢、併存疾患

⚠️ 重回帰分析の注意点

重回帰分析は強力な手法ですが、いくつか注意点があります。

❌ 注意点①:多重共線性(マルチコリニアリティ)

説明変数同士が強く相関していると、偏回帰係数が不安定になります。

例えば、「身長」と「体重」を両方説明変数に入れると、この2つは強く相関しているため、どちらがどれだけ影響しているか分離できなくなります。

⚠️ 対策
VIF(分散拡大係数)という指標で多重共線性をチェックします。VIFが10以上なら要注意です。

❌ 注意点②:相関≠因果

重回帰分析で「影響がある」とわかっても、それが因果関係を証明するわけではありません

例えば、「アイスクリームの売上」と「溺死者数」には相関がありますが、アイスを食べると溺れるわけではありません。両方とも「気温」という第三の変数に影響されているだけです。

❌ 注意点③:外挿は危険

データの範囲外を予測する(外挿)と、とんでもない値が出ることがあります。

例えば、20〜40歳のデータで作った回帰式を使って、100歳の人を予測しようとすると、非現実的な値になる可能性があります。

📗 内挿と外挿の違いを詳しく知りたい方はこちら
回帰分析の限界とは?「内挿」は得意だが「外挿」は危険な理由 →

📋 重回帰分析の手順(全体像)

重回帰分析の全体的な流れを把握しておきましょう。

🔢 重回帰分析の7ステップ

Stepやること解説記事
Step 1データを収集し、散布図で確認散布図ガイド
Step 2重回帰式を推定(偏回帰係数を求める)正規方程式
Step 3分散分析でモデル全体の有意性を検定分散分析表
Step 4決定係数(R²)で当てはまりを確認決定係数
Step 5各偏回帰係数のt検定(どの変数が効いているか)t検定
Step 6回帰診断(残差プロット、多重共線性のチェック)多重共線性
Step 7必要に応じて変数選択を行う変数選択
💡 ポイント
この記事では「重回帰分析とは何か?」という全体像を理解することが目的です。各ステップの詳細は、上記のリンク先で解説しています。

📝 QC検定での出題パターン

QC検定(特に1級・2級)では、重回帰分析が頻出です。よく問われるポイントを押さえておきましょう。

📊 QC検定で問われる内容

出題内容具体的な問い対策記事
分散分析表の穴埋め残差平方和 Se、分散比 F₀ を求めよ平方和の分解
回帰モデルの有意性F₀ と F表を比較して判定せよF検定
偏回帰係数の検定β₁=0、β₂=0 は棄却されるか?t検定
偏回帰係数の区間推定β₁ の99%信頼区間を求めよ区間推定
切片の推定切片 β₀ の推定値を求めよ正規方程式
🎯 QC検定対策のコツ
QC検定では、「与えられた統計量から計算する」問題が多いです。公式を暗記するだけでなく、実際に手を動かして計算練習することが大切です。

📋 まとめ

この記事では、重回帰分析の基本的な考え方を解説しました。

✅ この記事のポイント
  • 重回帰分析は、複数の説明変数から目的変数を予測する手法
  • 単回帰との違いは、説明変数が1つか2つ以上か
  • 偏回帰係数は「他の変数を固定したときの影響度」を表す
  • 注意点として、多重共線性・相関≠因果・外挿の危険がある
  • QC検定では、分散分析表・F検定・t検定・区間推定が頻出

重回帰分析は、単回帰分析の「進化版」です。基本的な考え方は同じなので、単回帰をしっかり理解していれば、重回帰もスムーズに理解できます。

次は、「偏回帰係数」の意味をもっと深く理解しましょう。

📖 回帰分析をもっと学びたい方へ

当サイトでは、回帰分析の基礎から応用まで体系的に解説しています。

📊 回帰分析の学習ロードマップを見る →

タグ

-回帰分析
-