回帰分析

相関と回帰分析の基礎|単回帰・散布図・相関係数を初心者向けにやさしく解説

😣 こんなことで困っていませんか?
  • 「相関」と「回帰」、似ているけど何が違うのかハッキリ言えない
  • 散布図や相関係数(r)の意味が、なんとなくでしか分からない
  • y=ax+b は知っているが、なぜそれが「予測」に使えるのか腑に落ちない
  • 「信頼区間」と「予測区間」の違いがわからず混乱している
✅ この記事でわかること
  • 相関と回帰の違いが一言でわかる
  • 散布図の見方と相関係数(r)の意味
  • 単回帰の式 y=ax+b の意味と「線形」とは何か
  • 回帰分析を正しく使うための4つの前提条件
  • 信頼区間と予測区間の違い(どちらが広いか)
🎯 結論:相関は「関係の強さ」、回帰は「関係を式にして予測」

相関と回帰の違いは一言でこうです。
相関=2つのデータの関係の「強さ」を数値(相関係数 r)で測るだけ。例:「身長と体重は関係が深いか?」
回帰=その関係を「式(y=ax+b)」にして、未知の値を予測する。例:「身長が1cm増えたら体重は何kg増える?」
相関で「関係がありそう」と確かめ、回帰で「具体的に予測する」。この流れで理解すればスッキリします。

そもそも回帰分析とは?「未来を予測する」道具

回帰分析とは、「あるデータ(原因)から、別のデータ(結果)を予測する」道具です。むずかしく考えなくて大丈夫です。あなたも日常で無意識にやっています。

💡 身近な例:あなたも予測している
・「気温が上がると、アイスがよく売れる」→ 明日30℃なら、アイスはこれくらい売れそう
・「勉強時間が長いほど、点数が上がる」→ 10時間勉強すれば、何点くらい取れそう
この「○○なら、たぶん□□になる」を、データから数式で導くのが回帰分析です。

説明変数(x)と目的変数(y)|どっちが原因か

回帰分析では、データを2つの役割に分けます。これを最初に押さえると、後がラクです。

🔑

説明変数 x(原因)

予測の「手がかり」にする方。自分で動かせることが多い。
例:気温、勉強時間、広告費

🎯

目的変数 y(結果)

予測「したい」方。知りたいゴール。
例:アイスの売上、点数、来客数

⚠️ 迷わない覚え方
x で y を説明する」と言葉にすると迷いません。「気温(x)で売上(y)を説明する」はOKですが、「売上(x)で気温(y)を説明する」は不自然ですよね。原因がx、知りたい結果がyです。

まずは「点の雲」を見る|散布図ガイド

回帰分析を始める前に、必ずやることがあります。それが散布図を描いて、データの「点の雲」を眺めることです。散布図は、2つのデータの関係を「点」で表したグラフです。

💡 散布図の描き方
・横軸(x)に説明変数(例:気温)
・縦軸(y)に目的変数(例:売上)
あとは、1日ぶんのデータを1つの点として打っていくだけ。点の集まりの「形」から、関係が見えてきます。

3つの基本パターン

点の雲の形 関係 意味
右上がり ↗ 正の相関 xが増えるとyも増える
右下がり ↘ 負の相関 xが増えるとyは減る
バラバラ・丸い ● 相関なし xとyに関係が見えない
⚠️ いきなり計算しない|外れ値を見つける
なぜまず散布図を描くのか。それはぽつんと離れた「外れ値」や、直線では表せない「曲がった関係」を見つけるためです。計算だけ先に進めると、これらを見逃します。「数字を出す前に、まず目で見る」が鉄則です。

相関と回帰の違い|「強さを測る」vs「式で予測する」

ここが本記事の核心です。散布図で「関係がありそう」とわかったら、次の2つの道具を使い分けます。

📏

相関分析

関係の「強さと向き」を1つの数値で表す。

  • 道具:相関係数 r(−1〜+1)
  • わかること:「関係が深いか」
  • x・yに上下関係なし(対等)
📈

回帰分析

関係を「式」にして、yを予測する。

  • 道具:回帰式 y=ax+b
  • わかること:「いくつになるか」
  • x(原因)→y(結果)の向きあり

相関係数 r の読み方

相関係数 r は−1から+1までの値をとり、関係の強さを表します。プラスなら右上がり、マイナスなら右下がり、0に近いほど関係が弱いという意味です。

|r| の目安 関係の強さ
0.7 〜 1.0 強い相関
0.4 〜 0.7 中程度の相関
0 〜 0.4 弱い・ほぼ相関なし
⚠️ 最重要:相関が高くても回帰分析をする理由
「相関係数が高いなら、それで十分では?」と思いますよね。でも、相関係数は「どれくらい強いか」しか教えてくれません
「気温が1℃上がったら、売上は何円増えるのか」という具体的な数字(予測)が欲しいなら、回帰分析が必要です。相関は関係の有無を確かめる入口、回帰は予測を出す本番、という役割分担です。

回帰の主役|単回帰の式 y=ax+b と「線形」とは

1つの説明変数(x)で1つの目的変数(y)を予測するのが単回帰分析です。使う式は、中学で習った直線の式とまったく同じです。

📐 単回帰の式(回帰直線)
y = ax + b
a:傾き(回帰係数)/ b:切片

この式の a と b には、ちゃんとした意味があります。

📐

a(傾き)

xが1増えると、yがどれだけ増えるか
例:気温が1℃上がると売上が500円増える → a=500

📍

b(切片)

xが0のときのyの値
例:気温0℃でも売れる基本の売上

💡 予測の例:気温25℃なら売上は?
式が y = 500x + 2000 だとします(a=500、b=2000)。
気温 x=25 を代入すると → y = 500×25 + 2000 = 12500 + 2000 = 14,500円
このように、式さえできれば、まだ起きていない日の売上も予測できます。これが回帰の力です。

「線形」とは何か|なぜ世界を直線で説明するのか

回帰分析でよく出る「線形(リニア)」という言葉。これは単純に「直線で表せる関係」という意味です。y=ax+b が直線の式だから「線形回帰」と呼びます。

⚠️ なぜわざわざ「直線」にこだわるのか
現実の関係は、本当はゆるやかに曲がっているかもしれません。それでも直線で近似するのは、「シンプルで、誰でも解釈でき、計算しやすい」からです。
「xが1増えればyがa増える」という直線は、人間が一番理解しやすい形です。まず直線で大づかみにとらえる——これが線形回帰の発想です。

どうやって直線を引く?|最小二乗法のイメージ

点の雲のどこに直線を引くか。正解は「各点から直線までのタテのズレ(残差)の2乗を、合計して一番小さくする直線」です。これを最小二乗法といいます。

💡 イメージ:全部の点に一番近い「バランスの良い直線」
各点と直線をバネでつないだと想像してください。バネが引っ張る力(ズレ)の合計が最小になる位置で、直線がピタッと安定します。これが最小二乗法で引かれる回帰直線です。

回帰分析を信じる前に|4つの前提条件

回帰分析の結果を信頼するには、守られているべき4つの前提があります。これを無視すると、出した予測が当てにならなくなります。難しそうですが、1つずつ見れば単純です。

前提 1

線形性:xとyの関係が「直線」で表せること。曲がった関係に直線を当てると当然ズレる。→ 散布図で確認。

前提 2

独立性:各データが互いに影響しあっていないこと。「前の日の結果が次に響く」ようなデータは要注意。

前提 3

等分散性:ズレ(残差)のバラつきが、xの大小にかかわらず一定であること。xが大きいほどバラつくのはNG。

前提 4

正規性:ズレ(残差)が、平均0の正規分布に従っていること。極端に偏ったズレ方をしていないか。

💡 覚え方:「線・独・等・正(せん・どく・とう・せい)」
形性・立性・分散性・規性の頭文字。多くは「残差プロット(ズレを散布図にしたもの)」を見れば、まとめてチェックできます。
⚠️ 相関に騙されない|因果関係ではない
「アイスが売れると水難事故が増える」——これは両方とも「気温」が原因で、アイスが事故を起こすわけではありません。相関があっても、因果関係(原因と結果)とは限らない。これを擬似相関(見せかけの相関)といいます。回帰式が出ても、本当に原因と結果かは別途考える必要があります。

予測の精度|信頼区間と予測区間の違い

回帰直線で予測しても、ピタリと当たることはまずありません。そこで「だいたいこの範囲」という幅をつけます。この幅に2種類あるのが、多くの人が混乱するポイントです。

📊

信頼区間

「平均的にはどのへんか」の範囲。

  • 例:気温25℃の日「全体の平均売上」はどこか
  • 狙うのは「平均の位置」
  • 幅は狭い
🎯

予測区間

「次の1つはどこに来るか」の範囲。

  • 例:気温25℃の「明日1日の売上」はどこか
  • 狙うのは「個別の1点」
  • 幅は広い
💡 なぜ予測区間のほうが広いのか
「平均」は、たくさんの日をならした値なのでブレが小さい(=信頼区間は狭い)。
でも「明日という特定の1日」は、その日だけのバラつき(運・誤差)が乗るので、予測の幅が広がります(=予測区間は広い)。
個別の1点を当てるほうが難しいから、予測区間は信頼区間より必ず広くなります。
比較 信頼区間 予測区間
知りたい対象 yの「平均」 yの「個別の1点」
狭い 広い
使う場面 傾向・平均を語る 明日の実測を見積もる
⚠️ 共通の注意:「外挿」は危険
どちらの区間も、データのある範囲(内挿)でしか信頼できません。気温0〜30℃のデータから作った式で「気温50℃」を予測する(外挿)のは危険です。データのない世界では、直線が成り立つ保証がないからです。

よくある質問(FAQ)

Q. 相関と回帰、結局どっちを使えばいい?

A. 「関係があるか確かめたい」なら相関、「具体的な数値を予測したい」なら回帰です。まず相関で関係を確認し、次に回帰で予測するのが王道です。

Q. 相関係数が高ければ予測も正確になる?

A. 相関係数は「関係の強さ」を示すだけで、予測値そのものは出しません。具体的な予測には回帰式(y=ax+b)が必要です。

Q. 「線形」って難しい言葉だけど何のこと?

A. 「直線で表せる関係」という意味です。y=ax+b が直線の式なので、これを使う回帰を線形回帰と呼びます。

Q. 信頼区間と予測区間、どっちが広い?

A. 予測区間のほうが広いです。平均を当てる信頼区間より、個別の1点を当てる予測区間のほうが不確かさが大きいためです。

Q. 説明変数が複数あるときは?

A. 説明変数が2つ以上になると「重回帰分析」になります。基本の考え方は単回帰と同じで、式に項が増えるだけです。

まとめ:相関と回帰の基礎はこれで完成

📌 この記事の要点
  • 相関=関係の強さを r(−1〜+1)で測る/回帰=関係を式 y=ax+b にして予測する
  • 分析の前に必ず散布図を描き、外れ値や曲がりを目で確認する
  • 単回帰の式は a=傾き(xが1増えるとyがa増える)、b=切片
  • 「線形」=直線で表せる関係。最小二乗法でズレが最小の直線を引く
  • 前提は線・独・等・正の4つ/予測区間は信頼区間より広い

ここまで理解できれば、回帰分析の土台は完成です。次は決定係数R²や、説明変数を増やす重回帰分析に進むと、一気に実戦的になります。

📚 次に読むべき記事

📘 回帰分析の学習ロードマップ|相関分析から重回帰まで体系的にマスター →

回帰分析の全体像を体系的に学べるマップ。次に何を学ぶか迷ったらまずこれです。

📘 決定係数(R²)の正体|「あてはまりの良さ」を視覚的に理解する →

作った回帰式が「どれくらい当たっているか」を測る指標。基礎の次に学ぶ定番です。

📘 重回帰分析とは?複数の要因で結果を予測する「単回帰の進化版」 →

説明変数を複数に増やした発展形。単回帰がわかった今が、進むベストタイミングです。

タグ

-回帰分析