相関と回帰分析の基礎｜単回帰・散布図・相関係数を初心者向けにやさしく解説

😣 こんなことで困っていませんか？

「相関」と「回帰」、似ているけど何が違うのかハッキリ言えない
散布図や相関係数（r）の意味が、なんとなくでしか分からない
y=ax+b は知っているが、なぜそれが「予測」に使えるのか腑に落ちない
「信頼区間」と「予測区間」の違いがわからず混乱している

✅ この記事でわかること

相関と回帰の違いが一言でわかる
散布図の見方と相関係数（r）の意味
単回帰の式 y=ax+b の意味と「線形」とは何か
回帰分析を正しく使うための4つの前提条件
信頼区間と予測区間の違い（どちらが広いか）

🎯 結論：相関は「関係の強さ」、回帰は「関係を式にして予測」

相関と回帰の違いは一言でこうです。
・相関＝2つのデータの関係の「強さ」を数値（相関係数 r）で測るだけ。例：「身長と体重は関係が深いか？」
・回帰＝その関係を「式（y=ax+b）」にして、未知の値を予測する。例：「身長が1cm増えたら体重は何kg増える？」
相関で「関係がありそう」と確かめ、回帰で「具体的に予測する」。この流れで理解すればスッキリします。

そもそも回帰分析とは？「未来を予測する」道具
- 説明変数（x）と目的変数（y）｜どっちが原因か
まずは「点の雲」を見る｜散布図ガイド
- 3つの基本パターン
相関と回帰の違い｜「強さを測る」vs「式で予測する」
- 相関係数 r の読み方
回帰の主役｜単回帰の式 y=ax+b と「線形」とは
- 「線形」とは何か｜なぜ世界を直線で説明するのか
- どうやって直線を引く？｜最小二乗法のイメージ
回帰分析を信じる前に｜4つの前提条件
予測の精度｜信頼区間と予測区間の違い
よくある質問（FAQ）
まとめ：相関と回帰の基礎はこれで完成
- 📚 次に読むべき記事

そもそも回帰分析とは？「未来を予測する」道具

回帰分析とは、「あるデータ（原因）から、別のデータ（結果）を予測する」道具です。むずかしく考えなくて大丈夫です。あなたも日常で無意識にやっています。

💡 身近な例：あなたも予測している
・「気温が上がると、アイスがよく売れる」→ 明日30℃なら、アイスはこれくらい売れそう
・「勉強時間が長いほど、点数が上がる」→ 10時間勉強すれば、何点くらい取れそう
この「○○なら、たぶん□□になる」を、データから数式で導くのが回帰分析です。

説明変数（x）と目的変数（y）｜どっちが原因か

回帰分析では、データを2つの役割に分けます。これを最初に押さえると、後がラクです。

🔑

説明変数 x（原因）

予測の「手がかり」にする方。自分で動かせることが多い。
例：気温、勉強時間、広告費

🎯

目的変数 y（結果）

予測「したい」方。知りたいゴール。
例：アイスの売上、点数、来客数

⚠️ 迷わない覚え方
「x で y を説明する」と言葉にすると迷いません。「気温（x）で売上（y）を説明する」はOKですが、「売上（x）で気温（y）を説明する」は不自然ですよね。原因がx、知りたい結果がyです。

まずは「点の雲」を見る｜散布図ガイド

回帰分析を始める前に、必ずやることがあります。それが散布図を描いて、データの「点の雲」を眺めることです。散布図は、2つのデータの関係を「点」で表したグラフです。

💡 散布図の描き方
・横軸（x）に説明変数（例：気温）
・縦軸（y）に目的変数（例：売上）
あとは、1日ぶんのデータを1つの点として打っていくだけ。点の集まりの「形」から、関係が見えてきます。

3つの基本パターン

点の雲の形	関係	意味
右上がり ↗	正の相関	xが増えるとyも増える
右下がり ↘	負の相関	xが増えるとyは減る
バラバラ・丸い ●	相関なし	xとyに関係が見えない

⚠️ いきなり計算しない｜外れ値を見つける
なぜまず散布図を描くのか。それはぽつんと離れた「外れ値」や、直線では表せない「曲がった関係」を見つけるためです。計算だけ先に進めると、これらを見逃します。「数字を出す前に、まず目で見る」が鉄則です。

相関と回帰の違い｜「強さを測る」vs「式で予測する」

ここが本記事の核心です。散布図で「関係がありそう」とわかったら、次の2つの道具を使い分けます。

📏

相関分析

関係の「強さと向き」を1つの数値で表す。

道具：相関係数 r（−1〜+1）
わかること：「関係が深いか」
x・yに上下関係なし（対等）

📈

回帰分析

関係を「式」にして、yを予測する。

道具：回帰式 y=ax+b
わかること：「いくつになるか」
x（原因）→y（結果）の向きあり

相関係数 r の読み方

相関係数 r は−1から+1までの値をとり、関係の強さを表します。プラスなら右上がり、マイナスなら右下がり、0に近いほど関係が弱いという意味です。

\|r\| の目安	関係の強さ
0.7 〜 1.0	強い相関
0.4 〜 0.7	中程度の相関
0 〜 0.4	弱い・ほぼ相関なし

⚠️ 最重要：相関が高くても回帰分析をする理由
「相関係数が高いなら、それで十分では？」と思いますよね。でも、相関係数は「どれくらい強いか」しか教えてくれません。
「気温が1℃上がったら、売上は何円増えるのか」という具体的な数字（予測）が欲しいなら、回帰分析が必要です。相関は関係の有無を確かめる入口、回帰は予測を出す本番、という役割分担です。

回帰の主役｜単回帰の式 y=ax+b と「線形」とは

1つの説明変数（x）で1つの目的変数（y）を予測するのが単回帰分析です。使う式は、中学で習った直線の式とまったく同じです。

📐 単回帰の式（回帰直線）
y ＝ ax ＋ b
a：傾き（回帰係数）／ b：切片

この式の a と b には、ちゃんとした意味があります。

📐

a（傾き）

xが1増えると、yがどれだけ増えるか。
例：気温が1℃上がると売上が500円増える → a＝500

📍

b（切片）

xが0のときのyの値。
例：気温0℃でも売れる基本の売上

💡 予測の例：気温25℃なら売上は？
式が y ＝ 500x ＋ 2000 だとします（a＝500、b＝2000）。
気温 x＝25 を代入すると → y ＝ 500×25 ＋ 2000 ＝ 12500 + 2000 ＝ 14,500円
このように、式さえできれば、まだ起きていない日の売上も予測できます。これが回帰の力です。

「線形」とは何か｜なぜ世界を直線で説明するのか

回帰分析でよく出る「線形（リニア）」という言葉。これは単純に「直線で表せる関係」という意味です。y=ax+b が直線の式だから「線形回帰」と呼びます。

⚠️ なぜわざわざ「直線」にこだわるのか
現実の関係は、本当はゆるやかに曲がっているかもしれません。それでも直線で近似するのは、「シンプルで、誰でも解釈でき、計算しやすい」からです。
「xが1増えればyがa増える」という直線は、人間が一番理解しやすい形です。まず直線で大づかみにとらえる——これが線形回帰の発想です。

どうやって直線を引く？｜最小二乗法のイメージ

点の雲のどこに直線を引くか。正解は「各点から直線までのタテのズレ（残差）の2乗を、合計して一番小さくする直線」です。これを最小二乗法といいます。

💡 イメージ：全部の点に一番近い「バランスの良い直線」
各点と直線をバネでつないだと想像してください。バネが引っ張る力（ズレ）の合計が最小になる位置で、直線がピタッと安定します。これが最小二乗法で引かれる回帰直線です。

回帰分析を信じる前に｜4つの前提条件

回帰分析の結果を信頼するには、守られているべき4つの前提があります。これを無視すると、出した予測が当てにならなくなります。難しそうですが、1つずつ見れば単純です。

前提 1

線形性：xとyの関係が「直線」で表せること。曲がった関係に直線を当てると当然ズレる。→ 散布図で確認。

前提 2

独立性：各データが互いに影響しあっていないこと。「前の日の結果が次に響く」ようなデータは要注意。

前提 3

等分散性：ズレ（残差）のバラつきが、xの大小にかかわらず一定であること。xが大きいほどバラつくのはNG。

前提 4

正規性：ズレ（残差）が、平均0の正規分布に従っていること。極端に偏ったズレ方をしていないか。

💡 覚え方：「線・独・等・正（せん・どく・とう・せい）」
線形性・独立性・等分散性・正規性の頭文字。多くは「残差プロット（ズレを散布図にしたもの）」を見れば、まとめてチェックできます。

⚠️ 相関に騙されない｜因果関係ではない
「アイスが売れると水難事故が増える」——これは両方とも「気温」が原因で、アイスが事故を起こすわけではありません。相関があっても、因果関係（原因と結果）とは限らない。これを擬似相関（見せかけの相関）といいます。回帰式が出ても、本当に原因と結果かは別途考える必要があります。

予測の精度｜信頼区間と予測区間の違い

回帰直線で予測しても、ピタリと当たることはまずありません。そこで「だいたいこの範囲」という幅をつけます。この幅に2種類あるのが、多くの人が混乱するポイントです。

📊

信頼区間

「平均的にはどのへんか」の範囲。

例：気温25℃の日「全体の平均売上」はどこか
狙うのは「平均の位置」
幅は狭い

🎯

予測区間

「次の1つはどこに来るか」の範囲。

例：気温25℃の「明日1日の売上」はどこか
狙うのは「個別の1点」
幅は広い

💡 なぜ予測区間のほうが広いのか
「平均」は、たくさんの日をならした値なのでブレが小さい（＝信頼区間は狭い）。
でも「明日という特定の1日」は、その日だけのバラつき（運・誤差）が乗るので、予測の幅が広がります（＝予測区間は広い）。
個別の1点を当てるほうが難しいから、予測区間は信頼区間より必ず広くなります。

比較	信頼区間	予測区間
知りたい対象	yの「平均」	yの「個別の1点」
幅	狭い	広い
使う場面	傾向・平均を語る	明日の実測を見積もる

⚠️ 共通の注意：「外挿」は危険
どちらの区間も、データのある範囲（内挿）でしか信頼できません。気温0〜30℃のデータから作った式で「気温50℃」を予測する（外挿）のは危険です。データのない世界では、直線が成り立つ保証がないからです。

よくある質問（FAQ）

Q. 相関と回帰、結局どっちを使えばいい？

A. 「関係があるか確かめたい」なら相関、「具体的な数値を予測したい」なら回帰です。まず相関で関係を確認し、次に回帰で予測するのが王道です。

Q. 相関係数が高ければ予測も正確になる？

A. 相関係数は「関係の強さ」を示すだけで、予測値そのものは出しません。具体的な予測には回帰式（y=ax+b）が必要です。

Q. 「線形」って難しい言葉だけど何のこと？

A. 「直線で表せる関係」という意味です。y=ax+b が直線の式なので、これを使う回帰を線形回帰と呼びます。

Q. 信頼区間と予測区間、どっちが広い？

A. 予測区間のほうが広いです。平均を当てる信頼区間より、個別の1点を当てる予測区間のほうが不確かさが大きいためです。

Q. 説明変数が複数あるときは？

A. 説明変数が2つ以上になると「重回帰分析」になります。基本の考え方は単回帰と同じで、式に項が増えるだけです。

まとめ：相関と回帰の基礎はこれで完成

📌 この記事の要点

相関＝関係の強さを r（−1〜+1）で測る／回帰＝関係を式 y=ax+b にして予測する
分析の前に必ず散布図を描き、外れ値や曲がりを目で確認する
単回帰の式は a＝傾き（xが1増えるとyがa増える）、b＝切片
「線形」＝直線で表せる関係。最小二乗法でズレが最小の直線を引く
前提は線・独・等・正の4つ／予測区間は信頼区間より広い

ここまで理解できれば、回帰分析の土台は完成です。次は決定係数R²や、説明変数を増やす重回帰分析に進むと、一気に実戦的になります。

📚 次に読むべき記事

📘 回帰分析の学習ロードマップ｜相関分析から重回帰まで体系的にマスター →

回帰分析の全体像を体系的に学べるマップ。次に何を学ぶか迷ったらまずこれです。

📘 決定係数(R²)の正体｜「あてはまりの良さ」を視覚的に理解する →

作った回帰式が「どれくらい当たっているか」を測る指標。基礎の次に学ぶ定番です。

📘 重回帰分析とは？複数の要因で結果を予測する「単回帰の進化版」 →

説明変数を複数に増やした発展形。単回帰がわかった今が、進むベストタイミングです。