多変量解析

【QC検定1級】主成分分析・主成分の導出を中学生でもわかる解説|なぜ最大分散の方向を選ぶのか?

💡 こんな疑問、ありませんか?

「主成分分析って、結局何をやってるの?」
「Z₁ = a₁₁x₁ + ... って式が出てきたけど、なぜこの式なのかがわからない…」
「第1主成分が『最大分散』って、どういう意味?」

✅ この記事では、中学生でも理解できるレベルで「主成分の導出」を徹底解説します。
✅ QC検定1級合格に必要な範囲に絞り、イメージ重視で「なぜそうなるのか?」を丁寧に説明します。

📊 主成分分析(PCA)って何をしているの?

主成分分析(Principal Component Analysis, PCA)は、「たくさんの変数(次元)を、なるべく情報を失わずに少ない変数にまとめる」手法です。

🔍 イメージで理解:影絵の例え

3次元の立体を、2次元の平面に投影すると「影」ができますよね?
この時、どの角度から光を当てるかで、影の形(情報量)が変わります。

  • 📐 真正面から:物の形がよくわかる(情報が多い)
  • 📐 真横から:薄っぺらく見える(情報が少ない)

主成分分析は、「一番情報が残る角度(方向)」を数学的に見つける方法なんです! 🎯

🧮 第1主成分の定義と導出

📌 第1主成分(Z₁)の数式

Z₁ = a₁₁x₁ + a₁₂x₂ + ... + a₁ₚxₚ

この式の意味を、順を追って説明します。

🔢 各記号の意味

  • x₁, x₂, ..., xₚ:元のデータの変数(例:数学の点数、国語の点数、…)
  • a₁₁, a₁₂, ..., a₁ₚ:それぞれの変数に掛ける重み(係数)
  • Z₁:新しく作った軸(第1主成分)の値

つまり、元の変数を組み合わせて新しい指標(Z₁)を作るということです! 📊

❓ なぜ「最大分散の方向」を選ぶのか?

ここが主成分分析の最大のポイントです。

💡 分散が大きい= データがその方向に大きくばらついている
= その方向に多くの情報が詰まっている! 📈

例えば、数学と理科のテストのデータがあったとします。

  • 📊 対角線方向:「数学が高い人は理科も高い」という強い関係がある → 分散が大きい
  • 📊 横方向のみ:数学だけの情報 → 分散は中程度
  • 📊 変な方向:データがあまり広がっていない → 分散が小さい(情報が少ない)

だから、「分散が最大になる方向」を第1主成分として選ぶんです! 🎯

📐 第1主成分の条件(制約)

条件1: Z₁の分散を最大化する
条件2: 係数の二乗和 = 1 (a₁₁² + a₁₂² + ... + a₁ₚ² = 1)
→ これは「単位ベクトル」という制約(長さを1に固定)

この制約がないと、係数を無限に大きくすれば分散も無限に大きくなってしまうため、「方向」だけを決めるために長さを1に固定します。

🔄 第2主成分以降の導出:残りの情報を最大化

📌 第2主成分(Z₂)の数式

Z₂ = a₂₁x₁ + a₂₂x₂ + ... + a₂ₚxₚ

第2主成分は、第1主成分で説明できなかった「残りの情報」の中で、最も分散が大きい方向を選びます。

🔍 なぜ「直交(無相関)」にするのか?

第2主成分は、第1主成分と直交(90度の角度)する方向に設定します。

  • 無相関(直交)= お互いに独立した情報
  • 情報の重複を避けることができる
  • 数学的にも計算が簡単になる(固有値問題として解ける)

💡 直交する= 相関係数がゼロ = 「独立した別の視点」ということです!

📊 第2主成分の条件

条件1: Z₂の分散を最大化する(ただし第1主成分以外で)
条件2: Z₁とZ₂は無相関(Cov(Z₁, Z₂) = 0)
条件3: 係数の二乗和 = 1 (a₂₁² + a₂₂² + ... + a₂ₚ² = 1)

この条件を満たす方向を選ぶことで、第1主成分の次に重要な情報を抽出できます。

📚 具体例:学生の成績データ

数学、国語、理科、社会の4科目の成績データがあるとします。

  • 第1主成分(Z₁):「総合学力」(すべての科目の平均的な情報)
  • 第2主成分(Z₂):「文系/理系の傾向」(数学・理科 vs 国語・社会のバランス)

Z₁とZ₂は直交しているので、独立した2つの視点で学生を評価できます! 🎓

📈 第3主成分以降も同じルール

第3主成分(Z₃)、第4主成分(Z₄)…も、同じルールで導出されます。

  • ✅ 前の主成分すべてと直交(無相関)
  • ✅ 残りの情報の中で分散が最大
  • ✅ 係数の二乗和 = 1

こうして、元の変数の数(p個)と同じ数だけ主成分を作ることができます。

💡 ポイント:通常は、上位2〜3個の主成分だけで全体の8〜9割の情報を説明できます!
だから「次元削減」として使えるんです! 🎯

🛠️ 実際の計算手順:3ステップで完全理解

QC検定1級では、計算の流れと解釈が問われます。実際の手順を見ていきましょう。

📋 ステップ1:データの標準化

各変数のスケール(単位)が異なる場合、標準化(平均0、標準偏差1)します。

標準化: z = (x - μ) / σ

:身長(cm)と体重(kg)は単位が違うので、標準化してから分析します。

📋 ステップ2:主成分の計算(固有値問題)

共分散行列(または相関行列)の固有値・固有ベクトルを求めます。

  • 固有値(λ):各主成分の分散の大きさ(情報量)
  • 固有ベクトル(a):主成分の方向(係数)

:

固有値: λ₁ = 2.1, λ₂ = 0.7, λ₃ = 0.2
固有ベクトル(PC1): a₁₁ = 0.58, a₁₂ = 0.58, a₁₃ = 0.57

→ 第1主成分: Z₁ = 0.58x₁ + 0.58x₂ + 0.57x₃

📋 ステップ3:結果の解釈

(1) 寄与率(Contribution Rate)

寄与率 = λᵢ / Σλ × 100(%)

:

  • PC1の寄与率 = 2.1/(2.1+0.7+0.2) × 100 = 70%
  • PC2の寄与率 = 0.7/3.0 × 100 = 23%
  • 累積寄与率 = 70% + 23% = 93%

→ 上位2主成分で93%の情報を説明できる! 🎯

(2) 主成分負荷量(Loading)

各変数と主成分の相関係数。どの変数が主成分に強く影響しているかを示します。

(3) 主成分得点(Score)

各サンプルの主成分上の位置。散布図(スコアプロット)で可視化すると、データの特徴が見えます。

🏭 実務での使い方(製造業の例)

製品の品質特性(寸法A、寸法B、重量、硬度、…10項目)があるとします。

  • 📊 第1主成分:「全体的な品質レベル」(すべての特性の総合評価)
  • 📊 第2主成分:「形状のバランス」(寸法A・B vs 重量・硬度の対比)

→ 10項目を2つの指標に圧縮して管理できる! 効率的! ✨

✅ まとめ:主成分の導出、完全理解!

🎯 この記事のポイント

  • 第1主成分 = 「最も分散が大きい方向」(情報が一番詰まっている)
  • 第2主成分 = 「残りで最も分散が大きく、第1と直交する方向
  • 直交(無相関)にする理由 = 情報の重複を避け、独立した視点を得る
  • 計算手順 = ① 標準化 → ② 固有値・固有ベクトル → ③ 寄与率・負荷量の解釈

QC検定1級では、計算手順と結果の解釈(寄与率、スコアプロット)が頻出です! 📝

💡 学習のコツ

  • イメージで理解:「影絵」「ものさしの角度」など、視覚的にイメージする
  • 手を動かす:小さいデータで実際に計算してみる
  • 散布図を描く:PC1-PC2平面でプロットすると、直感的に理解できる
  • 過去問を解く:QC検定では「寄与率の計算」「主成分の解釈」が頻出

📚 関連記事

🎉 この記事が役に立ったら、SNSでシェアしてくださいね!
一緒にQC検定1級合格を目指しましょう! 💪✨

タグ

-多変量解析
-