多変量解析

主成分得点|各サンプルの主成分の値と散布図による可視化

📊 こんな疑問、ありませんか?

「主成分得点って何?」
「どうやって計算するの?」
「散布図で何がわかるの?」

結論から言うと、主成分得点とは、各サンプルが新しい座標系(主成分空間)でどこに位置するかを表す数値で、散布図にすることでデータの構造が一目でわかります。

この記事では、主成分分析(PCA)で得られる「主成分得点」について、中学生でもわかるように**身近な例え**と**図解**を使って徹底解説します。

地図の座標のように、同じ場所でも座標系が変われば数値が変わる——主成分得点はまさにそういう概念なんです。

この記事を読めば、主成分得点の意味、計算方法、そして散布図の見方が完璧にマスターできますよ!

📖 この記事でわかること

  • 主成分得点とは何か(地図の例で理解)
  • 主成分得点の計算方法(具体例付き)
  • 散布図による可視化テクニック
  • 散布図の読み方と活用法

主成分得点とは?

主成分得点(Principal Component Score)とは、各サンプルが主成分空間でどこに位置するかを表す座標の値です。

主成分分析(PCA)では、元の変数(例:身長・体重)を組み合わせて新しい軸(主成分)を作ります。

主成分得点は、その新しい軸での各サンプルの座標というわけです。

🗺️ 地図の例で理解しよう

学校の位置を「東西」「南北」で表すと(東3km, 北2km)ですよね。
でも、座標系を45度回転させて「斜め軸1」「斜め軸2」で表すと(4.2, 0.5)になります。
場所は同じでも、座標系が変われば数値が変わる——これが主成分得点のイメージです!

主成分得点の3つの特徴

主成分得点には、3つの大きな特徴があります。1つずつ見ていきましょう。

特徴1: サンプルごとに異なる値

主成分得点は、各サンプル(データの1行1行)が持つ固有の座標です。

例えば、学生A・B・Cのテスト結果を主成分分析にかけると、それぞれ異なる主成分得点を持ちます。

📍 例:学生3人の主成分得点

学生A: PC1=0.5, PC2=-0.3

学生B: PC1=-1.2, PC2=0.8

学生C: PC1=0.7, PC2=0.5

※PC1=第1主成分、PC2=第2主成分の略です

このように、各サンプルが新しい座標系(主成分空間)でどこに位置するかを表す数値が主成分得点です。

特徴2: 元の変数から計算される

主成分得点は、元の変数の値に「重み」を掛けて足し合わせることで計算されます。

「重み」とは、各変数がどれくらい重要かを表す数値のことです。この重みは、主成分分析(PCA: Principal Component Analysis)という手法で自動的に計算されます。

🧮 計算式のイメージ

主成分得点 = (元の変数1 × 重み1) + (元の変数2 × 重み2) + ...

具体例:

PC1得点 = (数学の点数 × 0.7) + (英語の点数 × 0.7)

※この0.7という重みは、PCAが自動で最適な値を計算してくれます

つまり、主成分得点は元のデータから新しく計算された座標なのです。

特徴3: 主成分の数だけ得点がある

主成分分析では、元の変数の数だけ主成分(新しい軸)を作ることができます。

例えば:

  • 元の変数が2つ(数学・英語) → 主成分も最大2つ(PC1, PC2)
  • 元の変数が10個(10科目) → 主成分も最大10個(PC1〜PC10)
  • 元の変数が100個(100項目のアンケート) → 主成分も最大100個

そして、各サンプルは、主成分の数だけ得点を持ちます

📊 例:変数が2つの場合

元の変数: 数学、英語

主成分: PC1(第1主成分)、PC2(第2主成分)

学生Aの得点: PC1=-0.01, PC2=-0.38

💡 なぜ主成分得点が必要なの?

主成分得点があれば、複雑な高次元データを2次元や3次元のグラフで可視化できるからです!

例えば、100個の変数(100科目のテスト結果)があっても、PC1とPC2の2つだけでグラフにして全体像を把握できます。
これが主成分分析の最大のメリットです。

主成分得点の計算方法

ここからは、具体的な数値例を使って、主成分得点がどうやって計算されるのかを見ていきます。

難しそうに聞こえますが、実際は掛け算と足し算だけなので安心してください!

例題: 3人の学生のテスト結果

以下のようなテストデータがあるとします。

学生 数学 英語
A 80点 70点
B 60点 80点
C 90点 60点

この2つの変数(数学・英語)から、主成分得点を計算してみます。

🎯 今回の目標

この3人の学生が、新しい座標系(主成分空間)でどこに位置するか(=主成分得点)を計算します。
計算の流れは以下の3ステップです:

  1. データを標準化する(スケールを揃える)
  2. 主成分ベクトル(重み)を取得する
  3. 主成分得点を計算する(掛け算→足し算)

ステップ1: データの標準化

まず、元のデータを標準化します。これは、変数のスケールを揃えるためです。

📐 標準化の公式

z = (x - 平均) / 標準偏差

標準化後のデータは以下のようになります。

学生 z_数学 z_英語
A 0.26 -0.27
B -1.07 0.76
C 0.80 -0.49

ステップ2: 主成分ベクトルを取得

次に、主成分ベクトル(固有ベクトル)を取得します。これは別途計算されるもので、今回は以下の値とします。

🔢 主成分ベクトル

PC1: [0.71, 0.71]

PC2: [-0.71, 0.71]

※主成分ベクトルの求め方は、固有値・固有ベクトルの記事で詳しく解説しています。

ステップ3: 主成分得点を計算

標準化データと主成分ベクトルを掛け合わせて、主成分得点を計算します。

🧮 計算式

主成分得点 = 標準化データ × 主成分ベクトル

学生Aの例

学生Aの主成分得点を計算してみましょう。

PC1得点(学生A):

= (0.26 × 0.71) + (-0.27 × 0.71)

= 0.185 + (-0.192)

= -0.007

PC2得点(学生A):

= (0.26 × -0.71) + (-0.27 × 0.71)

= -0.185 + (-0.192)

= -0.377

同様に学生B・Cも計算すると、以下の結果になります。

学生 PC1得点 PC2得点
A -0.01 -0.38
B -0.22 1.29
C 0.22 -0.91

✅ これで完成!

この表が、各サンプルの主成分得点です。
次は、この得点を散布図にプロットして、データの構造を可視化します!

散布図による可視化

主成分得点が計算できたら、次は散布図(スコアプロット)で可視化します。

横軸にPC1得点、縦軸にPC2得点をとって、各サンプルをプロットします。

基本: 2次元散布図

最もシンプルな可視化方法は、PC1とPC2の2次元散布図です。

  • 横軸(X軸): 第1主成分(PC1) = 最も重要な方向
  • 縦軸(Y軸): 第2主成分(PC2) = 2番目に重要な方向
  • 各点: 各サンプルの位置

この2軸だけで、元の高次元データの**ほとんどの情報**を表現できます。

💡 例:
学生A: (-0.01, -0.38) → 散布図の原点付近
学生B: (-0.22, 1.29) → 左上
学生C: (0.22, -0.91) → 右下
この配置から、3人の特徴の違いが一目でわかります!

応用1: グループ別に色分け

サンプルが複数のグループに分かれている場合、グループごとに色を変えてプロットすると、クラスター構造が見えてきます。

  • : グループA
  • : グループB
  • : グループC

同じ色の点が固まっていれば、そのグループは共通の特徴を持っていることがわかります。

応用2: サイズで追加情報を表現

点のサイズを変えることで、3つ目の変数の情報も同時に表示できます。

  • 小さい点: 値が小さい
  • 大きい点: 値が大きい

例えば、売上データのPCAなら、点のサイズで利益率を表すことができます。

応用3: サンプル名を表示

各点にサンプル名やIDを表示すると、個別サンプルの特定が可能になります。

外れ値や興味深いサンプルを見つけるのに便利です。

⚠️ 注意点

サンプル数が多すぎると、ラベルが重なって見づらくなります。
その場合は、特定のサンプルだけにラベルを付けるか、インタラクティブなツール(PlotlyやTableau)を使いましょう。

散布図の読み方

主成分得点の散布図から、データのどんな構造が読み取れるのでしょうか?

読み方1: 近い点 = 似たサンプル

散布図上で近くにある点は、特徴が似ていることを意味します。

例: 学生AとBが近ければ、テストの得点パターンが似ている。

読み方2: 遠い点 = 異なるサンプル

逆に、遠くにある点は、特徴が大きく異なることを示します。

例: 学生AとCが遠ければ、得意科目やバランスが全く違う。

読み方3: クラスター = グループ構造

点が集まってクラスター(塊)を作っている場合、そこには共通の特徴を持つグループが存在します。

例: 「文系タイプ」「理系タイプ」「バランス型」などのグループが見えてくる。

読み方4: 外れ値 = 特異なサンプル

他の点から大きく離れた点は、外れ値(異常値)の可能性があります。

例: 極端に得点が高い/低い、入力ミスなど。

読み方5: 分散の方向 = 主成分軸

点の広がり(分散)が最も大きい方向が第1主成分(PC1)の方向です。

2番目に大きい方向が第2主成分(PC2)になります。

📊 散布図の読み方まとめ

特徴 意味
近い点 似たサンプル
遠い点 異なるサンプル
クラスター グループ構造
外れ値 特異なサンプル
分散の方向 主成分軸

可視化ツール

主成分得点の散布図は、様々なツールで作成できます。

Python

  • matplotlib: シンプルな散布図
  • seaborn: 美しいスタイルの散布図
  • plotly: インタラクティブな3D散布図

R

  • ggplot2: 高品質な散布図
  • factoextra: PCA専用パッケージ

GUI ツール

  • Excel: 基本的な散布図
  • Tableau: インタラクティブなダッシュボード
  • Orange: ノーコードで可視化

💡 おすすめ

初心者にはPythonのseabornRのggplotまたはExcelがおすすめ!
コード数行で美しい散布図が作れます。

まとめ: 主成分得点を完全マスター!

この記事では、主成分得点について、中学生でもわかるよう徹底解説しました。

✅ 重要ポイント総まとめ

  • 主成分得点とは: 新しい座標系での各サンプルの位置
  • 計算方法: 標準化データ × 主成分ベクトル
  • 可視化: PC1とPC2の散布図でデータ構造が見える
  • 読み方: 近い点=似たサンプル、クラスター=グループ構造
  • 応用: 色分け、サイズ変更、ラベル表示で情報量アップ

主成分得点は、高次元データを低次元で可視化するための強力なツールです。

地図の座標のように、同じデータでも座標系を変えれば見え方が変わる——この概念が理解できれば、PCAの本質がつかめます。

散布図を描いて、データの背後にある構造を発見してみましょう!

🚀 次のステップへ

主成分得点をマスターしたら、次はバイプロット(変数との関係)寄与率(情報量の評価)にも挑戦してみましょう!

PCAの全体像が見えてくると、データ分析がもっと楽しくなりますよ!

最後まで読んでいただき、ありがとうございました!
一緒にデータサイエンスを楽しみましょう! 📊✨

タグ

-多変量解析
-