こんにちは、シラスです。
前回の記事で、データの「底上げ分(下駄)」を取り除く修正項(CT)について解説しました。
この修正項を手に入れたことで、私たちはついに統計学で最も重要な指標である「平方和(S)」を、電卓で簡単に計算できる武器を手に入れました。
しかし、実験計画法や分散分析表(ANOVA)を見ると、平方和(S)の隣には必ず「自由度(f)」というパートナーがいます。
「Sとf、この2つはどういう関係なの?」
「なぜセットで計算するの?」
今日は、この2つの関係性を「お肉のパック(価格とグラム数)」に例えて、直感的に解説します。
目次
1. 平方和(S)とは「データの総エネルギー」
まずは平方和(Sum of Squares)です。
これは、文字通り「2乗(平方)の合計(和)」ですが、イメージとしては「ズレの総エネルギー」だと思ってください。
データそれぞれの「高さ」を2乗して足し合わせ、そこから「平均的な高さ(CT)」を引くことで、純粋な「バラつきの大きさ」だけを取り出します。
この計算で出た数値(S)は、データのバラつきが大きければ大きいほど、巨大な数字になります。
2. 自由度(f)とは「エネルギーの広さ」
次に自由度(df / f)です。
これは「自由に動けるデータの数」のことですが、計算上は「エネルギーが分散している広さ(個数)」だとイメージしてください。
基本的には以下の式で求めます。
※なぜ1を引くのかについては、以前の記事「【図解】不偏分散はなぜn-1で割るのか?」で詳しく解説していますが、ここでは「Sを割るための分母」と覚えておけばOKです。
3. Sとfの関係=「お肉のパック」の値段
ここからが本題です。
なぜ、分散分析表では「S」と「f」が必ずセットで書かれているのでしょうか?
それは、「S(平方和)」単体では、バラつきの激しさを比較できないからです。
-
パックA: 1000円(S)
「高い!」と思いますか? でも、もしこれが「10kg」入っていたら? -
パックB: 500円(S)
「安い!」と思いますか? でも、もしこれが「10g」しか入っていなかったら?
そうなんです。
平方和(S)は、データ数が増えれば増えるほど、どんどん足し算されて大きくなってしまう「総額(トータルプライス)」なのです。
データ数が違う実験同士を比べるためには、「単価(1単位あたりのバラつき)」に直す必要があります。
そこで生まれたのが「分散(V)」
総額(S)を、個数(f)で割ることで、「単価」が出ます。
この単価こそが、私たちが最終的に欲しい「分散(V:Variance)」です。
- 平方和(S): ズレの総エネルギー(総額)
- 自由度(f): 割る数(グラム数)
- 分散(V): 規格化されたズレの勢い(グラム単価)
実験計画法では、この「V(単価)」を使って、「A工場(V=100)は、B工場(V=10)よりもバラつきが10倍大きい!」といった判定(F検定)を行います。
4. 実践:数値で計算してみよう
では、前回使ったデータ {3, 4, 5} を使って、S, f, V を一気に計算してみましょう。
ステップ1:修正項(CT)を出す
合計 T = 12、データ数 N = 3 なので、
ステップ2:平方和(S)を出す
生の2乗和からCTを引きます。
(32 + 42 + 52) = 50 なので、
これで「総エネルギーは 2 だ」と分かりました。
ステップ3:自由度(f)を出す
データ数は3つなので、
ステップ4:分散(V)を出す
最後に割り算をして「単価」を出します。
このデータの不偏分散は「1」です。
(実際に {3, 4, 5} の分散をExcelなどで計算してみてください。ちゃんと1になります!)
まとめ
平方和(S)と自由度(f)の関係は、切っても切れない関係です。
分散分析表(ANOVA)を作るときは、ただ機械的に計算するのではなく、
「まずは総額(S)を出して、それを個数(f)で割って、単価(V)を出しているんだな」
とイメージしながら計算すると、ミスの発見も早くなりますよ。

