ゲージR&Rのサンプルの選び方｜「結果が悪い」のは測定器のせいじゃなく選定ミスかもしれない

😣 こんな経験はありませんか？

ゲージR&Rを実施したら %GRR が30%超え。測定器は新品なのに「不合格」と判定された
「サンプルをもっとバラつかせて取り直して」と上司に言われたが、何をどうすればいいかわからない
ndc（区別できるカテゴリ数）が5未満で監査に指摘されたが、測定器の問題なのかサンプルの問題なのか判断できない
公差の上限〜下限で均等にサンプルを選んだのに、結果が「良すぎる」と言われた

✅ この記事でわかること

なぜサンプルの選び方で %GRR の結果が大きく変わるのか（分母の正体）
やりがちなNG選定3パターンと、それぞれが結果に与える影響
Minitabの統計ブログが示した「ランダムサンプリングが正解」の根拠
サンプル数・繰り返し数・測定者数の決め方の実務的な目安

ゲージR&R（Gage Repeatability and Reproducibility）は、測定システムの能力を評価するための手法です。IATF 16949の要求事項であるMSA（測定システム解析）の中核をなすもので、自動車業界をはじめとする製造業では避けて通れない分析です。

しかし、実務でゲージR&Rを実施すると、「測定器は問題ないはずなのに %GRR が基準を超えてしまう」という状況に頻繁に遭遇します。その原因の多くは、測定器の性能ではなく「サンプルの選び方」にあります。

この記事では、なぜサンプル選定が結果を左右するのか、どう選べば正しい評価ができるのかを、図解を交えて丁寧に解説していきます。

📘 前提知識
【完全保存版】MSA入門｜ゲージR&Rの計算手順をExcelで完全再現 →

ゲージR&Rの基本的な計算方法や判定基準をまだ理解していない方は、先にこちらをお読みください。

なぜサンプルの選び方で結果が変わるのか？｜「分母」の正体を理解する
- 📐 %GRR の計算式（超シンプル版）
- 🍎 リンゴの重さで体感する
やりがちなNG選定3パターン｜あなたもやっていませんか？
正解は「ランダムサンプリング」｜工程の実態を反映する唯一の方法
- 🎯 ランダムサンプリングの具体的なやり方
- 📊 各サンプリング方法の比較まとめ
%GRR と ndc の判定基準｜「何%なら合格？」を正しく理解する
- 📊 %GRR の判定基準（AIAG MSA第4版準拠）
- 📊 ndc（区別できるカテゴリ数）の判定基準
%Tolerance（公差比）という「サンプル依存を排除する」方法
- 📐 %Tolerance の計算式
サンプル数・繰り返し数・測定者数の決め方
- 📊 推奨設計の一覧表
「結果が悪い」ときの原因切り分けフローチャート
ゲージR&R実施前のチェックリスト
この記事のまとめ
- 📚 次に読むべき記事

なぜサンプルの選び方で結果が変わるのか？｜「分母」の正体を理解する

ゲージR&Rの結果が良いか悪いかを決めるのは、実はとてもシンプルな「割り算」です。まず、この割り算の構造を正しく理解しましょう。

📐 %GRR の計算式（超シンプル版）

%GRR ＝

測定のバラつき（繰り返し性＋再現性）

全体のバラつき

※ 正確にはσの比で計算しますが、本質は「割り算」です

ここで重要なのは、分母の「全体のバラつき」は何で決まるかです。

全体のバラつき＝測定のバラつき＋サンプル間のバラつき

分子にもなる

測定のバラつき

（測定器＋測定者の誤差）

← 測定器の性能で決まる

＋

分母にだけ効く

サンプル間のバラつき

（部品のバラつき）

← サンプルの選び方で決まる

つまり、サンプル間のバラつきが大きいほど分母が大きくなり、%GRRの数値は「良く」なるのです。逆に、たまたま似たようなサイズのサンプルばかりを選んでしまうと、分母が小さくなって%GRRは「悪く」なります。

⚠️ これが「サンプル選定ミス」の正体です
測定器の精度が全く同じでも、サンプルの選び方次第で %GRR は10%にも50%にもなり得ます。「測定器が悪い」のではなく「サンプル選びが悪い」だけ、ということが実務では非常に多いのです。

🍎 リンゴの重さで体感する

たとえば、秤（はかり）の精度を評価するとします。秤の測定誤差は常に同じ（±0.5g）です。

🍎🍎🍎

NG：似たサイズばかり選んだ場合

サンプル：200g, 201g, 199g, 200g, 202g…
サンプル間のバラつき：小さい
→ 分母が小さい → %GRR = 50%（不合格）

秤は悪くないのに「不合格」になってしまう！

🍎🍊🍋

OK：バラつきのあるサンプルを選んだ場合

サンプル：150g, 180g, 200g, 220g, 250g…
サンプル間のバラつき：大きい
→ 分母が大きい → %GRR = 5%（合格）

同じ秤なのに「合格」になる！

どちらの場合も秤の精度は同じ ±0.5g です。変わったのはサンプルのバラつきだけ。この現象を知らないまま「測定器を買い替えなきゃ」と判断するのは、非常にもったいない話です。

やりがちなNG選定3パターン｜あなたもやっていませんか？

Minitabの公式統計ブログでは、1,000回のシミュレーションを使って各サンプリング方法の影響を検証しています。その結果をもとに、やりがちなNG選定パターンを3つ紹介します。

❌ NG① 公差の上限〜下限で「均等に」サンプルを並べる

やり方：公差が 10.0±0.5mm のとき、9.5, 9.6, 9.7, 9.8, 9.9, 10.0, 10.1, 10.2, 10.3, 10.4, 10.5mm のように等間隔でサンプルを選ぶ。

何が悪いのか：実際の工程では、サンプルの寸法は正規分布に近い形で散らばっています。公差の端にある部品は本来ごく少数なのに、このやり方では均等に割り当ててしまうため、サンプル間のバラつきが実際の工程よりもはるかに大きくなります。

→ 結果：%GRR が実態よりも「良すぎる」方向にバイアスがかかる。本来は不合格の測定器も合格に見えてしまう。

❌ NG② 生産ラインから「連続10個」を取ってくる

やり方：ラインから連続で10個の部品を取り、それをサンプルとして使う。

何が悪いのか：短時間に連続で取ったサンプルは、ロット内の工程変動をほとんど含みません。同じ温度、同じ金型、同じ材料ロットの製品ばかりになるため、サンプル間のバラつきが極端に小さくなります。

→ 結果：%GRR が実態よりも「悪すぎる」方向にバイアスがかかる。本来は合格の測定器でも不合格になってしまう。

❌ NG③ わざと規格外のサンプルを混ぜる

やり方：10個中8個はランダムに取り、残り2個に規格外（上限超え・下限割れ）の部品を意図的に入れる。

何が悪いのか：規格外の部品は、正常な工程では本来存在しない（はずの）サンプルです。たった2個でもサンプル間のバラつきを劇的に増大させ、分母が膨らみます。

→ 結果：%GRR が実態よりも「良すぎる」方向にバイアスがかかる。Minitabのシミュレーションでは、この方法は「結果を無意味にする」と断じています。

💡 3パターンに共通する「間違いの本質」
3つとも、やっている本人は「測定範囲を網羅しよう」という善意から行っています。しかし、ゲージR&Rは「現在の工程のバラつきに対して、測定器の精度が十分かどうか」を評価するツールです。工程の実態と異なるサンプル分布を使えば、評価結果も工程の実態から乖離してしまいます。

測定範囲全体での精度を確認したい場合は、ゲージR&Rではなく「直線性とバイアスの研究（Linearity & Bias Study）」という別のツールを使うのが正解です。

正解は「ランダムサンプリング」｜工程の実態を反映する唯一の方法

Minitabの統計ブログが1,000回のシミュレーションで出した結論は明快です：「ランダムに選べ（Sample randomly）」。これが最も正確にサンプル間のバラつきを推定できる方法です。

🎯 ランダムサンプリングの具体的なやり方

STEP 1｜通常の生産をしている期間を選ぶ

段取り替え直後や金型交換直後ではなく、安定している通常生産のタイミングでサンプルを取ります。ただし、可能であれば数日間にわたって取ることで、日ごとの工程変動も含められます。

STEP 2｜ランダムに抜き取る

「何個目を取る」という意図的な選び方をしません。生産された部品の中から無作為に10個を選びます。寸法を事前に測って選り好みしない、というのが鉄則です。

STEP 3｜事後チェックする

ゲージR&R実施後に、10個のサンプルの平均測定値のヒストグラムを確認します。正規分布のような山型になっていれば、妥当なサンプリングができています。もし極端に偏っていれば、追加サンプルで補うことを検討しましょう。

⚠️ 「ランダムだとバラつきが足りないかもしれない」への回答
「ランダムに取ると、たまたま似たサイズばかりになるのでは？」という心配はもっともです。実際、ランダムサンプリングには推定のバラつき（不確実性）があります。

しかし、それは「正しいバラつき」です。意図的に公差全体に広げたサンプリングは「正確だが間違った答え」を返します。バラつきはあっても「正しい答えに近い」方がはるかにマシです。

不安な場合は、サンプル数を10個から15個に増やすことで推定精度を上げることができます（後述）。

📊 各サンプリング方法の比較まとめ

サンプリング方法	%GRR への影響	判定
🟢 ランダム抜き取り	偏りなし（正しい推定）	✅ 正解
🔴 公差範囲で均等配置	良すぎる方向にバイアス	❌ NG
🔴 連続10個を取る	悪すぎる方向にバイアス	❌ NG
🔴 規格外を混ぜる	良すぎる方向に極端なバイアス	❌ NG

%GRR と ndc の判定基準｜「何%なら合格？」を正しく理解する

サンプル選定の話の前に、判定基準そのものを正しく押さえておきましょう。%GRR と ndc は表裏一体の関係にあります。

📊 %GRR の判定基準（AIAG MSA第4版準拠）

%GRR	判定	意味
10%未満	合格	測定システムは十分な能力がある
10〜30%	条件付き合格	用途によっては許容可能。改善が望ましい
30%超	不合格	測定システムの改善が必要

📊 ndc（区別できるカテゴリ数）の判定基準

📐 ndc の意味
ndc ＝サンプルの寸法を「何段階に」区別できるか、を表す数値。
AIAG MSA第4版では ndc ≧ 5 が合格基準です。

ndc が5なら「この測定器でサンプルを5つのグループに分類できる」という意味です。ndc が2以下だと「大きいか小さいか」程度しか判別できず、工程管理には使えません。

💡 %GRR と ndc の関係
%GRR が小さいほど（測定誤差が小さいほど）、ndc は大きくなります。両者は表裏一体です。どちらか一方だけを見るのではなく、両方を確認するのが正しい運用です。

%GRR ＜ 10% を達成していれば、通常 ndc ≧ 5 も満たしています。

🔧 現場でよくある落とし穴
ndc が5未満で監査に指摘された場合、「測定器の分解能が足りない」と判断しがちですが、サンプル間のバラつきが小さかっただけの場合もあります。まず前のセクションのNG選定をやっていないかチェックしてから、測定器の改善を検討しましょう。

%Tolerance（公差比）という「サンプル依存を排除する」方法

「サンプルの選び方で結果が変わる」のは困る、もっと安定した評価方法はないのか？という声に応えるのが%Tolerance（公差比）です。

📐 %Tolerance の計算式

%Tolerance ＝

測定のバラつき（GRR）

公差幅（USL − LSL）

%GRR との違いは分母です。%GRR の分母が「全体のバラつき（＝サンプル間のバラつきを含む）」だったのに対し、%Tolerance の分母は「公差幅（規格の上限−下限）」です。公差幅は図面で決まっている固定値なので、サンプルの選び方に一切影響されません。

📊

%GRR（Study Variation）

分母＝全体のバラつき
→ サンプル選定に依存する
→ 工程管理能力を評価
「この測定器で工程を管理できるか？」

📐

%Tolerance（公差比）

分母＝公差幅（USL − LSL）
→ サンプル選定に依存しない
→ 合否判定能力を評価
「この測定器で合格/不合格を判定できるか？」

💡 実務での使い分け
AIAG MSA第4版では %GRR（Study Variation）が標準ですが、サンプル選定で結果が安定しない場合は%Tolerance を併記するのが実務的です。顧客監査で「サンプルのバラつきに依存しない指標も見せてほしい」と言われた場合にも対応できます。

ただし、%Tolerance だけでは「工程のバラつきに対して測定器が十分か」はわかりません。両方の視点を持つことが重要です。

サンプル数・繰り返し数・測定者数の決め方

サンプルの「選び方」と同様に、「何個取るか」「何回繰り返すか」「何人で測るか」も結果に大きく影響します。ここでは実務的な目安を整理します。

📊 推奨設計の一覧表

項目	AIAG推奨	最低限	精度を上げたい場合
サンプル数	10個	5個（非推奨）	15個以上
繰り返し数	2〜3回	2回	3回以上
測定者数	3人	2人	3人以上
総測定回数	10×3×2＝60回	5×2×2＝20回	15×3×3＝135回

💡 各項目を増やす効果
サンプル数を増やす → サンプル間のバラつき（分母）の推定精度が上がる。%GRR の推定値が安定する。
繰り返し数を増やす → 繰り返し性（Repeatability）の推定精度が上がる。
測定者数を増やす → 再現性（Reproducibility）の推定精度が上がる。

最も効果が大きいのはサンプル数の増加です。「%GRR が不安定」と感じるなら、まずサンプル数を10→15個に増やすことを検討してください。

⚠️ 自動測定器の場合の注意点
自動測定器（CNC測定機、画像測定機など）の場合、測定者の影響がありません。その場合は「測定者数＝1」として、代わりに繰り返し数やサンプル数を増やすことで精度を上げます。再現性の代わりに「治具の取り付け直し」や「異なるプログラム」を再現性の因子とする工夫もあります。

「結果が悪い」ときの原因切り分けフローチャート

%GRR が基準を超えた場合、すぐに「測定器を買い替えよう」と結論を出すのは早計です。まずは以下のフローで原因を切り分けましょう。

%GRR > 10%（不合格）

↓

CHECK 1｜サンプルの選び方は正しいか？
・連続10個を取っていないか？（NG②）
・サンプル間のバラつきは十分か？（10個の平均値のレンジを確認）
・意図的に寸法を選り好みしていないか？
→ 選び方が悪い場合：ランダムサンプリングでやり直し

↓ OK

CHECK 2｜繰り返し性と再現性、どちらが大きいか？
・繰り返し性（Repeatability）が大きい → 測定器自体の精度の問題。ガタ、分解能不足、環境温度など
・再現性（Reproducibility）が大きい → 測定者間のバラつき。手順の標準化不足、訓練不足
→ 原因に応じて測定器改善 or 手順標準化を実施

↓ OK

CHECK 3｜%Tolerance でも不合格か？
・%Tolerance でも10%超なら、本当に測定器の能力不足
・%GRR は NG だが %Tolerance は OK なら、工程のバラつきが小さすぎるだけの可能性
→ %Tolerance も NG の場合のみ、測定器の買い替えを検討

🔧 製造業あるある：「Cp/Cpkが良すぎる工程」はGRRが悪くなる
皮肉な話ですが、工程能力が高い（Cpk が非常に大きい）工程ほど、サンプル間のバラつきが小さくなるため、%GRR は悪化します。これは測定器が悪いのではなく、「工程が優秀すぎて測定器の分解能が相対的に目立つ」だけです。こういう場合は %Tolerance を使って評価しましょう。

Cp/Cpkの意味がわからない方はこちら。工程のバラつきとGRRの関係が理解しやすくなります。

ゲージR&R実施前のチェックリスト

ゲージR&Rを実施する前に、以下のチェックリストを確認してください。サンプル選定ミスを防ぐだけで、やり直しの手間を大幅に減らせます。

☑️ サンプルは通常生産からランダムに抜き取ったか？
連続取り、公差全域均等配置、規格外品の混入はNG

☑️ 可能であれば複数日にまたがってサンプルを取ったか？
日間変動を含めることで、工程の実態に近いバラつきが得られる

☑️ サンプル数は10個以上確保したか？
結果が安定しない場合は15個に増やすことを検討

☑️ 繰り返し数は2回以上か？（推奨は3回）
繰り返し性の推定精度に直結する

☑️ 測定者は実際に日常測定を行う担当者か？
品質管理のベテランだけで測ると、再現性が実態より良く出る

☑️ サンプルに番号を振り、測定者にはどのサンプルかわからないようにしたか？
前回の測定値を覚えていると、無意識にバイアスがかかる

☑️ %GRR と %Tolerance の両方を確認する準備ができているか？
サンプル依存の指標と、サンプル非依存の指標を両方見る

この記事のまとめ

💡 覚えるべきポイントの整理

① %GRR の分母には「サンプル間のバラつき」が含まれる → サンプルの選び方で結果が変わる
② 公差全域に均等配置 → %GRR が「良すぎる」方向に偏る（NG）
③ 連続10個取り → %GRR が「悪すぎる」方向に偏る（NG）
④ 規格外品を混入 → 結果が無意味になる（NG）
⑤ 正解は「通常生産からランダムに抜き取る」
⑥ サンプル依存を排除したいなら %Tolerance を併用する
⑦ 結果が悪いときは「サンプル選定 → 繰り返し性/再現性 → %Tolerance」の順で原因を切り分ける