データサイエンティスト検定

DS検定「データ可視化」の頻出問題|グラフ選択・チャートジャンク・軸だしを完全図解

😣 こんな経験はありませんか?
  • DS検定の「データ可視化」分野、何を覚えればいいのかわからない
  • 「方向性定義」「軸だし」って何?公式リファレンスブックを読んでも抽象的すぎる
  • 棒グラフとヒストグラムの違い、散布図と箱ひげ図の使い分けが曖昧
  • 「チャートジャンク」「データインク比」——カタカナ用語が多すぎて覚えきれない
✅ この記事でわかること
  • DS検定スキルチェックリストの「データ可視化」分野が出題する 5つのテーマ の全体像
  • 方向性定義・軸だし・表現技法・意味抽出の意味と具体例
  • ヒストグラム・散布図・箱ひげ図・棒グラフ・円グラフなど 主要グラフ10種の使い分け
  • チャートジャンクとデータインク比の見抜き方(NG例つき)
  • A/Bテストと「条件をそろえた比較」の基礎

DS検定(データサイエンティスト検定リテラシーレベル)のスキルチェックリストには、「データ可視化」というカテゴリがあります。ここから毎回 3〜5問 程度出題されるとされており、配点としては決して無視できません。

しかもこの分野は、統計や機械学習のように「公式を覚えれば解ける」タイプではなく、「この場面でどのグラフを選ぶべきか?」「このグラフの何が不適切か?」という 判断力 を問われます。逆に言えば、考え方のフレームワークさえ理解してしまえば、暗記ゼロで得点源にできる"おいしい"分野です。

この記事では、DS検定のデータ可視化に関わる出題テーマを すべて網羅 します。試験直前にこの1記事だけ読めば十分、という完全ガイドを目指しました。

DS検定「データ可視化」の出題マップ|5つのテーマを俯瞰する

DS検定のスキルチェックリストで「データ可視化」に関連する出題テーマは、大きく 5つ に整理できます。まずは全体像を頭に入れてから、各論に進みましょう。

# テーマ 出題のポイント 頻出キーワード
1 方向性定義 「何のために可視化するのか?」——可視化の目的を判別する 探索的分析、説明的分析、モニタリング
2 軸だし 「何を、どの軸で見るか?」——適切な変数・グラフを選択する ヒストグラム、散布図、箱ひげ図、棒グラフ、折れ線グラフ
3 表現・実装技法 「どう見せるか?」——データインク比、チャートジャンク、不適切表現 チャートジャンク、データインク比、3Dグラフ、軸の操作
4 データの比較 「正しく比べるには?」——A/Bテスト、条件をそろえた比較 A/Bテスト、処理前後の比較、バイアス
5 意味抽出 「グラフから何を読み取るか?」——傾向・外れ値・相関の発見 相関と因果、外れ値、トレンド、統計情報の正しい理解
💡 ポイント
DS検定の出題は「用語の意味を問う問題」と「具体的な場面でどのグラフを使うべきか判断する問題」の2パターンが中心です。用語だけ暗記しても、「場面判断」で引っかかります。この記事では 両方 をカバーします。

テーマ1:方向性定義|「何のために可視化するのか?」

スキルチェックリストの「方向性定義」とは、データを可視化する 目的 を正しく判別できる能力のことです。いきなりグラフを作るのではなく、「そもそもなぜグラフにするのか?」を考えるステップです。

可視化の3つの目的

可視化の目的は、大きく以下の3つに分類できます。DS検定では「この状況の可視化は何に該当するか?」と聞かれます。

🔍

①探索的分析

データの中に パターンや異常 がないか「探す」ための可視化。まだ仮説がない段階で行う。

例:新しいデータセットをもらったので、まずヒストグラムや散布図で分布を確認する

📢

②説明的分析

分析結果を 他者に伝える ための可視化。すでに結論が出ている段階で、わかりやすく「見せる」。

例:売上が前年比120%に伸びたことを経営会議のスライドで棒グラフを使って報告する

📊

③モニタリング

状態を リアルタイムで監視 するための可視化。異常を即座に検知する目的。

例:工場の生産ラインの不良率を管理図でリアルタイムに表示する

⚠️ 試験での引っかけパターン
「探索的分析と説明的分析の違い」は頻出です。ポイントは 仮説があるかないか。「まず眺めてみる」が探索的、「結論を伝える」が説明的です。目的が違えば、適切なグラフの選び方も変わります。

テーマ2:軸だし|「何を、どの軸で見るか?」——グラフ選択の考え方

「軸だし」とは、データの性質に合った 適切な変数の組み合わせ(=軸)とグラフの種類 を選ぶ能力のことです。DS検定では「この状況で最も適切なグラフはどれか?」という形式で出題されます。

グラフ選択のフローチャート|「何を知りたいか」で決まる

グラフの選択は「知りたいこと」から逆算します。以下のフローチャートを頭に入れておけば、試験本番で迷いません。

🗺️ グラフ選択フローチャート
知りたいこと データの型 適切なグラフ
分布 を見たい 量的データ(連続) ヒストグラム 製品の寸法のバラつき
分布+外れ値 を見たい 量的データ(連続) 箱ひげ図 3工場の歩留まり比較
2変数の関係 を見たい 量的×量的 散布図 広告費と売上の関係
量の大小 を比較したい カテゴリ×量的 棒グラフ 商品別の売上額
時間変化 を見たい 時系列×量的 折れ線グラフ 月別の気温推移
割合・構成比 を見たい カテゴリ(5つ以下推奨) 円グラフ 市場シェア
割合の推移 を見たい 時系列×カテゴリ 帯グラフ(積み上げ棒) 年別の売上構成
階層・内訳 を見たい カテゴリ(多階層) ツリーマップ 予算の部門別配分
多変量の傾向 を見たい 量的×量的(多変量) ヒートマップ 相関行列の可視化
地理的な分布 を見たい 地理×量的 コロプレスマップ(地図) 都道府県別の感染者数
💡 試験対策の急所
最も出題されやすいのは「ヒストグラムと棒グラフの違い」「散布図と箱ひげ図の使い分け」です。次のセクションで詳しく解説します。

頻出グラフ①:ヒストグラム|「棒グラフと何が違うの?」

ヒストグラムと棒グラフは見た目が似ていますが、本質がまったく違います。DS検定では「この2つを混同させる」問題が頻出します。

📊

ヒストグラム

  • 横軸:連続した数値(身長、温度、時間)
  • 棒の間隔:隙間なし(データが連続しているため)
  • 目的:データの分布の形を見る
  • 棒の並び順:変えてはいけない(数値の順序がある)
📶

棒グラフ

  • 横軸:カテゴリ(部署名、製品名、都市名)
  • 棒の間隔:隙間あり(カテゴリは連続していない)
  • 目的:カテゴリ間の量の大小を比較する
  • 棒の並び順:変えてもOK(順序の意味がないため)
📐 覚え方
ヒストグラム=「連続」→ 棒がくっつく | 棒グラフ=「カテゴリ」→ 棒が離れる

頻出グラフ②:散布図|「2つの変数の関係を見る」

散布図は、2つの量的変数の関係を「点の集まり」で可視化するグラフです。横軸に説明変数(原因側)、縦軸に目的変数(結果側)を取ります。

パターン 点の散らばり方 意味
正の相関 右上がりに点が並ぶ xが増えるとyも増える(例:広告費↑ → 売上↑)
負の相関 右下がりに点が並ぶ xが増えるとyが減る(例:気温↑ → 暖房費↓)
無相関 ランダムに散らばる xとyに線形関係がない
⚠️ DS検定の定番ひっかけ
「相関がある=因果関係がある」ではありません。アイスの売上と水難事故は正の相関がありますが、アイスが事故の原因ではなく、「気温」という交絡因子が両方に影響しています。これは「擬似相関」と呼ばれ、DS検定で頻出のトラップです。

頻出グラフ③:箱ひげ図|「5つの数値でデータを要約する」

箱ひげ図は、データの分布を 最小値・第1四分位数(Q1)・中央値(Q2)・第3四分位数(Q3)・最大値 の5つの数値で要約するグラフです。複数グループの分布を一目で比較できるのが最大の強みです。

📦 箱ひげ図の読み方
部位 位置 意味
上ひげの先端 最大値(またはQ3+1.5×IQR以内の最大値) データの上限
箱の上辺 第3四分位数(Q3) 上位25%の境界線
箱の中の線 中央値(Q2) ちょうど真ん中のデータ
箱の下辺 第1四分位数(Q1) 下位25%の境界線
下ひげの先端 最小値(またはQ1-1.5×IQR以内の最小値) データの下限
● 点(外れ値) Q1-1.5×IQR未満 or Q3+1.5×IQR超 通常のばらつきの範囲外にある異常値

※ IQR(四分位範囲)= Q3 - Q1。箱の高さがIQRそのものです。

💡 ヒストグラムと箱ひげ図の使い分け
1つのデータの分布を詳しく見たい → ヒストグラム(山の形がわかる)
複数のデータの分布を比較したい → 箱ひげ図(並べて一目で比較できる)
この使い分けはDS検定で非常に出やすいポイントです。

その他の頻出グラフ|円グラフ・帯グラフ・ヒートマップ・ツリーマップ

ヒストグラム・散布図・箱ひげ図ほど出題頻度は高くありませんが、以下のグラフも「選択肢の一つ」として出てきます。それぞれの特徴をサッと確認しておきましょう。

グラフ 得意なこと 注意点 DS検定での出題ポイント
🥧 円グラフ 全体に対する各カテゴリの割合を直感的に示す カテゴリが6つ以上になると読みにくい。3D円グラフは奥行きで面積が歪むためNG 「3D円グラフ」はチャートジャンクの代表例として出題される
📊 帯グラフ
(積み上げ棒)
構成比の時間推移を比較する 合計が100%でないデータに使うと誤解を招く 「時系列の構成比変化」に適切なグラフを選ぶ問題で登場
🌡️ ヒートマップ 多変量データ(相関行列など)の全体パターンを色の濃淡で一覧表示 色の選び方が不適切だと誤読を誘発する(例:赤緑色覚障害への配慮) 「多変数の関係を一覧で把握」する場面で選択肢に登場
🌳 ツリーマップ 階層構造を持つデータの面積比で量を表現 面積の微妙な差は人間には判別しにくい 「部門別の予算配分」などの場面で選択肢に登場

テーマ3:不適切なグラフ表現|チャートジャンクとデータインク比

DS検定では「このグラフの何が不適切か?」を問う問題が出ます。不適切なグラフ表現は大きく 2つの概念 で整理できます。「チャートジャンク」と「データインク比」です。

チャートジャンク(Chartjunk)とは?

チャートジャンクとは、統計学者エドワード・タフティ(Edward Tufte)が著書『The Visual Display of Quantitative Information』(1983年)で提唱した概念です。グラフに含まれる データの理解に寄与しない、不必要な視覚的装飾 のことを指します。

一言で言えば「見た目は派手だけど、データの本質を伝えることに貢献していないゴミ要素」です。

チャートジャンクの代表例6つ

# チャートジャンクの種類 なぜダメなのか 具体例
1 3Dグラフ(立体化) 奥行きにより面積・高さの比較が歪む。手前のデータが大きく、奥のデータが小さく見える 3D円グラフ、3D棒グラフ
2 過剰なグリッド線 目盛線が多すぎるとデータの線や棒が埋もれて読みにくくなる 5刻みの細かすぎるグリッド
3 装飾的なイラスト 棒グラフの棒を「人の絵」や「ビルの絵」に変えると、面積比がデータ量と一致しなくなる ピクトグラム風の棒グラフ
4 不要な背景画像 グラフの背景に風景写真やグラデーションを入れると、データの色と干渉して読みにくい 背景にオフィス写真を入れた折れ線グラフ
5 過剰な影・反射効果 棒グラフに立体的な影やグラデーションを加えると、正確な高さの読み取りを妨げる 光沢感のある棒グラフ
6 装飾的なフォント データラベルに手書き風フォントやゴシック調フォントを使うと可読性が下がる 英字筆記体のラベル
🔧 覚え方
チャートジャンクかどうかの判断基準はシンプルです。「その要素を消しても、データの意味は変わらないか?」——答えがYesなら、それはジャンク(ゴミ)です。

データインク比(Data-Ink Ratio)とは?

チャートジャンクの概念をさらに「数値化」したのが、タフティが提唱した データインク比 です。

📐 データインク比の定義
データインク比 =
データを表すために使われたインクの量
グラフ全体に使われたインクの総量

この比率が 1に近いほど良いグラフ(ムダが少ない)。0に近いほどジャンクだらけのグラフです。

「インクの量」と言うと紙の話に聞こえますが、これはデジタルグラフでも同じです。画面上で「データそのものを表すピクセル」と「装飾に使われたピクセル」の比率と考えてください。

データインク比が低い(悪い例)

  • 3Dの立体棒グラフ
  • 背景にグラデーション
  • 細かすぎるグリッド線
  • 棒にグラデーション+影
  • → 「見た目の80%が装飾」状態

データインク比が高い(良い例)

  • 2Dのシンプルな棒グラフ
  • 背景は白(無地)
  • グリッド線は薄く最小限
  • 棒は単色でフラットデザイン
  • → 「画面のほぼ全てがデータ」状態

【超頻出】軸の操作|グラフを「嘘つき」にする手口

チャートジャンク以上に悪質なのが、軸の操作(Misleading Axis)です。DS検定では「このグラフの何が不適切か?」という問題で、軸の操作を見抜く力が問われます。

操作の手口 何が起きるか 見抜き方
Y軸が0から始まらない
(切断された軸)
わずかな差が視覚的に大きく見える。例:売上が100万→102万の微増が、グラフ上では「2倍に見える」 縦軸の起点を確認する。途中で「波線(中断記号)」があるか
軸のスケールが不均等 目盛りの間隔が不揃いだと、変化量の大小が歪む 目盛りの数値を確認する。等間隔になっているか
2軸グラフの悪用 左右のY軸のスケールを恣意的に設定し、「相関があるように見せる」 2本の折れ線が「意図的に重なるように」軸を調整していないか
面積で量を表現 値が2倍でも、アイコンの直径を2倍にすると面積は4倍に見える 「長さ」ではなく「面積」で比較していないか確認
⚠️ DS検定での出題例(イメージ)
「以下の棒グラフについて不適切な点はどれか」→ 選択肢に「Y軸が0から始まっていない」「凡例がない」「3D表示になっている」等が並ぶ。正解はたいてい 「Y軸が0から始まっていない」。これがDS検定の定番パターンです。

テーマ4:データの比較|A/Bテストと「条件をそろえた比較」

DS検定のモデルカリキュラムには「データの比較(条件をそろえた比較、処理の前後での比較、A/Bテスト)」と明記されています。ここでは、特に頻出の A/Bテスト比較の3つの原則 を解説します。

A/Bテストとは?|「どっちがいいか」を科学的に決める方法

A/Bテストとは、2つの選択肢(AパターンとBパターン)を用意し、同じ条件下で比較してどちらが効果的かを判断する手法です。

🔬 A/Bテストの具体例
場面 Aパターン Bパターン 測定指標
Webサイト ボタンの色:赤 ボタンの色:緑 クリック率(CTR)
広告 キャッチコピーX キャッチコピーY コンバージョン率
製造ライン 現行の作業手順 改善案の作業手順 不良率

「正しい比較」の3原則

A/Bテストに限らず、データの比較には 3つの鉄則 があります。これを破ると「見せかけの差」に騙されます。

⚖️
原則1
条件をそろえる
比較対象以外の変数を固定する
🎲
原則2
ランダム割付
AとBのグループに偏りなく割り当てる
📏
原則3
十分なサンプルサイズ
偶然の差を排除するため
⚠️ 試験での引っかけパターン
「A/Bテストで、Aグループには20代の女性、Bグループには40代の男性を割り当てた」→ これは 条件が揃っていない ため不適切。年齢も性別も違うので、結果の差がボタンの色によるものか、対象者の属性によるものか区別できません。

テーマ5:意味抽出|グラフから「何を読み取るか」

可視化の最終ゴールは「グラフを作ること」ではなく、「グラフから意味を読み取ること」です。DS検定では、グラフを見せて「この結果から正しく言えることはどれか?」と問う出題パターンがあります。

意味抽出で引っかかる3つのワナ

# ワナの名前 説明 DS検定での出方
1 相関と因果の混同 散布図で正の相関があっても、AがBの「原因」とは限らない。第三の変数(交絡因子)が両方に影響している擬似相関の可能性がある 「このグラフから因果関係があると言えるか?」→ 言えない(相関があるだけ)
2 外れ値の無視 箱ひげ図やヒストグラムの端に極端な値がある場合、平均値が大きく歪む。中央値と平均値の乖離に注意 「平均値が代表値として適切か?」→ 外れ値がある場合は中央値のほうが適切
3 統計情報の誇張表現 軸の切断、スケール操作、サンプルサイズの隠蔽などにより、差が実際より大きく(または小さく)見える 「このグラフから読み取れる正しい解釈はどれか?」→ 軸を確認して判断
💡 意味抽出のチェックリスト
グラフを見たら、以下の4点を必ず確認する習慣をつけましょう。
① 軸のラベルと単位は何か?
② Y軸は0から始まっているか?
③ サンプルサイズは十分か?(n=3で「傾向がある」は言い過ぎ)
④ 「相関がある」と「因果関係がある」を混同していないか?

試験直前チェック|出題パターン別の対策まとめ

最後に、この記事の内容を「DS検定で聞かれる形式」に合わせて整理します。試験前にこの表だけ見返せば、データ可視化分野は万全です。

出題パターン 解答のコツ この記事で該当するセクション
「この場面で最も適切なグラフはどれか?」 「知りたいこと」×「データの型」でグラフ選択フローチャートに当てはめる テーマ2:軸だし
「このグラフの不適切な点はどれか?」 ①3D表現 ②Y軸が0始まりでない ③過剰装飾——の3つをまずチェック テーマ3:チャートジャンク+軸の操作
「チャートジャンクに該当するものはどれか?」 「消してもデータの意味が変わらない要素」=ジャンク。データインク比の考え方 テーマ3:データインク比
「データインク比の説明として正しいものはどれか?」 タフティが提唱。「データを表すインク÷全体のインク」。1に近いほど良い テーマ3:データインク比
「A/Bテストの説明として正しいものはどれか?」 2パターンを用意し、条件をそろえてランダムに割り当て、結果を比較する テーマ4:データの比較
「このグラフから正しく言えることはどれか?」 相関≠因果、外れ値の影響、軸の操作の3点を意識して選択肢を精査 テーマ5:意味抽出
「可視化の目的に関する記述として正しいものはどれか?」 探索的(仮説なし・パターン発見)と説明的(結論あり・他者に伝える)の違い テーマ1:方向性定義
📐 最終確認:3秒で判断するキーワード対応表
探索的 → 「まず眺める」「パターン発見」
説明的 → 「相手に伝える」「プレゼン」
チャートジャンク → 「消しても意味が変わらない装飾」
データインク比 → 「データ用インク ÷ 全体のインク。1に近いほど良い」
A/Bテスト → 「2パターン+条件統一+ランダム割付」

まとめ

DS検定の「データ可視化」分野は、5つのテーマ(方向性定義・軸だし・表現技法・データの比較・意味抽出)を体系的に理解すれば、暗記に頼らず得点できます。

特に押さえるべきは以下の3点です。

① グラフ選択は「知りたいこと × データの型」で決まる——分布を見るならヒストグラム、2変数の関係なら散布図、複数グループの比較なら箱ひげ図。

② チャートジャンクは「消しても意味が変わらない要素」——3Dグラフ、過剰装飾、背景画像がNGの代表例。データインク比は1に近いほど良い。

③ 「相関 ≠ 因果」を常に意識する——散布図で関係が見えても、因果関係があるとは言えない。軸の操作にも騙されない。

データ可視化は「数式なしで解ける」数少ない分野です。この記事の内容を頭に入れておけば、本番で3〜5問を確実に拾えます。合格ラインが約80%のDS検定において、「確実に取れる分野」を増やすことが合格への最短ルートです。

📚 次に読むべき記事

📘 【完全版】DS検定(データサイエンティスト検定)とは?試験概要・合格率・3領域を徹底解説 →

DS検定の全体像がまだ掴めていない方は、まずこの記事で試験の構造を理解しましょう。

📘 DS検定の統計問題を得点源にする|代表値・分布・検定・ベイズを完全整理 →

可視化分野と密接に関連する統計学の出題範囲を整理。ヒストグラムや分布の理解をさらに深められます。

📘 DS検定で問われる機械学習の基礎|教師あり/なし・過学習・評価指標を完全図解 →

データサイエンス力の最重要分野。可視化の次に対策すべき機械学習の頻出ポイントを整理しています。

タグ

-データサイエンティスト検定