DS検定「データ可視化」の頻出問題｜グラフ選択・チャートジャンク・軸だしを完全図解

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応第2版

ポチップ

テーマ1：方向性定義｜「何のために可視化するのか？」

スキルチェックリストの「方向性定義」とは、データを可視化する目的を正しく判別できる能力のことです。いきなりグラフを作るのではなく、「そもそもなぜグラフにするのか？」を考えるステップです。

可視化の3つの目的

可視化の目的は、大きく以下の3つに分類できます。DS検定では「この状況の可視化は何に該当するか？」と聞かれます。

🔍

①探索的分析

データの中に パターンや異常 がないか「探す」ための可視化。まだ仮説がない段階で行う。

例：新しいデータセットをもらったので、まずヒストグラムや散布図で分布を確認する

📢

②説明的分析

分析結果を 他者に伝える ための可視化。すでに結論が出ている段階で、わかりやすく「見せる」。

例：売上が前年比120%に伸びたことを経営会議のスライドで棒グラフを使って報告する

📊

③モニタリング

状態を リアルタイムで監視 するための可視化。異常を即座に検知する目的。

例：工場の生産ラインの不良率を管理図でリアルタイムに表示する

⚠️ 試験での引っかけパターン
「探索的分析と説明的分析の違い」は頻出です。ポイントは 仮説があるかないか。「まず眺めてみる」が探索的、「結論を伝える」が説明的です。目的が違えば、適切なグラフの選び方も変わります。

テーマ2：軸だし｜「何を、どの軸で見るか？」——グラフ選択の考え方

「軸だし」とは、データの性質に合った 適切な変数の組み合わせ（＝軸）とグラフの種類 を選ぶ能力のことです。DS検定では「この状況で最も適切なグラフはどれか？」という形式で出題されます。

グラフ選択のフローチャート｜「何を知りたいか」で決まる

グラフの選択は「知りたいこと」から逆算します。以下のフローチャートを頭に入れておけば、試験本番で迷いません。

🗺️ グラフ選択フローチャート

知りたいこと	データの型	適切なグラフ	例
分布を見たい	量的データ（連続）	ヒストグラム	製品の寸法のバラつき
分布＋外れ値を見たい	量的データ（連続）	箱ひげ図	3工場の歩留まり比較
2変数の関係を見たい	量的×量的	散布図	広告費と売上の関係
量の大小を比較したい	カテゴリ×量的	棒グラフ	商品別の売上額
時間変化を見たい	時系列×量的	折れ線グラフ	月別の気温推移
割合・構成比を見たい	カテゴリ（5つ以下推奨）	円グラフ	市場シェア
割合の推移を見たい	時系列×カテゴリ	帯グラフ（積み上げ棒）	年別の売上構成
階層・内訳を見たい	カテゴリ（多階層）	ツリーマップ	予算の部門別配分
多変量の傾向を見たい	量的×量的（多変量）	ヒートマップ	相関行列の可視化
地理的な分布を見たい	地理×量的	コロプレスマップ（地図）	都道府県別の感染者数

💡 試験対策の急所
最も出題されやすいのは「ヒストグラムと棒グラフの違い」「散布図と箱ひげ図の使い分け」です。次のセクションで詳しく解説します。

¥2,750 （2026/04/03 19:16時点 | Amazon調べ）

データサイエンティスト検定［リテラシーレベル］［徹底解説+良質問題+模試（PDF）］　最強の合格テキスト (まっすぐ合格シリーズ)

ポチップ

頻出グラフ①：ヒストグラム｜「棒グラフと何が違うの？」

ヒストグラムと棒グラフは見た目が似ていますが、本質がまったく違います。DS検定では「この2つを混同させる」問題が頻出します。

📊

ヒストグラム

横軸：連続した数値（身長、温度、時間）
棒の間隔：隙間なし（データが連続しているため）
目的：データの分布の形を見る
棒の並び順：変えてはいけない（数値の順序がある）

📶

棒グラフ

横軸：カテゴリ（部署名、製品名、都市名）
棒の間隔：隙間あり（カテゴリは連続していない）
目的：カテゴリ間の量の大小を比較する
棒の並び順：変えてもOK（順序の意味がないため）

📐 覚え方
ヒストグラム＝「連続」→ 棒がくっつく｜棒グラフ＝「カテゴリ」→ 棒が離れる

頻出グラフ②：散布図｜「2つの変数の関係を見る」

散布図は、2つの量的変数の関係を「点の集まり」で可視化するグラフです。横軸に説明変数（原因側）、縦軸に目的変数（結果側）を取ります。

パターン	点の散らばり方	意味
正の相関	右上がりに点が並ぶ	xが増えるとyも増える（例：広告費↑ → 売上↑）
負の相関	右下がりに点が並ぶ	xが増えるとyが減る（例：気温↑ → 暖房費↓）
無相関	ランダムに散らばる	xとyに線形関係がない

⚠️ DS検定の定番ひっかけ
「相関がある＝因果関係がある」ではありません。アイスの売上と水難事故は正の相関がありますが、アイスが事故の原因ではなく、「気温」という交絡因子が両方に影響しています。これは「擬似相関」と呼ばれ、DS検定で頻出のトラップです。

頻出グラフ③：箱ひげ図｜「5つの数値でデータを要約する」

箱ひげ図は、データの分布を 最小値・第1四分位数（Q1）・中央値（Q2）・第3四分位数（Q3）・最大値 の5つの数値で要約するグラフです。複数グループの分布を一目で比較できるのが最大の強みです。

📦 箱ひげ図の読み方

部位	位置	意味
上ひげの先端	最大値（またはQ3+1.5×IQR以内の最大値）	データの上限
箱の上辺	第3四分位数（Q3）	上位25%の境界線
箱の中の線	中央値（Q2）	ちょうど真ん中のデータ
箱の下辺	第1四分位数（Q1）	下位25%の境界線
下ひげの先端	最小値（またはQ1-1.5×IQR以内の最小値）	データの下限
● 点（外れ値）	Q1-1.5×IQR未満 or Q3+1.5×IQR超	通常のばらつきの範囲外にある異常値

※ IQR（四分位範囲）= Q3 - Q1。箱の高さがIQRそのものです。

💡 ヒストグラムと箱ひげ図の使い分け
1つのデータの分布を詳しく見たい → ヒストグラム（山の形がわかる）
複数のデータの分布を比較したい → 箱ひげ図（並べて一目で比較できる）
この使い分けはDS検定で非常に出やすいポイントです。

その他の頻出グラフ｜円グラフ・帯グラフ・ヒートマップ・ツリーマップ

ヒストグラム・散布図・箱ひげ図ほど出題頻度は高くありませんが、以下のグラフも「選択肢の一つ」として出てきます。それぞれの特徴をサッと確認しておきましょう。

グラフ	得意なこと	注意点	DS検定での出題ポイント
🥧 円グラフ	全体に対する各カテゴリの割合を直感的に示す	カテゴリが6つ以上になると読みにくい。3D円グラフは奥行きで面積が歪むためNG	「3D円グラフ」はチャートジャンクの代表例として出題される
📊 帯グラフ（積み上げ棒）	構成比の時間推移を比較する	合計が100%でないデータに使うと誤解を招く	「時系列の構成比変化」に適切なグラフを選ぶ問題で登場
🌡️ ヒートマップ	多変量データ（相関行列など）の全体パターンを色の濃淡で一覧表示	色の選び方が不適切だと誤読を誘発する（例：赤緑色覚障害への配慮）	「多変数の関係を一覧で把握」する場面で選択肢に登場
🌳 ツリーマップ	階層構造を持つデータの面積比で量を表現	面積の微妙な差は人間には判別しにくい	「部門別の予算配分」などの場面で選択肢に登場

テーマ3：不適切なグラフ表現｜チャートジャンクとデータインク比

DS検定では「このグラフの何が不適切か？」を問う問題が出ます。不適切なグラフ表現は大きく 2つの概念 で整理できます。「チャートジャンク」と「データインク比」です。

チャートジャンク（Chartjunk）とは？

チャートジャンクとは、統計学者エドワード・タフティ（Edward Tufte）が著書『The Visual Display of Quantitative Information』（1983年）で提唱した概念です。グラフに含まれる データの理解に寄与しない、不必要な視覚的装飾 のことを指します。

一言で言えば「見た目は派手だけど、データの本質を伝えることに貢献していないゴミ要素」です。

チャートジャンクの代表例6つ

#	チャートジャンクの種類	なぜダメなのか	具体例
1	3Dグラフ（立体化）	奥行きにより面積・高さの比較が歪む。手前のデータが大きく、奥のデータが小さく見える	3D円グラフ、3D棒グラフ
2	過剰なグリッド線	目盛線が多すぎるとデータの線や棒が埋もれて読みにくくなる	5刻みの細かすぎるグリッド
3	装飾的なイラスト	棒グラフの棒を「人の絵」や「ビルの絵」に変えると、面積比がデータ量と一致しなくなる	ピクトグラム風の棒グラフ
4	不要な背景画像	グラフの背景に風景写真やグラデーションを入れると、データの色と干渉して読みにくい	背景にオフィス写真を入れた折れ線グラフ
5	過剰な影・反射効果	棒グラフに立体的な影やグラデーションを加えると、正確な高さの読み取りを妨げる	光沢感のある棒グラフ
6	装飾的なフォント	データラベルに手書き風フォントやゴシック調フォントを使うと可読性が下がる	英字筆記体のラベル

🔧 覚え方
チャートジャンクかどうかの判断基準はシンプルです。「その要素を消しても、データの意味は変わらないか？」——答えがYesなら、それはジャンク（ゴミ）です。

¥4,290 （2026/04/03 19:17時点 | Amazon調べ）

最短突破データサイエンティスト検定（リテラシーレベル）公式リファレンスブック第3版

ポチップ

データインク比（Data-Ink Ratio）とは？

チャートジャンクの概念をさらに「数値化」したのが、タフティが提唱した データインク比 です。

📐 データインク比の定義

データインク比 =

データを表すために使われたインクの量

グラフ全体に使われたインクの総量

この比率が 1に近いほど良いグラフ（ムダが少ない）。0に近いほどジャンクだらけのグラフです。

「インクの量」と言うと紙の話に聞こえますが、これはデジタルグラフでも同じです。画面上で「データそのものを表すピクセル」と「装飾に使われたピクセル」の比率と考えてください。

❌

データインク比が低い（悪い例）

3Dの立体棒グラフ
背景にグラデーション
細かすぎるグリッド線
棒にグラデーション＋影
→ 「見た目の80%が装飾」状態

✅

データインク比が高い（良い例）

2Dのシンプルな棒グラフ
背景は白（無地）
グリッド線は薄く最小限
棒は単色でフラットデザイン
→ 「画面のほぼ全てがデータ」状態

【超頻出】軸の操作｜グラフを「嘘つき」にする手口

チャートジャンク以上に悪質なのが、軸の操作（Misleading Axis）です。DS検定では「このグラフの何が不適切か？」という問題で、軸の操作を見抜く力が問われます。

操作の手口	何が起きるか	見抜き方
Y軸が0から始まらない（切断された軸）	わずかな差が視覚的に大きく見える。例：売上が100万→102万の微増が、グラフ上では「2倍に見える」	縦軸の起点を確認する。途中で「波線（中断記号）」があるか
軸のスケールが不均等	目盛りの間隔が不揃いだと、変化量の大小が歪む	目盛りの数値を確認する。等間隔になっているか
2軸グラフの悪用	左右のY軸のスケールを恣意的に設定し、「相関があるように見せる」	2本の折れ線が「意図的に重なるように」軸を調整していないか
面積で量を表現	値が2倍でも、アイコンの直径を2倍にすると面積は4倍に見える	「長さ」ではなく「面積」で比較していないか確認

⚠️ DS検定での出題例（イメージ）
「以下の棒グラフについて不適切な点はどれか」→ 選択肢に「Y軸が0から始まっていない」「凡例がない」「3D表示になっている」等が並ぶ。正解はたいてい 「Y軸が0から始まっていない」。これがDS検定の定番パターンです。

テーマ4：データの比較｜A/Bテストと「条件をそろえた比較」

DS検定のモデルカリキュラムには「データの比較（条件をそろえた比較、処理の前後での比較、A/Bテスト）」と明記されています。ここでは、特に頻出の A/Bテスト と 比較の3つの原則 を解説します。

A/Bテストとは？｜「どっちがいいか」を科学的に決める方法

A/Bテストとは、2つの選択肢（AパターンとBパターン）を用意し、同じ条件下で比較してどちらが効果的かを判断する手法です。

🔬 A/Bテストの具体例

場面	Aパターン	Bパターン	測定指標
Webサイト	ボタンの色：赤	ボタンの色：緑	クリック率（CTR）
広告	キャッチコピーX	キャッチコピーY	コンバージョン率
製造ライン	現行の作業手順	改善案の作業手順	不良率

「正しい比較」の3原則

A/Bテストに限らず、データの比較には 3つの鉄則 があります。これを破ると「見せかけの差」に騙されます。

⚖️

原則1

条件をそろえる
比較対象以外の変数を固定する

→

🎲

原則2

ランダム割付
AとBのグループに偏りなく割り当てる

→

📏

原則3

十分なサンプルサイズ
偶然の差を排除するため

⚠️ 試験での引っかけパターン
「A/Bテストで、Aグループには20代の女性、Bグループには40代の男性を割り当てた」→ これは 条件が揃っていない ため不適切。年齢も性別も違うので、結果の差がボタンの色によるものか、対象者の属性によるものか区別できません。

¥2,860 （2026/04/03 19:18時点 | Amazon調べ）