統計学基礎

第6回:データの視覚化 - ヒストグラムの作り方と読み方

はじめに

これまで数値を使ってデータの特徴を学んできましたが、「百聞は一見に如かず」という言葉があるように、データを視覚的に表現することで、数値だけでは見えない特徴やパターンを発見できます。

例えば、「平均身長170cm、標準偏差6cm」という数値情報だけでは、身長がどのように分布しているかイメージしにくいですよね。でも、ヒストグラムで表現すると、多くの人が平均付近に集まり、極端に高い人や低い人は少ないという「正規分布」の形が一目で分かります。

今日は、データ分析の基本ツールである「ヒストグラム」の作成方法から読み取り方まで、実践的に学んでいきましょう。

ヒストグラムとは何か

ヒストグラムの基本概念

ヒストグラムは、連続的な数値データの分布(散らばり具合)を視覚化するグラフです。データを一定の範囲(階級)に分けて、各階級に含まれるデータの個数を棒グラフで表現します。

ヒストグラムと棒グラフの違い

項目ヒストグラム棒グラフ
データの種類連続的な数値データカテゴリデータ
横軸数値の範囲(階級)カテゴリ名
棒の間隔隙間なし隙間あり
身長、体重、点数血液型、性別、地域

ヒストグラムで分かること

  • データの中心傾向:どこに多くのデータが集まっているか
  • データの散らばり:データがどの程度広がっているか
  • 分布の形:対称か歪んでいるか、ピークがいくつあるか
  • 外れ値の存在:極端に離れた値があるか

ヒストグラムの作成手順

データ例:30人のテスト結果

テスト結果(点):
52, 58, 61, 63, 65, 67, 68, 70, 71, 72,
73, 74, 75, 75, 76, 77, 78, 79, 80, 81,
82, 83, 84, 85, 86, 87, 88, 90, 92, 95

ステップ1:データの範囲を確認

最小値:52点
最大値:95点
範囲:95 - 52 = 43点

ステップ2:階級数を決める

階級数の決め方には複数の方法がありますが、一般的に「スタージェスの公式」がよく使われます。

スタージェスの公式

階級数 = 1 + log₂(n)
n = データ数

今回の例:n = 30
階級数 = 1 + log₂(30) = 1 + 4.9 ≈ 6階級

その他の目安

  • データ数30以下:5-7階級
  • データ数30-100:6-10階級
  • データ数100以上:10-20階級

ステップ3:階級幅を決める

階級幅 = データの範囲 ÷ 階級数
階級幅 = 43 ÷ 6 ≈ 7.2

→ キリの良い数字にして階級幅 = 8点

ステップ4:階級を設定

第1階級:50点以上58点未満
第2階級:58点以上66点未満  
第3階級:66点以上74点未満
第4階級:74点以上82点未満
第5階級:82点以上90点未満
第6階級:90点以上98点未満

階級表記の注意点

  • 「以上~未満」で表記することが多い
  • 境界値の扱いを明確にする
  • すべてのデータが含まれるように設定

ステップ5:度数を数える

各階級に含まれるデータの個数を数えます。

階級度数
50~582人
58~664人
66~746人
74~8210人
82~906人
90~982人

ステップ6:ヒストグラムを描く

  • 横軸:階級(点数の範囲)
  • 縦軸:度数(人数)
  • 棒の幅:階級幅に比例
  • 棒の高さ:度数に比例
  • 棒同士は隙間なく描く

階級幅の決め方の重要性

階級幅が与える影響

階級幅の選択によって、同じデータでも全く異なる印象のヒストグラムになることがあります。

階級幅が狭すぎる場合(階級幅4点)

  • 階級数が多すぎて、パターンが見えにくい
  • ノイズが目立つ
  • 細かすぎて全体の傾向が分からない

階級幅が広すぎる場合(階級幅15点)

  • 階級数が少なすぎて、詳細な分布が分からない
  • 重要な特徴が隠れてしまう
  • 大雑把すぎて意味のある情報が得られない

適切な階級幅(階級幅8点)

  • データの特徴が明確に見える
  • 分布の形がはっきりと分かる
  • 解釈しやすい

階級幅決定のガイドライン

1. スタージェスの公式を基準にする 最初の目安として使用

2. データの性質を考慮する

  • 自然な区切りがある場合(年齢:10歳刻み、点数:10点刻み)
  • 業界の慣習がある場合

3. 分析目的に合わせる

  • 詳細な分析:狭い階級幅
  • 概要把握:広い階級幅

4. 試行錯誤する 複数の階級幅でヒストグラムを作成し、最も情報が得られるものを選択

分布の形の読み取り方

1. 正規分布(ベル型分布)

特徴

  • 左右対称
  • 中央部分が最も高い
  • 両端に向かって徐々に低くなる
  • 平均値 = 中央値 = 最頻値

身近な例

  • 身長、体重
  • IQ、偏差値
  • 測定誤差

読み取りのポイント

「多くのデータが平均付近に集中し、
極端な値は少ない自然な分布」

2. 右歪み分布(正の歪み)

特徴

  • 左側に山があり、右側に尾を引く
  • 少数の大きな値が存在
  • 平均値 > 中央値

身近な例

  • 年収、資産
  • 都市の人口
  • ウェブサイトのアクセス数

読み取りのポイント

「多くの人は平均より低い値だが、
一部の高い値が平均を押し上げている」

3. 左歪み分布(負の歪み)

特徴

  • 右側に山があり、左側に尾を引く
  • 少数の小さな値が存在
  • 平均値 < 中央値

身近な例

  • 試験の点数(易しいテスト)
  • 製品の寿命
  • 反応時間

読み取りのポイント

「多くのデータは高い値だが、
一部の低い値が平均を引き下げている」

4. 一様分布(平坦な分布)

特徴

  • すべての階級でほぼ同じ度数
  • 明確なピークがない
  • 長方形に近い形

身近な例

  • サイコロの出目
  • ランダムな数値
  • 待ち時間(一定範囲内)

5. 二峰性分布(バイモーダル)

特徴

  • 2つのピークがある
  • 谷間で区切られている
  • 2つのグループの混在を示唆

身近な例

  • 男女混合の身長データ
  • 通勤時間(近距離と遠距離)
  • 製品の品質(良品と不良品)

読み取りのポイント

「データに2つの異なるグループが
混在している可能性」

ヒストグラムの実践的読み取り

ケーススタディ1:学力テストの結果

ヒストグラムの特徴

  • 60-70点にピーク
  • 右に長い尾(少数の高得点者)
  • 左歪み分布

読み取れる情報

  • テストがやや難しかった
  • 多くの生徒は60-70点台
  • 満点近い生徒は少数
  • 平均点より中央値の方が高い

指導への活用

  • 基礎的な内容の復習が必要
  • 上位層向けの発展問題も準備
  • 個別指導の対象者を特定

ケーススタディ2:従業員の年収分布

ヒストグラムの特徴

  • 300-400万円にピーク
  • 右に長い尾(高収入者)
  • 右歪み分布

読み取れる情報

  • 一般社員の年収は300-400万円が中心
  • 管理職・役員の高収入が平均を押し上げ
  • 年収格差が存在

人事政策への活用

  • 昇進・昇格制度の検討
  • 給与体系の見直し
  • モチベーション向上策

ケーススタディ3:製品の不良率

ヒストグラムの特徴

  • 2つのピークが存在
  • 二峰性分布

読み取れる情報

  • 2つの異なる製造条件
  • 品質管理に問題の可能性
  • 製造ラインの違い

品質改善への活用

  • 製造条件の統一
  • 不良率の高い条件の特定
  • プロセス改善の実施

ヒストグラム作成時の注意点

1. 階級の境界値の扱い

問題:70点ちょうどの生徒はどちらの階級に含める?

解決策

明確なルールを決める:
・「70点以上80点未満」なら70点は含む
・「70点超80点以下」なら70点は含まない

2. データ数が少ない場合

データ数が20個未満の場合、ヒストグラムは有効でない可能性があります。

代替案

  • ドットプロット
  • 箱ひげ図
  • データを追加収集

3. 外れ値の扱い

外れ値がある場合の対処

  1. 外れ値を含めたヒストグラム
  2. 外れ値を除外したヒストグラム
  3. 両方を作成して比較

4. 縦軸の選択

度数 vs 相対度数(割合)

縦軸使用場面メリット
度数1つのデータセットの分析実際の個数が分かる
相対度数複数データセットの比較サイズの違いを無視して比較可能

まとめ

ヒストグラムは、数値だけでは見えないデータの特徴や傾向を視覚的に発見できる強力なツールです。適切な階級幅の設定と分布の形の読み取りができれば、データに隠された重要な情報を見つけ出すことができます。

今日のポイント

✅ ヒストグラム:連続データの分布を視覚化
✅ 階級幅:スタージェスの公式を基準に、データの性質を考慮
✅ 分布の形:正規分布、歪み分布、二峰性分布の特徴を理解
✅ 実践的読み取り:分布の形から背景にある要因を推測
✅ 注意点:境界値の扱い、外れ値の影響を考慮

次回は「確率とは何か」について学びます。統計学の基礎となる確率論の考え方を、身近な例を使って分かりやすく解説していきます!

タグ

-統計学基礎