はじめに
これまで数値を使ってデータの特徴を学んできましたが、「百聞は一見に如かず」という言葉があるように、データを視覚的に表現することで、数値だけでは見えない特徴やパターンを発見できます。
例えば、「平均身長170cm、標準偏差6cm」という数値情報だけでは、身長がどのように分布しているかイメージしにくいですよね。でも、ヒストグラムで表現すると、多くの人が平均付近に集まり、極端に高い人や低い人は少ないという「正規分布」の形が一目で分かります。
今日は、データ分析の基本ツールである「ヒストグラム」の作成方法から読み取り方まで、実践的に学んでいきましょう。
ヒストグラムとは何か
ヒストグラムの基本概念
ヒストグラムは、連続的な数値データの分布(散らばり具合)を視覚化するグラフです。データを一定の範囲(階級)に分けて、各階級に含まれるデータの個数を棒グラフで表現します。
ヒストグラムと棒グラフの違い
項目 | ヒストグラム | 棒グラフ |
---|---|---|
データの種類 | 連続的な数値データ | カテゴリデータ |
横軸 | 数値の範囲(階級) | カテゴリ名 |
棒の間隔 | 隙間なし | 隙間あり |
例 | 身長、体重、点数 | 血液型、性別、地域 |
ヒストグラムで分かること
- データの中心傾向:どこに多くのデータが集まっているか
- データの散らばり:データがどの程度広がっているか
- 分布の形:対称か歪んでいるか、ピークがいくつあるか
- 外れ値の存在:極端に離れた値があるか
ヒストグラムの作成手順
データ例:30人のテスト結果
テスト結果(点):
52, 58, 61, 63, 65, 67, 68, 70, 71, 72,
73, 74, 75, 75, 76, 77, 78, 79, 80, 81,
82, 83, 84, 85, 86, 87, 88, 90, 92, 95
ステップ1:データの範囲を確認
最小値:52点
最大値:95点
範囲:95 - 52 = 43点
ステップ2:階級数を決める
階級数の決め方には複数の方法がありますが、一般的に「スタージェスの公式」がよく使われます。
スタージェスの公式
階級数 = 1 + log₂(n)
n = データ数
今回の例:n = 30
階級数 = 1 + log₂(30) = 1 + 4.9 ≈ 6階級
その他の目安
- データ数30以下:5-7階級
- データ数30-100:6-10階級
- データ数100以上:10-20階級
ステップ3:階級幅を決める
階級幅 = データの範囲 ÷ 階級数
階級幅 = 43 ÷ 6 ≈ 7.2
→ キリの良い数字にして階級幅 = 8点
ステップ4:階級を設定
第1階級:50点以上58点未満
第2階級:58点以上66点未満
第3階級:66点以上74点未満
第4階級:74点以上82点未満
第5階級:82点以上90点未満
第6階級:90点以上98点未満
階級表記の注意点
- 「以上~未満」で表記することが多い
- 境界値の扱いを明確にする
- すべてのデータが含まれるように設定
ステップ5:度数を数える
各階級に含まれるデータの個数を数えます。
階級 | 度数 |
---|---|
50~58 | 2人 |
58~66 | 4人 |
66~74 | 6人 |
74~82 | 10人 |
82~90 | 6人 |
90~98 | 2人 |
ステップ6:ヒストグラムを描く
- 横軸:階級(点数の範囲)
- 縦軸:度数(人数)
- 棒の幅:階級幅に比例
- 棒の高さ:度数に比例
- 棒同士は隙間なく描く
階級幅の決め方の重要性
階級幅が与える影響
階級幅の選択によって、同じデータでも全く異なる印象のヒストグラムになることがあります。
階級幅が狭すぎる場合(階級幅4点)
- 階級数が多すぎて、パターンが見えにくい
- ノイズが目立つ
- 細かすぎて全体の傾向が分からない
階級幅が広すぎる場合(階級幅15点)
- 階級数が少なすぎて、詳細な分布が分からない
- 重要な特徴が隠れてしまう
- 大雑把すぎて意味のある情報が得られない
適切な階級幅(階級幅8点)
- データの特徴が明確に見える
- 分布の形がはっきりと分かる
- 解釈しやすい
階級幅決定のガイドライン
1. スタージェスの公式を基準にする 最初の目安として使用
2. データの性質を考慮する
- 自然な区切りがある場合(年齢:10歳刻み、点数:10点刻み)
- 業界の慣習がある場合
3. 分析目的に合わせる
- 詳細な分析:狭い階級幅
- 概要把握:広い階級幅
4. 試行錯誤する 複数の階級幅でヒストグラムを作成し、最も情報が得られるものを選択
分布の形の読み取り方
1. 正規分布(ベル型分布)
特徴
- 左右対称
- 中央部分が最も高い
- 両端に向かって徐々に低くなる
- 平均値 = 中央値 = 最頻値
身近な例
- 身長、体重
- IQ、偏差値
- 測定誤差
読み取りのポイント
「多くのデータが平均付近に集中し、
極端な値は少ない自然な分布」
2. 右歪み分布(正の歪み)
特徴
- 左側に山があり、右側に尾を引く
- 少数の大きな値が存在
- 平均値 > 中央値
身近な例
- 年収、資産
- 都市の人口
- ウェブサイトのアクセス数
読み取りのポイント
「多くの人は平均より低い値だが、
一部の高い値が平均を押し上げている」
3. 左歪み分布(負の歪み)
特徴
- 右側に山があり、左側に尾を引く
- 少数の小さな値が存在
- 平均値 < 中央値
身近な例
- 試験の点数(易しいテスト)
- 製品の寿命
- 反応時間
読み取りのポイント
「多くのデータは高い値だが、
一部の低い値が平均を引き下げている」
4. 一様分布(平坦な分布)
特徴
- すべての階級でほぼ同じ度数
- 明確なピークがない
- 長方形に近い形
身近な例
- サイコロの出目
- ランダムな数値
- 待ち時間(一定範囲内)
5. 二峰性分布(バイモーダル)
特徴
- 2つのピークがある
- 谷間で区切られている
- 2つのグループの混在を示唆
身近な例
- 男女混合の身長データ
- 通勤時間(近距離と遠距離)
- 製品の品質(良品と不良品)
読み取りのポイント
「データに2つの異なるグループが
混在している可能性」
ヒストグラムの実践的読み取り
ケーススタディ1:学力テストの結果
ヒストグラムの特徴
- 60-70点にピーク
- 右に長い尾(少数の高得点者)
- 左歪み分布
読み取れる情報
- テストがやや難しかった
- 多くの生徒は60-70点台
- 満点近い生徒は少数
- 平均点より中央値の方が高い
指導への活用
- 基礎的な内容の復習が必要
- 上位層向けの発展問題も準備
- 個別指導の対象者を特定
ケーススタディ2:従業員の年収分布
ヒストグラムの特徴
- 300-400万円にピーク
- 右に長い尾(高収入者)
- 右歪み分布
読み取れる情報
- 一般社員の年収は300-400万円が中心
- 管理職・役員の高収入が平均を押し上げ
- 年収格差が存在
人事政策への活用
- 昇進・昇格制度の検討
- 給与体系の見直し
- モチベーション向上策
ケーススタディ3:製品の不良率
ヒストグラムの特徴
- 2つのピークが存在
- 二峰性分布
読み取れる情報
- 2つの異なる製造条件
- 品質管理に問題の可能性
- 製造ラインの違い
品質改善への活用
- 製造条件の統一
- 不良率の高い条件の特定
- プロセス改善の実施
ヒストグラム作成時の注意点
1. 階級の境界値の扱い
問題:70点ちょうどの生徒はどちらの階級に含める?
解決策
明確なルールを決める:
・「70点以上80点未満」なら70点は含む
・「70点超80点以下」なら70点は含まない
2. データ数が少ない場合
データ数が20個未満の場合、ヒストグラムは有効でない可能性があります。
代替案
- ドットプロット
- 箱ひげ図
- データを追加収集
3. 外れ値の扱い
外れ値がある場合の対処
- 外れ値を含めたヒストグラム
- 外れ値を除外したヒストグラム
- 両方を作成して比較
4. 縦軸の選択
度数 vs 相対度数(割合)
縦軸 | 使用場面 | メリット |
---|---|---|
度数 | 1つのデータセットの分析 | 実際の個数が分かる |
相対度数 | 複数データセットの比較 | サイズの違いを無視して比較可能 |
まとめ
ヒストグラムは、数値だけでは見えないデータの特徴や傾向を視覚的に発見できる強力なツールです。適切な階級幅の設定と分布の形の読み取りができれば、データに隠された重要な情報を見つけ出すことができます。
今日のポイント
✅ ヒストグラム:連続データの分布を視覚化
✅ 階級幅:スタージェスの公式を基準に、データの性質を考慮
✅ 分布の形:正規分布、歪み分布、二峰性分布の特徴を理解
✅ 実践的読み取り:分布の形から背景にある要因を推測
✅ 注意点:境界値の扱い、外れ値の影響を考慮
次回は「確率とは何か」について学びます。統計学の基礎となる確率論の考え方を、身近な例を使って分かりやすく解説していきます!