DS検定「深層学習」の出題ポイント｜CNN・RNN・Transformerの違いと基礎を完全図解

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応第2版

ポチップ

ニューラルネットワークの基本構造｜入力層・隠れ層・出力層

すべてのニューラルネットワークは、3種類の層で構成されています。DS検定では「各層の役割」と「層が増えると何が起きるか」が問われます。

📥

入力層

データを受け取る

（画像のピクセル値など）

→

⚙️

隠れ層（中間層）

特徴を抽出・変換

（ここが「深い」と深層学習）

→

📤

出力層

結果を出す

（「犬」「猫」などの予測）

💡 たとえ話：「リレー形式の伝言ゲーム」
ニューラルネットワークは伝言ゲームに似ています。最初の人（入力層）が生の情報を受け取り、中間の人たち（隠れ層）がそれぞれ「自分なりの解釈」を加えて次の人に渡します。最後の人（出力層）が最終的な答えを発表します。

中間の人が多いほど（層が深いほど）情報は様々な角度から加工され、より精度の高い最終回答が得られますが、伝言ミス（勾配消失）のリスクも高まります。

ニューロン1つの動き｜「重み付き投票」のイメージ

各ニューロンは以下の3ステップで動作します。

ステップ	やること	たとえ話
①	複数の入力に重みをかけて合計する	「Aさんの意見は信頼度80%、Bさんは20%」と重要度をつけて足し合わせる
②	バイアス（偏り）を加える	「そもそも自分は慎重派だから-5点してから判断」という性格の補正
③	活性化関数を通す	「合計スコアがある閾値を超えたら"YES"、超えなければ"NO"」と最終判断する

この「重み」と「バイアス」がニューラルネットワークが学習するパラメータです。学習とは、予測が正解に近づくように、重みとバイアスを少しずつ調整していく作業のことです。

活性化関数｜なぜ「非線形」が必要なのか

活性化関数（Activation Function）は、ニューロンの出力に「非線形な変換」を加える関数です。DS検定では「代表的な活性化関数の名前と特徴」「なぜ必要なのか」が問われます。

💡 なぜ活性化関数が必要なのか？
もし活性化関数がなければ、ニューロンの計算は「重み × 入力 + バイアス」のただの足し算と掛け算（線形変換）の繰り返しです。線形変換をいくら重ねても結局1回の線形変換と同じなので、層を深くする意味がありません。

たとえ話で言うと、色フィルターを何枚重ねても、結局「1枚の混合フィルター」と同じになるようなものです。活性化関数という「ひねり」を加えることで、層を重ねるほど複雑なパターンを表現できるようになります。

DS検定で覚えるべき代表的な活性化関数

関数名	出力範囲	特徴	主な用途
シグモイド	0〜1	S字カーブで出力を0〜1に変換。確率として解釈しやすい	二値分類の出力層
tanh	-1〜1	シグモイドを-1〜1にスケール。出力の中心が0	RNNの隠れ層
ReLU ⭐	0〜∞	入力が0以下→0、0以上→そのまま。計算が速い、勾配消失しにくい	CNN等の隠れ層で最も使われる
Softmax	0〜1（合計1）	複数の出力をすべて足すと1になる。確率分布に変換	多クラス分類の出力層

⚠️ DS検定での出題ポイント
「隠れ層でよく使われる活性化関数は？」→ ReLU
「二値分類の出力層で使われるのは？」→ シグモイド
「多クラス分類の出力層で使われるのは？」→ Softmax
この3パターンは確実に覚えておきましょう。

¥2,750 （2026/04/03 19:16時点 | Amazon調べ）

データサイエンティスト検定［リテラシーレベル］［徹底解説+良質問題+模試（PDF）］　最強の合格テキスト (まっすぐ合格シリーズ)

ポチップ

学習の仕組み｜誤差逆伝播法と勾配降下法

ニューラルネットワークの「学習」とは、予測のズレ（誤差）を小さくするように重みを調整する作業です。このために使われる2つの仕組みを押さえましょう。

① 損失関数｜「どれくらいズレているか」を測る

まず、モデルの予測と正解がどれくらいズレているかを数値化する関数が損失関数（Loss Function）です。損失が小さいほど予測が正確です。

損失関数	用途	イメージ
平均二乗誤差（MSE）	回帰タスク	「予測と実際の数値のズレの二乗」の平均
交差エントロピー	分類タスク	「正解ラベルの確率をどれだけ高くできたか」の指標

② 勾配降下法｜「坂を下って谷底（最小値）を目指す」

損失を最小にする重みを見つけるために使われるのが勾配降下法（Gradient Descent）です。

💡 たとえ話：「目隠しで山を下りる」
あなたは目隠しをされて山の中腹に立っています。谷底（=損失が最小の場所）に着きたいのですが、景色が見えません。頼れるのは足元の傾き（=勾配）だけです。

「右足のほうが低い→右に一歩進む」を繰り返すと、やがて谷底にたどり着きます。この「足元の傾きを調べて、傾きが下がる方向に一歩進む」を繰り返すのが勾配降下法です。

一歩の大きさを「学習率（Learning Rate）」と呼びます。大きすぎると谷底を飛び越えてしまい、小さすぎると到着に時間がかかります。

③ 誤差逆伝播法（バックプロパゲーション）｜「犯人を辿る」

勾配降下法で重みを更新するには「各重みが損失にどれだけ影響しているか」を知る必要があります。この情報を出力層から入力層に向かって逆方向に伝えるのが誤差逆伝播法です。

💡 たとえ話：「料理が不味かった原因を辿る」
完成した料理（出力）がまずかったとします。「なぜまずいのか？」を逆方向にたどります。

「味付け工程が悪い？」→「いや、下ごしらえの塩分が多かった？」→「そもそも素材選びが間違っていた？」

このように、最終結果の「ズレ」を出力層から入力層に向かって各層の「責任の重さ」を計算していくのが誤差逆伝播法です。責任の重さがわかれば、そこの重みを重点的に修正できます。

📥

入力

→ 順伝播 →

⚙️

隠れ層

→ 順伝播 →

📤

出力（予測）

→ 損失計算

← ← ← 誤差逆伝播（重みの責任を逆方向に計算）← ← ←

勾配消失問題｜深い層の学習が進まなくなる理由

層が深くなると、誤差逆伝播で勾配が伝わる際に勾配がどんどん小さくなって、入力層に近い層がほとんど学習できなくなる現象が起きます。これが勾配消失問題（Vanishing Gradient Problem）です。

💡 たとえ話：「伝言ゲームの声がどんどん小さくなる」
10人で伝言ゲームをしているとします。最後の人（出力層）が「答えが違った！」とフィードバックします。しかし声のボリュームが伝わるたびに半分ずつ小さくなるとしたら、最初の人（入力層）にはほぼ聞こえません。

結果、最初の数人は「自分は何を直せばいいのかわからない」となり、学習が止まってしまいます。これが勾配消失です。

勾配消失を解決する主な方法

解決策	どう解決するか
ReLU活性化関数	正の値の領域で勾配が常に1なので、層が深くても勾配が消えにくい
バッチ正規化	各層の出力を正規化して、学習を安定させる
残差接続（ResNet）	入力を数層飛ばして直接つなぐ「ショートカット」を追加し、勾配が途切れないようにする
LSTM（後述）	RNNにおける勾配消失を「ゲート機構」で解決

⚠️ DS検定での出題ポイント
「勾配消失問題とは何か？」「ReLUが広く使われる理由は？」「LSTMがRNNの勾配消失を解決する仕組みは？」が定番の問いです。「深い層ほど入力側の勾配が小さくなり学習が進まない」という本質を覚えておけば対応できます。

深層学習アーキテクチャの全体マップ｜CNN・RNN・Transformer

ここまでで深層学習の「共通の基礎」を押さえました。ここからは、データの種類によって使い分ける3つの代表的なアーキテクチャを詳しく見ていきます。DS検定で最も重要な部分です。

アーキテクチャ	得意なデータ	ひとこと特徴	代表的な応用
CNN	画像・空間データ	「小さな窓」でスライドしながら局所的な特徴を抽出する	画像分類、物体検出、顔認識、医療画像診断
RNN / LSTM	時系列・系列データ	「前の情報を記憶」しながら順番に処理する	株価予測、音声認識、機械翻訳（旧世代）
Transformer	テキスト・言語（画像にも拡張）	「すべての単語を同時に」見て関連性を計算する（Self-Attention）	ChatGPT、BERT、画像生成AI、ViT

🖼️

CNN

「空間の中の特徴」を捉える
（画像のどこに何がある？）

⏱️

RNN / LSTM

「時間の中の特徴」を捉える
（前に何が起きた？）

🔗

Transformer

「すべての関係性」を捉える
（どの単語とどの単語が関連？）

それぞれを詳しく見ていきましょう。

¥4,290 （2026/04/03 19:17時点 | Amazon調べ）

最短突破データサイエンティスト検定（リテラシーレベル）公式リファレンスブック第3版

ポチップ

CNN（畳み込みニューラルネットワーク）｜画像を「部分」から理解する

CNN（Convolutional Neural Network）は、画像認識で圧倒的な性能を発揮するアーキテクチャです。人間が画像を見るとき、「全体を一度に見る」のではなく「部分的な特徴（エッジ、色、形）を組み合わせて認識する」ように、CNNも画像を局所的に処理します。

CNNの核心：畳み込み（Convolution）とは？

💡 たとえ話：「虫眼鏡で新聞を読む」
大きな新聞の写真を理解したいとします。全体を一度に見るのは大変なので、小さな虫眼鏡（＝フィルター/カーネル）を使って、左上から右下へ少しずつスライドさせながら見ます。

虫眼鏡の形によって見えるものが違います。「縦線を見つける虫眼鏡」「横線を見つける虫眼鏡」「丸い形を見つける虫眼鏡」など、何種類もの虫眼鏡を使い分けることで、画像のさまざまな特徴を抽出します。

この「虫眼鏡を画像の上でスライドさせる操作」が畳み込みです。虫眼鏡の中身（数字の組み合わせ）がフィルター（カーネル）です。

プーリング（Pooling）｜情報を圧縮する

畳み込みの後に行われるのがプーリングです。特徴マップを小さくする（ダウンサンプリング）操作で、計算量を減らし、位置のズレに強くなります。

💡 たとえ話：「写真をサムネイルにする」
高解像度の写真（4000×3000ピクセル）を、スマホのアルバム一覧用に小さなサムネイル（200×150ピクセル）にするようなものです。細かいディテールは失われますが、「猫の写真か、風景の写真か」はサムネイルでも十分わかる。重要な特徴は残しつつ、データサイズを圧縮します。

プーリングの種類	やること
Maxプーリング	小領域の中から最大値を選ぶ。最も目立つ特徴を残す。最もよく使われる
Averageプーリング	小領域の平均値を取る。全体的な特徴を残す

CNNの全体フロー

🖼️

入力画像

→

🔍

畳み込み層

特徴を検出

→

📉

プーリング層

圧縮

→

🔄

繰り返し

（複数回）

→

🧠

全結合層

最終判定

→

🏷️

出力

「犬」95%

⚠️ DS検定での出題ポイント
「畳み込み層の役割は？」→ 局所的な特徴を抽出する
「プーリング層の役割は？」→ 特徴マップを圧縮し、位置のズレに強くする
「CNNが得意なデータは？」→ 画像・空間的な構造を持つデータ
「CNNの代表的なモデルは？」→ LeNet、AlexNet、VGG、ResNet、GoogLeNet

RNN（再帰型ニューラルネットワーク）｜「前の情報を記憶する」ネットワーク

RNN（Recurrent Neural Network）は、系列データ（順番に並んだデータ）を扱うためのアーキテクチャです。テキスト、音声、株価、センサーデータなど、「時間の順序」や「前後の文脈」が重要なデータに使われます。

RNNの核心：「前の出力を次の入力に渡す」ループ構造

💡 たとえ話：「小説を1ページずつ読む人」
あなたが小説を読んでいるとします。今読んでいるページの内容は、前のページまでの記憶があって初めて理解できます。「彼」が誰を指すのか、なぜこの場面で登場人物が泣いているのか、すべて前のページの文脈に依存しています。

RNNも同じです。単語を1つずつ読みながら、前の単語の処理結果（隠れ状態）を次のステップに渡すことで、文脈を「記憶」しています。

「私」

t=1

→記憶を渡す→

「は」

t=2

→記憶を渡す→

「猫」

t=3

→記憶を渡す→

「が」

t=4

→記憶を渡す→

「好き」

予測！

RNNの弱点：長期記憶が苦手（勾配消失の再来）

RNNはループ構造を「時間方向に展開」して誤差逆伝播を行います（BPTT: Backpropagation Through Time）。しかし、系列が長くなると最初のほうの情報が失われてしまうという問題が起きます。先ほどの「伝言ゲームの声が小さくなる」問題と同じです。

💡 たとえ話
小説の300ページ目を読んでいるとき、5ページ目の伏線を覚えていられますか？人間でも難しいですが、RNNはもっと苦手です。50ステップ前の情報はほぼ消えてしまいます。

LSTM（Long Short-Term Memory）｜「メモ帳付きRNN」

RNNの「長期記憶が苦手」問題を解決するために登場したのがLSTMです。LSTMは通常のRNNに「セル状態（Cell State）」というメモ帳と、3つのゲート（門）を追加しています。

ゲート名	役割	たとえ話
忘却ゲート	古い記憶の中から不要な情報を捨てる	「前の章の登場人物名はもう忘れていい」
入力ゲート	新しい情報の中から重要な情報をメモ帳に書き込む	「この新キャラの名前は重要！メモしておこう」
出力ゲート	メモ帳の情報の中から今必要な分だけ出力する	「この場面で必要なのは犯人の名前だけ。他のメモは今は出さない」

💡 LSTMの本質を一言で
LSTMは「何を覚えて、何を忘れて、何を出力するか」を学習するネットワークです。ゲートの開閉は学習によって自動的に最適化されます。これにより、長い系列でも重要な情報を保持できるようになりました。

GRU（Gated Recurrent Unit）｜LSTMの軽量版

GRUは、LSTMのゲートを3つから2つ（更新ゲート・リセットゲート）に簡略化したモデルです。性能はLSTMとほぼ同等ですが、パラメータが少なく計算が速いのがメリットです。DS検定では「GRUはLSTMの簡略版」と覚えておけば十分です。

⚠️ DS検定での出題ポイント
「RNNが得意なデータは？」→ 時系列・系列データ
「RNNの弱点は？」→ 長期依存関係を学習できない（勾配消失）
「LSTMがRNNの弱点を解決する仕組みは？」→ ゲート機構（忘却・入力・出力ゲート）でセル状態を制御
「GRUとLSTMの違いは？」→ GRUはゲート数が少ない簡略版

¥2,860 （2026/04/03 19:18時点 | Amazon調べ）