【E資格対策】機械学習の課題

2026-02-13

バイアスは, モデルの予測が真の値からどの程度外れているかを示す値である. 高バイアスのモデルは, 訓練データに対して適合度が低く, データのパターンを十分に学習できていないため, 過少適合(underfitting)の状態であると言える.

バリアンス

バリアンスは, モデルの予測がどの程度変動するかを測定するもので, 異なる訓練データセットを使用してモデルを再訓練した際の予測の一貫性を示す. 高バリアンスのモデルは, 訓練データに対して過度に適合し, 新しいデータに対する汎化性能が低くなり, 過剰適合(overfitting)の状態であると言える.

ノイズ

ノイズは, 観測データ内のランダムな誤差や変動のことを指し, これは測定誤差やモデルが説明できないデータの複雑さなど, 様々な要因によって生じうる. モデルの訓練時においてノイズを含むデータを用いると, モデルがノイズに過度に適合してしまい, 汎化性能が低下する可能性がある.

訓練誤差・汎化誤差

訓練誤差

訓練誤差は, モデルが訓練データにどの程度適合しているかを示す指標である.

訓練誤差が小さいことは, モデルが訓練データを正確に学習していることを意味するが, 必ずしもいいことではない. モデルが訓練データに対して過剰適合し, 未知のデータに対する汎化能力を損なう可能性があるためである.

汎化誤差

汎化誤差は, モデルが未知のデータに対してどの程度適合しているかを示す指標であり, バイアス・バリアンス・ノイズの3つの要素から構成される. バイアスとバリアンスはトレードオフの関係にあるため, モデル構築時は両者が最も低くなるバランスを見つけることが重要である.

バイアス・バリアンス分解

データ集合を $D$ , 期待値を $\mathbb{E}$ , 損失関数を $L$ , 説明変数を $x$ , 真の値を $h(x)$ , 予測モデルを $y(x ; D)$ , 入力データの確率密度関数を $p(x)$ , 実データを $t$ とすると, 汎化誤差 $\mathbb{E}[L]$ は次のようにバイアス・バリアンス・ノイズの和に分解できる.

\begin{align*} \mathbb{E}[L] &= \iint \left\{ y(x ; D) - t \right\}^2 p(x, t) \mathrm{d}x \mathrm{d}t \\ & = \iint \left\{ (y(x) - h(x)) + (h(x) - t) \right\}^2 p(x, t) \mathrm{d}x \mathrm{d}t \\ & = \int \left\{ y(x) - h(x) \right\}^2 p(x) \mathrm{d}x + \iint \left\{ h(x) - t \right\}^2 p(x, t) \mathrm{d}x \mathrm{d}t \\ & \quad + 2 \iint \left\{ y(x) - h(x) \right\} \left\{ h(x) - t \right\} p(x, t) \mathrm{d}x \mathrm{d}t \tag{1} \end{align*}

第3項については

\begin{align*} & 2 \iint \left\{ y(x) - h(x) \right\} \left\{ h(x) - t \right\} p(x, t) \mathrm{d}x \mathrm{d}t \\ = \: & 2 \int \left[ \int \{ y(x) - h(x) \} \{ h(x) - t \} p(t|x) \mathrm{d}t \right] p(x) \mathrm{d}x \end{align*}

と分割され, 内側の積分は

\begin{align*} & \int \{ y(x) - h(x) \} \{ h(x) - t \} p(t|x) \mathrm{d}t \\ = \: & \{ y(x) - h(x) \} \int \{ h(x) - t \} p(t|x) \mathrm{d}t \\ = \: & \{ y(x) - h(x) \} \left( h(x) \int p(t|x) \mathrm{d}t - \int t p(t|x) \mathrm{d}t \right) \\ = \: & \{ y(x) - h(x) \} \left( h(x) - h(x) \right) \\ = \: & 0 \end{align*}

となるから, 第3項は $0$ となる. ここで, $\displaystyle \int p(t|x) \mathrm{d}t = 1, \: \int t p(t|x) \mathrm{d}t = h(x)$ に注意すること.

したがって, 式 $(1)$ は

\mathbb{E}[L] = \int \left\{ y(x) - h(x) \right\}^2 p(x) \mathrm{d}x + \iint \left\{ h(x) - t \right\}^2 p(x, t) \mathrm{d}x \mathrm{d}t \tag{2}

となり, 第2項はノイズに対応する.

続けて, モデルの誤差である第1項について, 学習データセット $D$ によるモデルの変動を考えるため, 期待値 $\mathbb{E}_{D \sim p}$ を導入すると, 次のように書ける.

(\text{モデルの誤差}) = \mathbb{E}_{D \sim p} \left[ \int \left\{ y(x) - h(x) \right\}^2 p(x) \mathrm{d}x \right]

ここで, モデルの予測平均 $\bar{y}(x) = \mathbb{E}_{D \sim p} \left[ y(x; D) \right]$ を用いると,

\begin{align*} & \mathbb{E}_{D \sim p} \left[ \int \left\{ y(x) - h(x) \right\}^2 p(x) \mathrm{d}x \right] \\ = \: & \int \mathbb{E}_{D \sim p} \left[ \left\{ (y(x) - \bar{y}(x)) + (\bar{y}(x) - h(x)) \right\}^2 \right] p(x) \mathrm{d}x \\ = \: & \int \mathbb{E}_{D \sim p} \left[ \left\{ y(x) - \bar{y}(x) \right\}^2 \right] p(x) \mathrm{d}x + \int \mathbb{E}_{D \sim p} \left[ \left\{ \bar{y}(x) - h(x) \right\}^2 \right] p(x) \mathrm{d}x \\ \: & \quad + \int \mathbb{E}_{D \sim p} \left[ 2 \left\{ y(x) - \bar{y}(x) \right\} \left\{ \bar{y}(x) - h(x) \right\} \right] p(x) \mathrm{d}x \\ = \: & \int \mathbb{E}_{D \sim p} \left[ \left\{ y(x) - \bar{y}(x) \right\}^2 \right] p(x) \mathrm{d}x + \int \left\{ \bar{y}(x) - h(x) \right\}^2 p(x) \mathrm{d}x \\ \: & \quad + \int 2 \left\{ \bar{y}(x) - h(x) \right\} \left\{ \mathbb{E}_{D \sim p} \left[ y(x) \right] - \bar{y}(x) \right\} p(x) \mathrm{d}x \\ = \: & \int \mathbb{E}_{D \sim p} \left[ \left\{ y(x) - \bar{y}(x) \right\}^2 \right] p(x) \mathrm{d}x + \int \left\{ \bar{y}(x) - h(x) \right\}^2 p(x) \mathrm{d}x \end{align*}

となる.

これを式 $(2)$ に代入すると, 汎化誤差 $\mathbb{E}[L]$ は次のようにバイアス・バリアンス・ノイズの和に分解される.

\begin{align*} \mathbb{E}[L] &= \underbrace{\int \left\{ \mathbb{E}_{D \sim p} \left[ y(x ; D) \right] - h(x) \right\}^2 \mathrm{d}x}_{(\text{Bias})^2} + \underbrace{\int \mathbb{E}_{D \sim p} \left[ \left\{ y(x ; D) - \mathbb{E}_{D \sim p} \left[ y(x ; D) \right] \right\}^2 \right] \mathrm{d}x}_{\text{Variance}} \\ & \quad + \underbrace{\iint \left\{ h(x) - t \right\}^2 p(x, t) \mathrm{d}x \mathrm{d}t}_{\text{Noise}} \end{align*}

バイアス・バリアンス分解においては, ある特定の $D$ ではなく, 全ての可能な $D$ に対するモデルの平均的な振る舞いを考慮するために, 期待値 $\mathbb{E}_{D \sim p}$ を導入している. ノイズ項や $\bar{y}(x), h(x)$ はデータセット $D$ に依存しないため, 期待値 $\mathbb{E}_{D \sim p}$ の影響を受けないことに注意する.

深層学習教科書ディープラーニング E資格（エンジニア）精選問題集

【E資格対策】機械学習の課題

バイアス・バリアンス・ノイズ

バイアス

バリアンス

ノイズ

訓練誤差・汎化誤差

訓練誤差

汎化誤差

バイアス・バリアンス分解

正則化

L1正則化

L2正則化

次元の呪い

参考文献

サイト内検索

プロフィール

目次

【E資格対策】機械学習の課題

サイト内検索

プロフィール

目次

関連記事