【E資格対策】深層モデルのための正則化

2026-02-13

L1正則化とL2正則化

L1正則化は, 損失関数に各成分の絶対値の和(L1ノルム)を加えることでm 重みを原点に近づける手法であり, ラッソ回帰とも呼ばれる. いくつかのパラメータを $0$ にするスパース表現を実現するので, ゼロの要素と非ゼロの要素で明確に区別でき, 特徴量選択などに有効である.

L2正則化は, 損失関数に各成分の二乗和(L2ノルム)を加えることで重みを原点に近づける手法であり, リッジ回帰(ティフォノフ正規化)とも呼ばれる. 一般的な機械学習ではweight decay(重み減衰)としても知られる.

一定の確率でネットワークの隠れ層のノードを無効にすることで, 過剰適合を抑制する手法.

訓練時はユニットを確率的に無効にすることで, 多くのサブネットワークを作成して学習する. 具体的には, ミニバッチごとにネットワークの入力と隠れユニットごとに独立に適用する二値マスクを無作為にサンプリングする. このとき, 各モデルの学習は1ステップだけ行い, パラメータは各モデルで共有される.

一方, 推論時は全てのユニットを使用したネットワークで推論を行う. 各ユニットからの出力に係る重みに, 確率的に生成されるマスクベクトル $\bm{\mu}$ の確率分布 $p(\bm{\mu})$ を掛けたものを新たな重みとすることで, 1回の計算で全体の予測結果を近似する.

一定の確率でネットワークを断ち切る(重み行列の要素をランダムに $0$ にする)ことで, 過剰適合を抑制する手法.

推論時には無効化する.

モデルの学習時, 訓練誤差は時間と共に減少するものの検証誤差が再び増加してしまうことがある. これを防ぐために, 検証誤差が前のステップから改善しなかった回数が一定の閾値を超えた場合に学習を停止する手法を早期終了と呼ぶ.

学習率は小さすぎると学習が進まない, または鞍点で停滞する可能性がある一方, 大きすぎると学習が極焦点に到達できなくなる可能性がある.

また, バッチサイズは小さいと初期段階の学習速度が速くなる一方, 大きいと最終的な精度が向上する傾向がある. 一般に, 小さなバッチサイズほど計算時間が増加する.