【E資格対策】交差検証

2026-02-132026-02-15

E資格対策/検証集合/交差検証 E資格対策/ホールドアウト法 E資格対策/k-分割交差検証法

ホールドアウト法

元のデータセットを訓練データとテストデータに分割し, 機械学習のモデルの汎化性能を評価する手法である. 訓練データを用いてモデルを学習させ, テストデータを用いてその性能を評価する.

ホールドアウト法は計算コストが低いため, サンプルサイズが大規模なデータセットに対して適している.

データセットの分割はランダムに行われるため, 訓練データやテストデータが偏った内容となる可能性があり, モデルの学習や性能評価に影響を与える可能性がある. また, 利用可能なサンプルサイズが限られている場合, 訓練データまたはテストデータの量が不十分となり, これもモデルの学習や性能評価に影響を与える可能性がある.

k-分割交差検証法

データセットをランダムに $k$ 個に分割し, そのうちの $k-1$ 個を訓練データ, 残りの1個をテストデータとし, この組み合わせを $k$ 通り試みる手法である. 全 $k$ 回の評価結果を平均することで, モデルの汎化性能を全体的に評価することができる.

全てのデータが少なくとも1回はテストデータとして使用されるため, ホールドアウト法に比べてモデルの汎化性能の評価が安定する.

Gloup K-Fold CV : グループ番号を任意の配列で指定し, 同じグループ番号を持つデータは同じ側のデータ(訓練用 or テスト用)に割り当てるというデータの分割の制約を設けたk-分割交差検証法.
Stratified K-Fold CV : 特に分類問題で, 訓練データ及びテストデータの各クラス(正解ラベル)の分布が等しくなるように分割を行うk-分割交差検証法.