【E資格対策】交差検証
ホールドアウト法
元のデータセットを訓練データとテストデータに分割し, 機械学習のモデルの汎化性能を評価する手法である. 訓練データを用いてモデルを学習させ, テストデータを用いてその性能を評価する.
ホールドアウト法は計算コストが低いため, サンプルサイズが大規模なデータセットに対して適している.
データセットの分割はランダムに行われるため, 訓練データやテストデータが偏った内容となる可能性があり, モデルの学習や性能評価に影響を与える可能性がある. また, 利用可能なサンプルサイズが限られている場合, 訓練データまたはテストデータの量が不十分となり, これもモデルの学習や性能評価に影響を与える可能性がある.
k-分割交差検証法
データセットをランダムに 個に分割し, そのうちの 個を訓練データ, 残りの1個をテストデータとし, この組み合わせを 通り試みる手法である. 全 回の評価結果を平均することで, モデルの汎化性能を全体的に評価することができる.
全てのデータが少なくとも1回はテストデータとして使用されるため, ホールドアウト法に比べてモデルの汎化性能の評価が安定する.
- Gloup K-Fold CV : グループ番号を任意の配列で指定し, 同じグループ番号を持つデータは同じ側のデータ(訓練用 or テスト用)に割り当てるというデータの分割の制約を設けたk-分割交差検証法.
- Stratified K-Fold CV : 特に分類問題で, 訓練データ及びテストデータの各クラス(正解ラベル)の分布が等しくなるように分割を行うk-分割交差検証法.





