【E資格対策】機械学習の分類

機械学習は, 目的としたタスクを機械的に達成できることを目標としており, データからパターンや規則性を学習するアルゴリズムや手法の総称である.

教師あり学習(Supervised Learning)

入力データとそれに対応する教師データ(正解)を用いてモデルを訓練する. 新しいデータに対して正確に予測ができるようなモデルを構築することを目的とする.

教師あり学習には, 主に以下の二つのタスクがある.

  • 回帰(Regression) : 連続値の予測を行うタスク. 例えば, 住宅価格の予測や株価の予測などがある.
  • 分類(Classification) : 離散値(カテゴリカルデータ)の予測を行うタスク. 例えば, メールのスパム分類や画像認識などがある. なお, ロジスティック回帰は分類タスクで用いられる手法である.

決定木は, 回帰と分類の両方のタスクに適用できるアルゴリズムである.

教師なし学習(Unsupervised Learning)

正解ラベルが付与されていないデータを入力データとしてモデルの学習を行う. データの構造やパターンを発見することを目的とする.

教師なし学習には, 主に以下のタスクがある.

  • クラスタリング(Clustering) : データの類似性に基づいてグループ化を行い, データの潜在的な構造やカテゴリを見つけるタスク. 代表的なアルゴリズムとして, k-means法や階層的クラスタリング, DBSCANなどがある.
  • 次元削減(Dimensionality Reduction) : 高次元データを情報損失を抑えながら低次元にマッピングし, データの可視化や冗長な情報, 計算コストの削減を行うタスク. 代表的なアルゴリズムとして, 主成分分析(PCA)やt-SNE, UMAPなどがある.
  • 異常検出(Anomaly Detection) : データセット内で全体の傾向から逸脱した異常値を検出するタスク. 代表的なアルゴリズムとして, One-Class SVM, Isolation Forest, Local Outlier Factor(LOF)などがある.

主成分分析は次元削減のアルゴリズムで, 線形なデータに対して有効である. 一方, 高次元空間上で遠くに位置するデータは, 次元削減後の低次元空間上で遠くに位置させることに焦点を当てており, 類似するデータの局所的な構造を保つのは難しい.

半教師あり学習(Semi-Supervised Learning)

教師ありデータと教師なしデータを組み合わせてモデルの学習を行う. ラベル付きデータが限られている場合や, ラベル付けが困難・高コストな場合に有効である.

主な手法は以下の三つである.

自己訓練(Self-Training)

ラベル付きデータセットを使用して学習を行い, ラベルなしデータセットを分類する. 分類結果のうち, 精度が特定の閾値を超えたものを新たにラベル付きデータセットとして追加し, そのデータセットで再度学習を行うことを繰り返す.

共訓練(Co-Training)

データセットを複数の異なるビューに分割し, それぞれのビューを利用して, ラベル付きデータセットを基に複数の教師付き分類器を生成する. 生成された分類器を用いることによって, ラベルなしデータセットの分類を行う.

Self-Traingと同様に, 分類結果のうち, 精度が特定の閾値を超えたものを新たにラベル付きデータセットとして追加し, そのデータセットで再度学習を行うことを繰り返す.

半教師ありクラスタリング

Self-TrainingやCo-Trainingは既存のセグメントにどれが適しているかを推定する手法であったが, 半教師ありクラスタリングは, ラベル付きデータとラベルなしデータの両方を使用して新たなグループを見つけ出す手法である.

参考文献