【E資格対策】機械学習の分類

2026-02-132026-02-15

機械学習は, 目的としたタスクを機械的に達成できることを目標としており, データからパターンや規則性を学習するアルゴリズムや手法の総称である.

教師あり学習(Supervised Learning)

入力データとそれに対応する教師データ(正解)を用いてモデルを訓練する. 新しいデータに対して正確に予測ができるようなモデルを構築することを目的とする.

教師あり学習には, 主に以下の二つのタスクがある.

回帰(Regression) : 連続値の予測を行うタスク. 例えば, 住宅価格の予測や株価の予測などがある.
分類(Classification) : 離散値(カテゴリカルデータ)の予測を行うタスク. 例えば, メールのスパム分類や画像認識などがある. なお, ロジスティック回帰は分類タスクで用いられる手法である.

決定木は, 回帰と分類の両方のタスクに適用できるアルゴリズムである.

正解ラベルが付与されていないデータを入力データとしてモデルの学習を行う. データの構造やパターンを発見することを目的とする.

教師なし学習には, 主に以下のタスクがある.

クラスタリング(Clustering) : データの類似性に基づいてグループ化を行い, データの潜在的な構造やカテゴリを見つけるタスク. 代表的なアルゴリズムとして, k-means法や階層的クラスタリング, DBSCANなどがある.
次元削減(Dimensionality Reduction) : 高次元データを情報損失を抑えながら低次元にマッピングし, データの可視化や冗長な情報, 計算コストの削減を行うタスク. 代表的なアルゴリズムとして, 主成分分析(PCA)やt-SNE, UMAPなどがある.
異常検出(Anomaly Detection) : データセット内で全体の傾向から逸脱した異常値を検出するタスク. 代表的なアルゴリズムとして, One-Class SVM, Isolation Forest, Local Outlier Factor(LOF)などがある.

主成分分析は次元削減のアルゴリズムで, 線形なデータに対して有効である. 一方, 高次元空間上で遠くに位置するデータは, 次元削減後の低次元空間上で遠くに位置させることに焦点を当てており, 類似するデータの局所的な構造を保つのは難しい.