wp_head(); ?>

機械学習 次元について

カテゴリ

機械学習でいう「次元」と「次元削減」まとめ(学習メモ)

1. 機械学習での「次元」とは?

機械学習でいう 次元 とは、1つのデータを表すために使う 数(特徴量)の個数 のこと。
例えば、身長だけなら1つの数字で表せるので1次元、身長と体重なら2つの数字なので2次元になる。

  • 身長だけ:170170170 → 1次元
  • 身長と体重:170,60170, 60170,60 → 2次元
  • 身長・体重・年齢:170,60,20170, 60, 20170,60,20 → 3次元

つまり「次元=特徴量の数」と考えると理解しやすい。


2. 次元削減とは何か?

次元削減 とは、特徴量の数(次元)を減らして、データを扱いやすくする方法のこと。
次元が大きくなると、学習が遅くなったり、過学習しやすくなったりするため、重要な情報を保ちながら次元を減らすことがある。


3. 「身長と体重」から身長だけにするのは次元削減?

身長と体重の2つの特徴量があるとき、

「体重は身長に比例する(相関が強い)ので、身長だけを使えばよい」

という考え方は 次元削減の考え方としてかなり近い

ただし、このやり方は次元削減の中でも特に 特徴選択(Feature Selection) に近い。

特徴選択(Feature Selection)

  • 元の特徴量の中から不要なものを捨てる方法
  • 「身長・体重」→「身長だけ」みたいに、元の変数をそのまま残す

4. 次元削減にはもう1つの方法がある(特徴抽出)

次元削減には 特徴選択 とは別に、特徴抽出(Feature Extraction) という方法もある。

特徴抽出(Feature Extraction)

  • 元の特徴量を組み合わせて、新しい特徴量を作る方法
  • 例:身長と体重から BMI のような新しい指標を作る
  • PCA(主成分分析)などが代表例

この場合、残る特徴量は「身長」や「体重」そのものではなく、
それらを合成した 新しい軸(新しい特徴量) になる。


5. 注意点:体重を捨てていいかは目的次第

体重は身長と関係があることが多いが、完全に同じ情報ではない。
同じ身長でも体重は生活習慣や体脂肪、筋肉量などで変わるため、体重には独自の情報が含まれる可能性がある。

そのため「身長だけにしてよいかどうか」は、
最終的に何を予測したいか(目的)によって決まる。


まとめ

  • 次元とは「特徴量の数」
  • 次元削減は「重要な情報を残しつつ特徴量を減らす」
  • 身長と体重から身長だけにするのは「特徴選択」の例
  • PCAなどで新しい特徴量を作る方法は「特徴抽出」
  • どの特徴を捨てるかは目的次第で決める

コメント

タイトルとURLをコピーしました