機械学習次元について

機械学習でいう「次元」と「次元削減」まとめ（学習メモ）

機械学習でいう次元とは、1つのデータを表すために使う 数（特徴量）の個数 のこと。
例えば、身長だけなら1つの数字で表せるので1次元、身長と体重なら2つの数字なので2次元になる。

つまり「次元＝特徴量の数」と考えると理解しやすい。

次元削減 とは、特徴量の数（次元）を減らして、データを扱いやすくする方法のこと。
次元が大きくなると、学習が遅くなったり、過学習しやすくなったりするため、重要な情報を保ちながら次元を減らすことがある。

身長と体重の2つの特徴量があるとき、

「体重は身長に比例する（相関が強い）ので、身長だけを使えばよい」

という考え方は 次元削減の考え方としてかなり近い。

ただし、このやり方は次元削減の中でも特に 特徴選択（Feature Selection） に近い。

次元削減には 特徴選択 とは別に、特徴抽出（Feature Extraction） という方法もある。

この場合、残る特徴量は「身長」や「体重」そのものではなく、
それらを合成した 新しい軸（新しい特徴量） になる。

体重は身長と関係があることが多いが、完全に同じ情報ではない。
同じ身長でも体重は生活習慣や体脂肪、筋肉量などで変わるため、体重には独自の情報が含まれる可能性がある。

そのため「身長だけにしてよいかどうか」は、
最終的に何を予測したいか（目的）によって決まる。