機械学習でいう「次元」と「次元削減」まとめ(学習メモ)
1. 機械学習での「次元」とは?
機械学習でいう 次元 とは、1つのデータを表すために使う 数(特徴量)の個数 のこと。
例えば、身長だけなら1つの数字で表せるので1次元、身長と体重なら2つの数字なので2次元になる。
- 身長だけ:170 → 1次元
- 身長と体重:170,60 → 2次元
- 身長・体重・年齢:170,60,20 → 3次元
つまり「次元=特徴量の数」と考えると理解しやすい。
2. 次元削減とは何か?
次元削減 とは、特徴量の数(次元)を減らして、データを扱いやすくする方法のこと。
次元が大きくなると、学習が遅くなったり、過学習しやすくなったりするため、重要な情報を保ちながら次元を減らすことがある。
3. 「身長と体重」から身長だけにするのは次元削減?
身長と体重の2つの特徴量があるとき、
「体重は身長に比例する(相関が強い)ので、身長だけを使えばよい」
という考え方は 次元削減の考え方としてかなり近い。
ただし、このやり方は次元削減の中でも特に 特徴選択(Feature Selection) に近い。
特徴選択(Feature Selection)
- 元の特徴量の中から不要なものを捨てる方法
- 「身長・体重」→「身長だけ」みたいに、元の変数をそのまま残す
4. 次元削減にはもう1つの方法がある(特徴抽出)
次元削減には 特徴選択 とは別に、特徴抽出(Feature Extraction) という方法もある。
特徴抽出(Feature Extraction)
- 元の特徴量を組み合わせて、新しい特徴量を作る方法
- 例:身長と体重から BMI のような新しい指標を作る
- PCA(主成分分析)などが代表例
この場合、残る特徴量は「身長」や「体重」そのものではなく、
それらを合成した 新しい軸(新しい特徴量) になる。
5. 注意点:体重を捨てていいかは目的次第
体重は身長と関係があることが多いが、完全に同じ情報ではない。
同じ身長でも体重は生活習慣や体脂肪、筋肉量などで変わるため、体重には独自の情報が含まれる可能性がある。
そのため「身長だけにしてよいかどうか」は、
最終的に何を予測したいか(目的)によって決まる。
まとめ
- 次元とは「特徴量の数」
- 次元削減は「重要な情報を残しつつ特徴量を減らす」
- 身長と体重から身長だけにするのは「特徴選択」の例
- PCAなどで新しい特徴量を作る方法は「特徴抽出」
- どの特徴を捨てるかは目的次第で決める

コメント