スケーリングとは、特徴量の尺度を揃えること。

各特徴量をスケーリングして、尺度を揃えることで、それぞれの係数の大小を比較できるようになる。

機械学習のアルゴリズムには、特徴量の尺度が揃っていなければ上手く動かないものがあるため、データの前処理としてもスケーリングは有効である。

スケーリングの代表的な手法は、標準化と正規化である。

データセット=学習データ、テストデータに分割する。

学習データをスケーリングして、そのスケーリングに使ったパラメータを用いて、テストデータをスケーリングすること。両方のデータをそれぞれ別々にスケーリングしてしまうとデータが揃わなくなるため。