モデルの評価

手順

1.データセットを学習データとテストデータに分割する。

2.学習データを使ってモデルを学習させる。

3.テストデータを使って検証する。

1.は、学習データとテストデータの比率は多くの場合5:5~8:2ぐらいにする。

データが大量にあり、学習データの比率を大きくしてもテストデータに十分なデータを用意できるのであれば、9:1や99:1とすることもある。

データセットの分割にあたっては、ランダムに並び替えたデータから行う。ランダムサンプリングという。

ランダムサンプリングにする理由は、偏りのあるデータで学習データやテストデータとしてモデルを作ると精度が悪くなるため。

データセットの分割については、scikit_learnに便利な機能が良いされている。