モデルの評価
手順
1.データセットを学習データとテストデータに分割する。
2.学習データを使ってモデルを学習させる。
3.テストデータを使って検証する。
1.は、学習データとテストデータの比率は多くの場合5:5~8:2ぐらいにする。
データが大量にあり、学習データの比率を大きくしてもテストデータに十分なデータを用意できるのであれば、9:1や99:1とすることもある。
データセットの分割にあたっては、ランダムに並び替えたデータから行う。ランダムサンプリングという。
ランダムサンプリングにする理由は、偏りのあるデータで学習データやテストデータとしてモデルを作ると精度が悪くなるため。
データセットの分割については、scikit_learnに便利な機能が良いされている。