(2)決定木

決定木は、説明変数に着目して、ifによる分岐を連続させ、それぞれの閾値を境にデータを分割することで、データを分類する。

メリットは、一つ一つの説明変数が結果に対して、どの程度影響を与えているかがわかりやすく、なぜその結果になったのか、理由を理解しやすいこと。

不得手は、線形分離可能なデータである。また、過学習しやすいデメリットがある。

モデル構築時の引数max_depthで、木の深さ(どこまで深く、何層まで分岐させるか)を指定する。

この指定値がないと、教師データの分類がほぼ終了するまでデータが細分化され、汎化が低いモデルになってしまう。