(4)k近傍法(k-NN)
k近傍法は、最も単純なアルゴリズムの一つ。特徴空間内で、分類対象のデータから距離的に近い(=類似している)k個の教師データの多数決によって、分類結果を決める手法。
k近傍法を採用する際は、kをいくつにするか、つまり分類対象のデータからの距離的に近いデータをいくつ使って多数決を行うかが重要となる。
kの数を変えると結果が変わってくる。
k近傍法では、分類対象データの教師データを用いて学習するわけではないため、学習コスト(学習にかかる計算量)が0であるのが特徴。
複雑な超平面を表現しやすく、比較的高い予測精度が出やすいことがメリットである。
学習コストは低い反面、予測時には毎回計算を行うため、データ量が増えると時間がかかってしまう欠点がある。
モデル構築時の引数n_neighborsで、予測の多数決に使うデータの個数を決める。
これが大きすぎると、参照するデータに幅が出てしまい、精度が低くなる可能性がある。
シンプルに機械学習を実践できる上、様々なモデルを簡単に比較できるのがscikit-learnの便利なところである。