(4)評価と類似度

クラスタリングは教師なし学習であるため、性能の評価が難しい。

うまくグルーピングできているかどうかを推し量るのが、類似度である。

特徴量の類似度に基づいてデータをグルーピングするのがクラスタリングである。

類似しているとは、距離が近いことを意味し、二乗の総和(またはその平方根)を算出し、それが小さければ小さいほどクラスタ内の点が近くに寄せ集まっていることを意味する。

クラスタリングが上手く行われていると評価できる。