クラスタリングを行う主な目的は、データを自然なグループにまとめる(グルーピングする)ことである。
例えば、点在する点も大まかにいくつかのグループに括ることができる。
データの集まりをクラスタと呼ぶ。
クラスタを機械に認識させるのが、クラスタリングである。
教師なし学習では、正解ラベルが与えられない。
機械が出力したグルーピングの結果が正解か、不正解かは、判定しない。
グルーピングの基準は近くにあること。近くにあることを類似と呼び、類似度の考え方を人間が機械に教える必要がある。
例えば、アマゾンで、グルーピングした顧客リストの中で、グループ内でよく買われている商品をまだ購入していないリスト顧客がいるとすると、その人に対して、グループ内でよく売れている商品を提示することで、高倍率を高めるマーケティングが行える。