分類モデルの評価

（１）正解率（Accuracy）

最もシンプルな評価基準は、正解率（Accuracy）である。

正解率＝正解した数（分子）／予測したデータ数（分母）

正解しやすいが、データに偏りがある場合は、この指標だけを結果とするのは危険である。

（２）適合率（Precision）と再現率（Recall）

データに偏りがある場合は、適合率（Precision）と再現率（Recall）を指標とするのが有効である。

１００通の受信メールで、うち９０通が通常メール１０通がスパムメールだっとして、メールがスパムか否かを予測するモデルを説明するのが上記２つ。

①適合率（Precision）

適合率（Precision）はモデルがスパムと予測したメールの内、実際にスパムだったメールの割合を示す。

適合率はスパムでないと予測しても、実際にはスパムだったという結果は、計算式に入らない。

②再現率（Recall）

再現率（Recall）とは、実際にスパムだったメールの内、モデルもスパムだと予測していた割合のこと。

正解ラベルがTrueのものの中で、正解率のこと。

適合率と再現率は、トレードオフの関係にあり、どちらを重視するかは、問題によって異なってくる。

見逃しが多かったとしても、正確な予測をしたければ、適合率を重視する。スパム有無を厳密判定する。

不正確が多くても見逃しを防ぎたい場合は、再現率を重視する。基準を緩めて、より多くのメールをスパムと判定する。

（３）F値

F値とは、適合率と再現率の調和平均のことで、式を用いる。適合率と再現率の両方がバランス良く、高くなれば、F値も高くなる。

関連記事