Krzywa ROC

Krzywe ROC (ang. Receiver Operating Characteristics) używane są jako narzędzie pomagające w określeniu wydajności klasyfikatorów binarnych.

Krzywą ROC nazywamy wykres charakterystyczny dla danego klasyfikatora, przedstawiający wartości TP (ang. True Positives – Prawdziwe Pozytywy) oraz FP (ang. False Positives – Fałszywe Pozytywy) na osiach Y oraz X. Wykres taki zawiera wiele punktów dla różnych wartości progu decyzyjnego klasyfikatora (zwanego również punktem odcięcia), często przedstawianego jako kolor punktu.

Przykładową krzywą ROC wygenerowaną za pomocą programu Weka przedstawia poniższa ilustracja.

Na podstawie powyższego diagramu możemy stwierdzić, że badany klasyfikator jest bardziej dokładny niż przysłowiowy „rzut monetą”, którego – zgodnie z definicją – krzywa ROC powinna przybrać postać linii poziomej o nachyleniu 0,5, łączącej punkty (0,0) z (1,1).

roc

Pewną niedogodnością krzywych ROC jest to, że są kłopotliwe w przypadkach, gdy musimy porównać wydajność dwóch różnych klasyfikatorów. Z tego względu często używana jest wartość powierzchni pod wykresem krzywej ROC (widoczna również na powyższych ilustracjach). Aby wybrać bardziej dokładny klasyfikator wystarczy wybrać ten, którego pole pod krzywą ROC jest większe. Warto pamiętać, że pole pod wykresem ROC dla klasyfikatora losowego (50/50) jest równe 0,5, a klasyfikator o współczynniku poniżej tej wartości uznaje się za gorszy od losowego.