Czułość / wrażliwość i specyficzność klasyfikatora

Wrażliwość obliczamy wzorem TP / (TP + FN)

Wrażliwość określa ułamek zidentyfikowanych wystąpień klasy pozytywnej w całym zbiorze (ignoruje tzw. fałszywe pozytywy – czyli wystąpienia negatywne, które zostały zidentyfikowane jako pozytywne). Na wysokiej wrażliwości (w języku angielskim określanej zamiennie sensitivity lub recall) zależy nam w przypadkach, gdy strata wynikająca z niewykrycia pozytywnego (FN) wystąpienia – np. groźnej jednostki chorobowej – znacząco przeważa nad stratą wynikającą z zaklasyfikowania wystąpienia negatywnego jako pozytywne (FP) – np. przeprowadzenia specjalistycznego badania.

Specyficzność obliczamy wzorem TN / (FP + TN)

Specyficzność określa ułamek poprawnie zidentyfikowanych wystąpień klasy negatywnej. Można je interpretować jako dokładność, z jaką klasyfikator wyklucza wystąpienie określonej choroby u danego pacjenta.

Powyższe parametry odnoszą się do macierzy pomyłek danego klasyfikatora, która w formie liczbowej przedstawia prawidłowe i nieprawidłowe przypadki klasyfikacji oraz prawidłowe i nieprawidłowe przypadki niesklasyfikowania danego wystąpienia jako klasy.

 

Oryginalna klasa Przewidywana klasa
Pozytywna Negatywna
Pozytywna TP FN
Negatywna FP TN

Krzywa ROC

Krzywe ROC (ang. Receiver Operating Characteristics) używane są jako narzędzie pomagające w określeniu wydajności klasyfikatorów binarnych.

Krzywą ROC nazywamy wykres charakterystyczny dla danego klasyfikatora, przedstawiający wartości TP (ang. True Positives – Prawdziwe Pozytywy) oraz FP (ang. False Positives – Fałszywe Pozytywy) na osiach Y oraz X. Wykres taki zawiera wiele punktów dla różnych wartości progu decyzyjnego klasyfikatora (zwanego również punktem odcięcia), często przedstawianego jako kolor punktu.

Przykładową krzywą ROC wygenerowaną za pomocą programu Weka przedstawia poniższa ilustracja.

Na podstawie powyższego diagramu możemy stwierdzić, że badany klasyfikator jest bardziej dokładny niż przysłowiowy „rzut monetą”, którego – zgodnie z definicją – krzywa ROC powinna przybrać postać linii poziomej o nachyleniu 0,5, łączącej punkty (0,0) z (1,1).

roc

Pewną niedogodnością krzywych ROC jest to, że są kłopotliwe w przypadkach, gdy musimy porównać wydajność dwóch różnych klasyfikatorów. Z tego względu często używana jest wartość powierzchni pod wykresem krzywej ROC (widoczna również na powyższych ilustracjach). Aby wybrać bardziej dokładny klasyfikator wystarczy wybrać ten, którego pole pod krzywą ROC jest większe. Warto pamiętać, że pole pod wykresem ROC dla klasyfikatora losowego (50/50) jest równe 0,5, a klasyfikator o współczynniku poniżej tej wartości uznaje się za gorszy od losowego.