Docker i kontenery – marketingowy „hype” czy „real deal” ?

W dobie technokracji firmy z branży IT produkują więcej zabawek niż jesteśmy w stanie kupić, a tym bardziej użyć. Marketingowy „hype” przybiera na sile, a programiści – wiadomo – lubują się w nowych zabawkach. Rozróżnienie „real deal” od chwilowej mody może stanowić w naszej branży o życiu lub śmierci, a w każdym razie o powodzeniu lub fiasku naszego projektu.

Czym są kontenery?

Wyobraź sobie, że właśnie wynaleziono autobus. Do wczoraj każdy, kto chciał dojechać do pracy na określoną godzinę, musiał kupić sobie samochód. Dzięki temu zyskiwał mobilność, a po drodze do biura mógł zabrać ze do trzech lub czterech osób. Rozwiązanie wygodne, ale dość drogie. Co nam daje autobus? Mamy tylko jednego kierowcę i jeden pojazd, który jest w stanie pomieścić i dowieźć do pracy kilkadziesiąt osób. Żeby przetransportować tę samą liczbę osób potrzebowalibyśmy np. kilkunastu samochodów, w każdym z nich kierowcę; do tego korki, rachunki za paliwo itd.

Tym właśnie są kontenery w IT – sposobem na uzyskanie większej „gęstości” na serwerach. Jeden fizyczny serwer jest w stanie pomieścić więcej usług, przez co te stają się tańsze w utrzymaniu.

Containers Inception

Czytaj dalej Docker i kontenery – marketingowy „hype” czy „real deal” ?

Data Mining po polsku ?

flaga_pl

Wiadomo – Polacy nie gęsi, język swój mają. A skoro mają, to i używać go powinni. Nie jest to jednak takie proste w dziedzinie IT, która opanowana jest przez kraje anglosaskie i która naszpikowana jest angielskimi nazwami. Tłumaczenia bywają karkołomne (przytoczę tutaj żartobliwe międzymordzie) i znalezienie takiego, które i brzmi dobrze, i oddaje istotę rzeczy nie jest proste.

Czytaj dalej Data Mining po polsku ?

Czułość / wrażliwość i specyficzność klasyfikatora

Wrażliwość obliczamy wzorem TP / (TP + FN)

Wrażliwość określa ułamek zidentyfikowanych wystąpień klasy pozytywnej w całym zbiorze (ignoruje tzw. fałszywe pozytywy – czyli wystąpienia negatywne, które zostały zidentyfikowane jako pozytywne). Na wysokiej wrażliwości (w języku angielskim określanej zamiennie sensitivity lub recall) zależy nam w przypadkach, gdy strata wynikająca z niewykrycia pozytywnego (FN) wystąpienia – np. groźnej jednostki chorobowej – znacząco przeważa nad stratą wynikającą z zaklasyfikowania wystąpienia negatywnego jako pozytywne (FP) – np. przeprowadzenia specjalistycznego badania.

Specyficzność obliczamy wzorem TN / (FP + TN)

Specyficzność określa ułamek poprawnie zidentyfikowanych wystąpień klasy negatywnej. Można je interpretować jako dokładność, z jaką klasyfikator wyklucza wystąpienie określonej choroby u danego pacjenta.

Powyższe parametry odnoszą się do macierzy pomyłek danego klasyfikatora, która w formie liczbowej przedstawia prawidłowe i nieprawidłowe przypadki klasyfikacji oraz prawidłowe i nieprawidłowe przypadki niesklasyfikowania danego wystąpienia jako klasy.

 

Oryginalna klasa Przewidywana klasa
Pozytywna Negatywna
Pozytywna TP FN
Negatywna FP TN

Krzywa ROC

Krzywe ROC (ang. Receiver Operating Characteristics) używane są jako narzędzie pomagające w określeniu wydajności klasyfikatorów binarnych.

Krzywą ROC nazywamy wykres charakterystyczny dla danego klasyfikatora, przedstawiający wartości TP (ang. True Positives – Prawdziwe Pozytywy) oraz FP (ang. False Positives – Fałszywe Pozytywy) na osiach Y oraz X. Wykres taki zawiera wiele punktów dla różnych wartości progu decyzyjnego klasyfikatora (zwanego również punktem odcięcia), często przedstawianego jako kolor punktu.

Przykładową krzywą ROC wygenerowaną za pomocą programu Weka przedstawia poniższa ilustracja.

Na podstawie powyższego diagramu możemy stwierdzić, że badany klasyfikator jest bardziej dokładny niż przysłowiowy „rzut monetą”, którego – zgodnie z definicją – krzywa ROC powinna przybrać postać linii poziomej o nachyleniu 0,5, łączącej punkty (0,0) z (1,1).

roc

Pewną niedogodnością krzywych ROC jest to, że są kłopotliwe w przypadkach, gdy musimy porównać wydajność dwóch różnych klasyfikatorów. Z tego względu często używana jest wartość powierzchni pod wykresem krzywej ROC (widoczna również na powyższych ilustracjach). Aby wybrać bardziej dokładny klasyfikator wystarczy wybrać ten, którego pole pod krzywą ROC jest większe. Warto pamiętać, że pole pod wykresem ROC dla klasyfikatora losowego (50/50) jest równe 0,5, a klasyfikator o współczynniku poniżej tej wartości uznaje się za gorszy od losowego.