Data Mining po polsku ?

flaga_pl

Wiadomo – Polacy nie gęsi, język swój mają. A skoro mają, to i używać go powinni. Nie jest to jednak takie proste w dziedzinie IT, która opanowana jest przez kraje anglosaskie i która naszpikowana jest angielskimi nazwami. Tłumaczenia bywają karkołomne (przytoczę tutaj żartobliwe międzymordzie) i znalezienie takiego, które i brzmi dobrze, i oddaje istotę rzeczy nie jest proste.

Czytaj dalej Data Mining po polsku ?

Czego oczy nie widzą …. czyli błąd przeżywalności

World War II era American bomber

W dzisiejszym poście chciałbym przytoczyć dwa przypadki prezentujące tzw. „błąd przeżywalności” (ang. survivorship bias). Z błędem tym możemy mieć do czynienia jeśli oprzemy swój model decyzyjny na analizie wyłącznie grupy, która w jakimś sensie „przetrwała” dane wydarzenie / eksperyment (moim zdaniem słowa „przetrwanie” nie należy rozumieć dosłownie, jednak w przytoczonych przypadkach chodzi właśnie o fizyczne przeżycie).

Dzisiaj tematyka wojskowa….

Czytaj dalej Czego oczy nie widzą …. czyli błąd przeżywalności

Perełki eksploracji danych – entropia a domyślne wartości atrybutów

Analizując zbiór danych nie zawsze posiadamy określone wartości dla wszystkich atrybutów. Często musimy radzić sobie z lukami oraz pewnymi brakami, a także z przekłamaniami – o czym nieco później. W przypadku brakujących wartości możemy chcieć je zastąpić wartościami domyślnymi.
Słowo „domyślnymi” jest tutaj kluczem. Przykładowo, analizując zbiór danych reprezentujący zawartość koszyków sklepowych klientów sieci supermarketów, widząc w owym koszyku „zupkę chińską” oraz czteropak przecenionego piwa domyślamy się, że klient jest raczej zaciskającym pasa studentem niż rozrzutnym milionerem. Analizując zakupy klientów salonu z luksusowymi limuzynami moglibyśmy przyjąć dokładnie odwrotne założenie. Innymi słowy, domyślnie przyjmujemy wartość o najniższej niesionej informacji – jeśli to możliwe oraz wskazane w danym przypadku.

Tyle teorii, teraz praktyka.

Eksplorując dane klientów jednej z firm usługowych (a raczej wstępnie zapoznając się z nimi) napotkaliśmy na pewne zjawisko. Objawiało się ono nadreprezentacją w naszym zbiorze danych 46-cio latków. Wymiar tego fenomenu przedstawia poniższy histogram wieku klientów.

Czytaj dalej Perełki eksploracji danych – entropia a domyślne wartości atrybutów