Eksploracja Danych w Diagnostyce Obrazowej – podsumowanie

Niniejszy wpis będzie próbą zwięzłego podsumowania bardzo ciekawego – w mojej ocenie – artykułu znalezionego na stronie http://www.dataminingcasestudies.com. Pełny artykuł w j. angielskim dostępny jest tutaj.

Artykuł ten nosi tytuł „Eksploracja Danych w Diagnostyce Obrazowej”  (ang. „Mining Medical Images”) i traktuje o wyzwaniach związanych z eksploracją danych na podstawie obrazów uzyskanych w drodze obrazowania medycznego. Implementacja skutecznych algorytmów w tej dziedzinie umożliwić ma stworzenie bardziej dokładnych systemów Komputerowego Wspomagania Diagnozy (ang. CAD – Computer Aided Diagnosis).

Czytaj dalej Eksploracja Danych w Diagnostyce Obrazowej – podsumowanie

Data Mining po polsku ?

flaga_pl

Wiadomo – Polacy nie gęsi, język swój mają. A skoro mają, to i używać go powinni. Nie jest to jednak takie proste w dziedzinie IT, która opanowana jest przez kraje anglosaskie i która naszpikowana jest angielskimi nazwami. Tłumaczenia bywają karkołomne (przytoczę tutaj żartobliwe międzymordzie) i znalezienie takiego, które i brzmi dobrze, i oddaje istotę rzeczy nie jest proste.

Czytaj dalej Data Mining po polsku ?

Perełki eksploracji danych – entropia a domyślne wartości atrybutów

Analizując zbiór danych nie zawsze posiadamy określone wartości dla wszystkich atrybutów. Często musimy radzić sobie z lukami oraz pewnymi brakami, a także z przekłamaniami – o czym nieco później. W przypadku brakujących wartości możemy chcieć je zastąpić wartościami domyślnymi.
Słowo „domyślnymi” jest tutaj kluczem. Przykładowo, analizując zbiór danych reprezentujący zawartość koszyków sklepowych klientów sieci supermarketów, widząc w owym koszyku „zupkę chińską” oraz czteropak przecenionego piwa domyślamy się, że klient jest raczej zaciskającym pasa studentem niż rozrzutnym milionerem. Analizując zakupy klientów salonu z luksusowymi limuzynami moglibyśmy przyjąć dokładnie odwrotne założenie. Innymi słowy, domyślnie przyjmujemy wartość o najniższej niesionej informacji – jeśli to możliwe oraz wskazane w danym przypadku.

Tyle teorii, teraz praktyka.

Eksplorując dane klientów jednej z firm usługowych (a raczej wstępnie zapoznając się z nimi) napotkaliśmy na pewne zjawisko. Objawiało się ono nadreprezentacją w naszym zbiorze danych 46-cio latków. Wymiar tego fenomenu przedstawia poniższy histogram wieku klientów.

Czytaj dalej Perełki eksploracji danych – entropia a domyślne wartości atrybutów