Eksploracja Danych w Diagnostyce Obrazowej – podsumowanie

Niniejszy wpis będzie próbą zwięzłego podsumowania bardzo ciekawego – w mojej ocenie – artykułu znalezionego na stronie http://www.dataminingcasestudies.com. Pełny artykuł w j. angielskim dostępny jest tutaj.

Artykuł ten nosi tytuł „Eksploracja Danych w Diagnostyce Obrazowej”  (ang. „Mining Medical Images”) i traktuje o wyzwaniach związanych z eksploracją danych na podstawie obrazów uzyskanych w drodze obrazowania medycznego. Implementacja skutecznych algorytmów w tej dziedzinie umożliwić ma stworzenie bardziej dokładnych systemów Komputerowego Wspomagania Diagnozy (ang. CAD – Computer Aided Diagnosis).

Sekcja 1 stanowi wprowadzenie do zagadnienia, zgrubnie opisuje rozwój obrazowania diagnostycznego oraz wprowadza do zagadnienia CAD.

Sekcja 2 opisuje rodzaje schorzeń, o których wykrywaniu traktuje niniejszy artykuł. Chodzi tu przede wszystkim o choroby nowotworowe płuc, piersi, okrężnicy, zator płucny oraz niewydolność serca. Jako główne problemy podana została m. in. konieczność minimalizowania fałszywych pozytywów (zwłaszcza przy raku płuc, w przypadku którego biopsja jest obarczona znacznym ryzykiem oraz – tak samo, jak w pozostałych przypadkach – kosztowna) oraz problem dokładności przy pracy z ruchomymi obrazami niskiej jakości (np. w przypadku określania frakcji wyrzutowej na podstawie obrazu z sonografu).

Sekcja 3 opisuje przebieg procesu CAD oraz algorytmy stworzone (i ulepszone) przez zespół w celu dostosowania ich do potrzeb badanych zagadnień.

Jednym z opisanych problemów był fakt, iż większość „standardowych” algorytmów eksploracji danych zakłada, że nie występuje korelacja pomiędzy poszczególnymi próbkami danych oraz, że są one o jednakowym rozkładzie (w statystyce określane jako i.i.d.). Jak się jednak okazuje, w dziedzinie analizy obrazów diagnostyki medycznej mamy do czynienia z silnie skorelowanymi próbkami (wiele analizowanych „kandydatów” pochodzi z jednego zdjęcia, być może nawet z tego samego obszaru na tym zdjęciu), a w samych zbiorach mamy znacznie więcej próbek negatywnych niż pozytywnych. W odpowiedzi na ten problem zespół stworzył szereg algorytmów „Uczenia Wielowystąpieniowego”  (ang. Multiple-Instance Learning), które w sposób szczególny traktują wystąpienia znajdujące się na niewielkim obszarze.

Kolejnym opisanym wyzwaniem był problem wyłuskania „kandydatów” (przykładowo – miejsc, które warto zbadać pod kątem występowania guzków) spośród zebranych obrazów diagnostycznych. Taka wstępna klasyfikacja powinna posiadać wrażliwość zbliżoną do 100% (idealnie stuprocentową) – kosztem dużej liczby fałszywych pozytywów. Problem fałszywych pozytywów miałby być rozwiązany poprzez stosowanie bardziej dokładnych, wyspecjalizowanych (i kosztownych obliczeniowo) klasyfikatorów.

Sekcja 4 zawiera podsumowanie wyników testów przeprowadzonych na wąskiej grupie radiologów. Testy polegały na określeniu zmiany skuteczności radiologów (z różnym doświadczeniem) bez wspomagania CAD, w porównaniu z diagnozą wspomaganą CAD. Należy tu zaznaczyć, że CAD był stosowany jako wsparcie dla radiologa – jako źródło dodatkowej opinii i nie miał on zastępować specjalisty w wydawaniu diagnozy (co z wielu względów byłoby niemądre i – na obecnym etapie rozwoju technologii – po prostu niemożliwe). Tak jak w przypadku wielu innych doświadczeń tego typu, rezultaty wskazały, że para człowiek-maszyna jest bardziej skuteczna niż sam człowiek lub sama maszyna. Autorzy opracowania przytoczyli ogólnie wyniki swoich testów, jednak – moim zdaniem – nie są one w pełni kompletne (np. pisano o „sensitivity” bez wzmianki o „fall-out” itp.).

Zachęcam do zapoznania się z całością – zarówno osoby zainteresowane zagadnieniem eksploracji danych, jak i osoby ze środowiska medycznego – gdyż przedstawiono w nim wiele nowatorskich technik, które mogą sprawdzić się również w innych niż CAD zagadnieniach.

Cały artykuł w oryginale – j. angielski – dostępny jest pod tym adresem – http://www.dataminingcasestudies.com/DMCS2009_DMCS-CAD-v10_3.pdf. Ilustracje zastosowane w niniejszym wpisie również pochodzą z w. w. opracowania i nie są dziełem autora wpisu.

Dodaj komentarz