Tüdőembólia keresése (adat)bányászati módszerekkel

Beszélgetés Kardkovács Zsolttal, Tikk Domonkossal és Szidarovszky Ferenccel


Az Amerikai Számítástudományi Társaság által meghirdetett KDD (Tudás, Felfedezés és Adatbányászat) kupán a Budapesti Műszaki és Gazdaságtudományi Egyetem fiatal oktatói csapata (Kardkovács Zsolt, Tikk Domonkos, Szidarovszky Ferenc, Bálint Zoltán, valamint Biró György) egy I. díjat és egy II. helyezést szerzett meg két külön kategóriában. A résztvevőknek a Siemens által javasolt informatikai problémát kellett megoldaniuk. A kupán idén nem kevesebb, mint 18 ország 68 csapata képviseltette magát.

Honnan hallottak a versenyfelhívásról, hogyan kerültek kapcsolatba a kiírókkal?

Kardkovács Zsolt: Minden évben megrendezik ezt a versenyt, az idei volt a tizedik. Általában májusban hirdetik meg, és július elején kell leadni a megoldásokat. Tavaly is indultunk, egy keresőmotor szimulációját kellett elvégezni. Már akkor is sikerrel szerepeltünk: a kiírt három kategóriából két második helyezést szereztünk. Megadtak bizonyos kulcsszavakat, és ennek alapján kellett kategóriákba sorolni dokumentumokat. A keresést ugyanis úgy lehet könnyíteni, ha megpróbáljuk a keresőszót valamilyen kategóriához hozzárendelni, és ezen a kategórián belül keresünk. Többek közt a pontosságot, valamint a kreativitást pontozták. Idén figyeltük a versenyfelhívást, és a kiírást követő második napon már regisztráltunk is a versenyre.

Milyen egy átlagos versenyfeladat?

Tikk Domonkos: A feladat olyan probléma, melyet egy valós helyzet teremt: rendszerint nincs rá általános megoldás. Egy saját heurisztikát, eszköztárat fejlesztettünk ki, és ennek segítségével a kapott tesztadatokon végeztünk kísérleteket. A feladat alapvetően két részből állt. Az első egy hosszabb, kb. két hónapos modellépítési fázis, amihez tanuló adatokat kaptunk. A második a beadási fázis, erre most 24 óránk volt. Ekkor újabb adatokat kaptunk, amelyeken futtathattuk a modellünket. A következő két hétben az általunk adott eredményeket ellenőrizték és értékelték ki a szervezők. Július 20-án készítettük el az egynapos tesztet, és augusztus elején jött az értesítettek az eredményekről.

Szidarovszky Ferenc: A csapatok olyan terveket állítanak elő, melyek iparilag és kereskedelmileg is felhasználhatók, így megpróbálják minél jobban elejét venni a visszaélésnek. A verseny amerikai szemléletű: nagyon védik a versenyzők érdekeit, csak a nyertesek neve ismert.

Hogyan állt össze a BME-csapat?

T. D.: Zsolttal három, Ferivel egy éve dolgoztunk együtt. Még két tagja van a csoportnak, akik kisebb feladatokkal segítettek be: egy képfeldolgozással foglalkozó hallgató – hiszen a feladat képek numerikus adatainak feldolgozásáról szólt – és egy másik kollega, aki az egyik korábban kidolgozott osztályozómotor fejlesztésében segített. Ez most az általunk kidolgozott modell egyik komponense volt.

Orvosi témában alkalmaztak adatbányászati eszközöket. Pontosan mi volt a kiírás?

K. Zs.: Van egy tüdőröntgenező berendezés, amellyel háromdimenziós képet készítenek, és azt próbálják megállapítani, hogy van-e embólia a tüdőben. Jelenleg az orvosok saját maguk vizsgálják a képeket, de új, automatizált módszereket keresnek. A verseny érdekében a képeket számokká alakították, és ezekből kellett megállapítani, hogy a felvételek mutatnak-e tüdőembóliát.

Sz. F.: Azért érdemes foglalkozni ezzel a betegséggel, mert Amerikában ez a harmadik leggyakoribb természetes halálok, ráadásul olyan tünetekkel jár, melyek összekeverhetők sok más, kevésbé súlyos betegség tüneteivel. A röntgenvizsgálat is rengeteg pénzbe kerül – mind a gép, mind a felvétel –, és a felvételeket elemző orvosok is sok órát áldoznak a képek vizsgálására. Érmintázatok mentén keletkezik ez a betegség, így emberi szemmel nagyon nehéz észrevenni.

T. D.: Adatbányászatról akkor beszélünk, ha nagyon sok adat között kell különböző összefüggéseket felismerni, osztályozni, rendszerezni vagy javítani. Lényegében itt is hasonló feladatról volt szó. A tüdő-rendellenességet a diagnosztikai eszköz által előállított, különféle attribútumokkal leírt, egymással nem összefüggő térbeli egységek jellemzői alapján kellett detektálni. Egy képdarabnak tehát sok szám felelt meg. Úgy kell elképzelni a feladat első részét, hogy nagyon sok adatot kaptunk, amelyekről megmondták, hogy melyek tartoznak beteg tüdőrégiókhoz. A felvételek különböző helyen, többféle beállítással és több betegről készül(het)tek, és közölték velünk, hogy több megadott képi egység is tartozhatott ugyanahhoz a rendellenességhez. Sajnos, nem állt rendelkezésre minden adat egy rendellenességről. A képi információt 116, lényegében ismeretlen jelentéssel bíró, 0–1 intervallumra normalizált, zajos jellemzővel adták meg. 

A 24 órás feladat során újabb adatokat kaptunk a szervezőktől. Ezeken futtattunk az elemzőnket, és az eredményeinket (melyik adatsor tartozik „beteg”, illetve „nem beteg” tüdőrégióhoz) kellett visszaküldeni. Bizonyos feltételeknek meg kellett felelnünk, például megadták, hogy egy betegnél maximum hányszor lehet hibázni. Aki ezt túllépte, kizárták. A betegek további vizsgálatai is nagyon sokba kerülnek, így a biztosítónak is érdeke, hogy minél kevesebb pénzt kelljen költeni, miközben a beteg valószínűleg meggyógyul. 

 K. Zs.: Három kategóriát hirdettek meg, de mind a háromnak ugyanaz volt a gyökere: azonosítani kellett egy bizonyos jelenséget a kapott adatok alapján. Mivel a kiírásban is úgy szerepelt, hogy a harmadik probléma a terület Szent Grálja, erre nem akartunk energiát pazarolni. A harmadik kategóriában végül egyetlen egy csapat sem teljesítette a kiírás követelményeit, ugyanis itt teljes biztonsággal kellett felismerni az egészséges pácienseket, azaz nem tévedhetett úgy a program, hogy egy beteg embert egészségesnek diagnosztizált.

Hogyan épül fel az elkészített modell?

 T. D.: A feladat két egységből állt: először olyan modelleket kellett létrehoznunk, amelyek a rendelkezésre álló adatok segítségével képesek ismeretlen adatokról eldönteni, hogy tartalmaznak-e betegségre utaló jeleket vagy sem. A második egység során pedig ismeretlen adatokra kellett futtatni a modellünket.

K. Zs.: Mi két neurális hálóból és egy statisztikai modellből álló eszköztárral dolgoztunk. A statisztikai modellben egy Oracle-adatbázisba betöltött adatokat különböző aritmetikai eljárásoknak vetettünk alá. Ahogy említettük, normalizált, azaz 0 és 1 közé eső adatokat kaptunk, melyek a készülék beállításától is függtek. Abból az ötletből indultunk ki, hogy nézzük meg azokat a tipikus intervallumegyütteseket, melyekben betegségre utaló jeleket találunk Ez a rendszer olyan értelemben rossz, hogy a legrigorózusabb esetben 50 százlékos a pontossága.

Sz. F.: A modell másik eleme egy neuronhálózat. Ha a rendelkezésre álló adatok nem elégségesek, akkor a neuronháló képes olyan tendenciákat is figyelembe venni, melyeket az adatok a mögöttük álló világról hordoznak magukban. 

T. D.: A harmadik elemhez pedig egy már korábban épített szövegosztályozó motor adta az alapot. A szövegosztályozás során nagy mennyiségű szöveget kell bizonyos (megadott vagy ismeretlen) paraméterek alapján osztályokba sorolni. Ezt alakítottuk át úgy, hogy a képből kapott számsorokkal tudjon dolgozni. Sikerült úgy beállítani a modellt, hogy ne adjon gyorsan elhamarkodott választ, ráadásul ez a módszer nagyon gyorsan futott. 

Volt még egy olyan fázis, hogy az adott 116 jellemzőből megnézzük, melyik az, ami ténylegesen hatással van a kimenetre, az eredményre. Kiderült, hogy majdnem mindegyiknek van rá hatása, akad 3-4, ami elhanyagolható, viszont nem romlik nagyon az eredmény, ha csak 62 jellemzőt tartunk meg. Néhány programnál pedig a jellemzők száma jelentősen hat a futásidőre. A szövegosztályozó nem ilyen, így mind a két verziót (összes jellemző, 62 jellemző) teszteltük, és azt tapasztaltuk, hogy bizonyos esetekben kiugróan jó eredményt adott a 62 jellemzős változat, de ez nem volt általános. Végül mind a két modellt lefuttattuk a szervezőktől kapott tesztadatokra

K. Zs.: A legutolsó – s talán a legfontosabb lépés –, hogy a három módszer eredményeit (ami igazából négy eredménysort jelent) összesítenünk kellett, s erre alkottunk egy új eljárást. Mindegyik önálló megoldás aránylag nagy hibával dolgozik. A statisztikus módszer és a szövegosztályozó motor sok helyes találatot produkált, de túl sok hamisat is, míg a neurális hálóról azt tudtuk, hogy ha valakiről azt mondja, hogy beteg, akkor az nagy valószínűséggel az is, viszont ezt elég kevés esetben mondta.
Ha azonban az egyik módszer azt mondta valamire, hogy pozitív, de valójában nem volt az, akkor a többi módszerrel ezt ki lehetett szűrni. Hiába szavazott két módszer is arra, hogy ez betegség, nem tekintettük annak, ha volt olyan módszer, ami nagyon erős meggyőződéssel ellene szavazott.

Ez bevett módszer?

K. Zs.: A teljes találati lista legkonzertívabb esetben 67, legmegengedőbb esetben 242 elemből állt (51, illetve 98 helyes találattal a 156-ból), vagyis ennyi képegységre mondták a modelljeink, hogy betegségre utaló jeleket tartalmaznak. 17 olyan eset volt, amikor mind a négyen megszavaztak. Ez viszonylag kis része a teljes halmaznak, de ezek egyike sem volt tévedés. Három egyenlő szavazat esetén azt kellett megnézni, hogy mennyire tiltakozik a negyedik módszer, kettő esetén mennyire erős az a kettő szavazat a többi ellenében stb.

T. D.: El is neveztük parametrizált vétóval rendelkező szavazásos eljárásnak, ugyanis tudományos területen fontos nevet adni a gyereknek, hogy ne a „ZZ23-as eljárás”-ról beszéljünk. A szavazási eljárás az életben is jól működő dolog lenne: a demokráciában is a többség szavazata dönt. De ha be tudnánk vezetni az ellenszavazatokat is – azt, hányan tiltakoznak valaki ellen, miközben erősítenek valakit –, akkor optimális döntést tudnánk hozni. Nem feltétlenül az a jó jelölt, akit elég sokan támogatnak, hanem az, akit sokan támogatnak, és csak kevesen elleneznek. Ez ugyanígy érvényesül a mi modellünkben.

Meddig tartott a teszt?

K. Zs.: A tanulás során viszonylag hosszú idő, amíg beillesztjük az adatokat a fennálló modellbe, tehát a rendelkezésre álló eredmények (kimeneti adtok, vagyis "beteg", "nem beteg") alapján tanítjuk a rendszert, hogy minél több bemeneti adatról el tudja dönteni, tartalmaz-e betegsége utaló jeleket. Egy teljes futás két órát is eltartott. A tesztadatok kiértékelése a végső problémával már csak egy gombnyomás: az adatokat mindössze a programjaink által alkalmazott formátumra kellett átalakítani.

Sz. F.: A végső teszt során délután kezdtük el a munkát, hajnalig dolgoztunk Domonkossal, aztán átadtuk Zsoltnak, aki frissen és üdén foglalkozott vele tovább.

Megéri a munka a belefektetett időt? Lesznek ezután publikációs vagy ipari megvalósítási lehetőségek?

T. D.: Tavaly és az idén is majdnem a nulláról fejlesztettük ki azokat az elemeket, amelyekkel elindultunk. Egy kategorizáló motor már a rendelkezésünkre állt, de ezt is rá kellett hangolni a feladatra. Az egész rendszernek volt olyan része, amelyre egy hónap alatt építettünk fel modellt, és volt néhány embernapnyi olyan próbálkozás is, ami zsákutcába vezetett. Idén az első helyezetteket felkérik a szervezők, hogy egy neves folyóiratban publikálják a módszerüket. Remélem, az alkalmazás sem marad el. Meglepődnék azonban, ha Magyarországon sok lenne abból a  tüdőröntgen-készülékből, amely a versenyen használt felvételeket készítette; inkább az amerikai Siemens érdeklődhet a rendszerünk iránt. De kívánjuk a magyar orvostársadalomnak, hogy jusson hasonló műszerek birtokába.

Tavaly két második, idén egy első és egy második helyezés. Jövőre a két első lesz a cél?

T. D.: Sok függ a feladattól is. Tavaly úgy éreztem, szerencsénk volt, idén azonban jobb eredményt értünk el. Meglátjuk, mi lesz a jövő évi kiírás. Amikor elolvastuk az idei feladatokat, nem hittük, hogy bármilyen eredményt el fogunk érni: az eddigi kutatásainktól elég messze állt a feladat témája.

K. Zs.: Azt hiszem, hogy itt, a Műegyetemen – ideértve a hallgatókat és a kollegákat is – a kreativitással és az időráfordítással nem lesz baj: ha indulunk, akkor a felsőbb régiókban érhetünk el helyezést. Az, hogy elsők leszünk-e, nem csak rajtunk múlik. Idén a legjobbak közt nagyon kicsi volt a különbség. Eddig mi 1-2 százalékkal jobbak voltunk a mögöttünk lévőknél, de nem hiszem, hogy jobbak vagyunk bárkinél annyira, hogy biztosak legyünk az első helyben. Amit külföldön pénzzel meg erővel hozzá lehet tenni, azt itt sok lelkesedéssel lehet pótolni. Tavaly mi hárman vettünk részt a munkában, a győztes csapat pedig nyolc emberrel dolgozott.
 

Az interjút készítette Bacsárdi László és Dézsi János