Terabyte, gigapixel, megaparszek
Beszélgetés Szalay Sándorral


Szalay A. Sándor (Alex Szalay) a Johns Hopkins Egyetem professzora, az amerikai virtuális obszervatórium irányítója. Szakterülete az elméleti asztrofizika, a galaxisok képződése. Az 1970-es években Marx György diplomamunkásaként kezdte el azokat a számításokat, amelyek nyomán korlátot állapítottak meg a neutrínó tömegére. Nem sokkal később a Panta Rhei együttes gitárosaként is híressé vált - nem csak fizikuskörökben. Az MTA levelező, az Amerikai Művészeti és Tudományos Akadémia rendes tagja; Alexander von Humboldt-díjas. Az utóbbi évek elismerései részben annak szólnak, hogy döntő szerepet játszik a Sloan Digitális Égboltfelmérés (a „Sloan”, SDSS) terabyte-os adatbázisának kiépítésében és fejlesztésében, a nagy csillagászati adatbázisok egységesítésében.

- A csillagászatban megkülönböztetik majd a Sloan előtti és a Sloan utáni korszakot - mondta néhány éve. Miért tekinthető mérföldkőnek az égbolttérképezés?

- A Sloan előtt a tipikus csillagászati megfigyelés abból állt, hogy a csillagászok odamentek egy távcsőhöz, vagy valamelyik nagy távcsövön kaptak egy időintervallumot, rögzítették az észleléseiket, a nyers adatokat hosszú hónapok munkájával gondosan „kipucolták”, és az eredményeikből írtak egy cikket. Általában volt egy hipotézisük és annak a tesztelésére gyűjtöttek speciális adatokat.

A Sloanról azt is szoktuk mondani, hogy „kozmikus genom projekt”: az egész égről általános térképet készítünk, ami annyival részletesebb és annyival jobban kalibrált, mint korábban bármi, hogy most már távcső nélkül is végezhetünk csillagászati elemzéseket, írhatunk cikkeket, csak az adatbázist kell „megfigyelnünk”. A Sloan adatbázisát használhatjuk távcsőként, mert annyi objektum és annyi részlet van benne, hogy a különböző analízisek csak egészen kis részét dolgozták fel eddig. Rengeteg felfedezésre kerülhet még sor, és most az adathalmaz elemzéséből születhetnek az új elméletek.

A cikkek hivatkozásai alapján egy csillagásztársaság minden évben sorrendbe állítja a világ leghasznosabb csillagászati eszközeit. Az utolsó négy évből háromszor a Sloan-projekt került az élre, a Hubble-űrteleszkópot, a Keck-teleszkópokat, a Subarut, a VLT-t - minden mást megelőzve.

- Sok múlhat a Sloan tudományos archívumán, amelyet ön fejleszt a csoportjával.

- Az adatokat valóban az archívumból keresik ki, és ha borzasztó rosszul működne, nyilván nem használnák.

- A terabyte-os adathalmaz kezelése nem tűnik hétköznapi feladatnak.

- Senki sem tudta, hogyan kell ekkora adatbázist felépíteni, mi is csak annyit tudtunk, hogy nagyon szeretnénk… 1992- ben néhány terabyte sokkal nagyobb problémát jelentett, mint ma. Amikor Jim Gray barátommal, aki a Microsoftnál dolgozott, elkezdtünk beszélgetni a feladatról, azt mondta: na, sorold fel azt a húsz legfontosabb kérdést, amelyekre az adatbázistól választ vársz. Ez kitűnő módszernek bizonyult: öt kérdés túl kevés, száz túl sok lett volna. Az elsőt nagyon könnyű volt megfogalmazni, de utána gondolkoznom kellett kicsit a kérdéseimen. És akkor mintha varázslat történt volna. Amikor a húsz kérdést fölírtuk a táblára, majd elkezdtük nézegetni, nyilvánvalóvá vált, hogyan kell elrendeznünk az adatokat. Az egész adathalmaz rendezése végül csak attól függött, hogy milyen tudományos kérdéseket akartunk feltenni. Az adatbázis első változatát ennek a húsz kérdésnek az alapján építettük meg. Utána minden olyan kérdést rögzítettünk, amelyet valaki feltett az adatbázisnak, és később kiválasztottunk további tizenötöt.

Elindítottunk egy kurzust, ahol az adatbázis használatát tanítottuk, és a résztvevőknek megmutattuk a harmincöt „mintakérdést”. Ebből kiválaszthatták a problémájukhoz legközelebb esőket, utána ezeket változtatgatták. A csillagászok nem tudták, hogyan lehet egy adatbázist használni, mert akkoriban ez nem volt szokás - más tudományágakban sem. Az embereket lépésről lépésre rá lehet vezetni arra, hogyan fogalmazzák meg jól a kérdéseiket az adatbázis nyelvén.

Végül a rendszer sokkal több lett egy „normális adatbázisnál”, mert rengeteg, csillagászati tudást felhasználó függvényt is beépítettünk. Például a vöröseltolódás alapján görbült térbeli koordináta-távolságokat kérdezhetünk le. Ezeket az értékeket korábban külön meg kellett határozni. Fotometrikus vöröseltolódásokat is lehet számolni.1 A felhasználók gyönyörűen előkészített, kalibrált, „polírozott” adatokat kapnak a rendszerből.

Korábban a csillagászatot sok különböző alterületre darabolták szét: voltak, akik röntgencsillagászattal foglalkoztak, mások infravörössel vagy ultraibolyával. Az optikai csillagászaton belül is külön tanulmányozták például a csillagfejlődést, a változócsillagokat, a galaxisfejlődést. Minden területen más szoftvereszközöket kellett használni. Az emberek 10-15 évet töltöttek el a programjaik fejlesztésével, hogy a nyers adatokból végre megkapják a kalibrált értékeket. Emiatt nagyon nehéz volt kilépni egy területről: aki optikai csillagászattal foglalkozott, az többnyire nem vetette össze az eredményeit a rádiócsillagászati adatokkal, mert túl nagy munka lett volna megtanulnia a hasonló számítási eszközök használatát a rádiócsillagászatban. De ha az optikai adatok már „fogyasztható állapotban” vannak, mert mi már minden „piszkos munkát” elvégeztünk, akkor csak a fizikai elveket kell tudni: egy rádiócsillagász is ki tudja húzni a Sloan-adatbázisból egy csomó objektum optikai adatait, és írhat egy cikket a közös rádió- és optikai tulajdonságaikról.

Egyszerre megnyíltak a csillagászat részterületei közötti határok.

- Mondana néhány példát a Sloanadatokból kibontakozó eredményekre?

- Amit reméltünk: nagyon nagy pontossággal meg tudjuk mérni az univerzum fluktuációs spektrumát, ebből pedig megmondhatjuk, milyen körülmények uralkodtak az ősrobbanáskor.

Ma már tudjuk, hogy az univerzumban óriási hanghullámok keletkeztek: a világegyetem úgy működött, mint egy rezonáns üreg, egy nagy dob. Egy adott pontban, kb. 300 ezer évvel az ősrobbanás után, a dob oszcillációi hirtelen megfagytak, és az akkori alakzatból indult el a galaxisok képződése. Most, amikor a Sloan adatai alapján egymillió galaxis térbeli eloszlását elemeztük, megtaláltuk a rezonanciafrekvenciákat: a fluktuációs spektrum tetején nagyon szépen látszik egy szinuszos moduláció, amely ezeknek a rezonanciafrekvenciáknak a lenyomata. (Akkor is észrevehetünk ilyen csomóvonalakat, amikor például homokkal beszórt dobot szólaltatunk meg.) A rezonanciáról tehát volt elképzelésünk, de nem reméltük, hogy az adataink a modulációt is megmutatják.

A galaktikus csillagászat egyik eredménye aztán mindannyiunkat meglepett. Tudjuk, hogy a csillagok színe nagyon jól korrelál az élettartamukkal és az összetételükkel. A Tejútrendszer csillageloszlását elemezve kis patakokat vagy folyókat találtak, amelyek a környezetbe nem illő csillagpopulációkat tartalmaznak. Az elején kettőt-hármat vettek észre, aztán finomították az adatbázis elemzését, és most huszonvalahánynál tartunk. A patakok annak a lenyomatai, hogy egyes törpegalaxisok összeütköztek a Tejútrendszerrel. Az árapályerők szétszakították a kis galaxisokat, és ahogy ezek beestek a Tejútrendszerbe, azonnal szétszakadtak. Az eltérő életkorú törpegalaxisokból érkező csillagokat az árapályerők szétkenték egy hosszú, szivar alakú képződménybe. Ezeket most sorban észrevesszük, és megfejthetjük, hány galaxissal ütközött a Tejútrendszer az elmúlt néhány milliárd év alatt. Az elemzést galaktikus archeológiának is nevezik, és szintén nagyon sokat mond a galaxisok kialakulásáról. Egyre inkább azt látjuk, hogy a nagy galaxisok sok kis galaxis egybemosódásából jöttek létre: a nagy galaxisok kannibál módjára megeszik a környékükön lévő kisebbeket - és ennek a lenyomata megjelenik a Tejútrendszeren.

- Elemzés közben tovább növelik az adatbázist?

- A Sloan-III az év vége felé indul, és már csak spektroszkópiai adatokat gyűjt: viszonylag távoli galaxisoknak vesszük fel a spektrumát. A Hawaii Egyetemmel együttműködve elkezdődött egy másik projekt is, a Pan- STARRS. Évente körülbelül egy petabyte nyers adatot szolgáltat, és az adatbázisa nagyjából hússzor akkora lesz, mint a Sloané. Ezen a héten [március végén] kezdett működni a távcső, úgyhogy szeptembertől töltjük az adatokat az adatbázisba: ez most a következő nagy feladat.

- Több adatbázis egyesítéséből formálódik a virtuális obszervatórium. Miben különbözik ez más nagy adatbázisoktól?

- Azt mondhatjuk, hogy a humán genom projekt vagy a CERN adatbázisai az emberi gén vagy a részecskefizika virtuális obszervatóriumai. A legtöbb tudományágban megfigyelhető, hogy - esetleg több száz ember egy évtizedes munkájával - építenek egy nagy műszert, ez óriási adattömeget termel, amit aztán betesznek egy adatbázisba. Az összes tudományos analízis az adatbázishoz fordul, tehát szétszakad a megfigyelés és az elemzés. Azelőtt ugyanaz az ember hajtotta végre a kísérletet, dolgozta fel és publikálta az adatait. Most egy nagy team gyűjti össze az adatokat, ezeket publikálja egy adatbázisban, és mindenki más onnan csípi föl az adatokat, az elemzés pedig csak ekkor kezdődik. Megfordult a folyamat sorrendje, ami szinte minden területen, már az anyagtudományban is kimutatható: elkezdtek olyan elektronmikroszkópot gyártani, amely egy felvétellel egybillió atomnak határozza meg a helyét és a méretét - olyan, mintha az anyagtudomány űrteleszkópja lenne.

Az alapvető feladatok minden adatbázisban ugyanazok: hozzáférhetővé kell tenni a polírozott, kalibrált adatokat, de a nyers adatokat is meg kell tartani, mert ha észreveszünk egy izgalmas, pici effektust, meg kell mutatnunk, hogy nem a processzálás során keletkezett. Ezért ha találunk valami érdekeset, akkor visszamegyünk egészen a nyers adatokig, és - esetleg kicsit másképp - újra elvégezzük az analízist, hogy bebizonyítsuk: valóban az univerzum tulajdonságait látjuk.

- Minél több az adat, annál nehezebb lehet kihámozni a fizikai jelenségeket.

- Amikor már sok-sok terabyte, sőt, lassan egy-két petabyte adatunk van, akkor mindazok a módszerek, algoritmusok, amelyek hagyományosan jól működtek, nem hatékonyak: nem lehet egyszerűen „nyers erővel” nekiesni az adatanalízisnek, hanem ki kell találni, hogyan csinálhatnánk okosabban. Új matematikai algoritmusokra lehet szükségünk, vagy úgy kell szortírozni az adatokat, hogy sokkal könnyebben bánhassunk velük. Ez teljesen új terület, és nagyon izgalmas, mert tudni kell hozzá a csillagászatot, a matematikát, a statisztikát, a számítástudományt.

- Talán már nem is interdiszciplináris tudományról van szó - hiszen egy-egy kutatónak kell sokféle tudást ötvöznie.

- Igen, új nevet is adtak neki: antediszciplináris tudománynak hívják. A következő generáció diákjait remélhetőleg már erre a „tudományelőttiségre” készítik fel az egyetemen.

Az „ante” egy új tudomány születése előtti forrongásra is utal, amely szintén nem korlátozódik a csillagászatra. Például az MIT és a Harvard összefogásával alapított Broad orvosbiológiai intézet igazgatója, Eric Lander molekuláris biológus, de matematikából, gráfelméletből szerzett PhD-t. Ő most a világ egyik vezető genomikai kutatója. Több tudományterületen is megjelennek azok az emberek, akik az elmúlt tíz év alatt „abszorbeálták” a különböző tudományágakat. A nagy áttörés a számítógépes algoritmusokból indult ki. Az e-business mintájára kezdünk e-science-ről beszélni, mert a számítógépek az adatfelvételtől kezdve az adatfeldolgozásig és -elemzésig alapvető szerepet játszanak a kutatásban.

- Ez az új tudományos megközelítés követelheti meg azoknak az új eszközöknek - berendezéseknek, eljárásoknak, elméleteknek - a kidolgozását, amelyekről korábban beszélt. Édesapja, a magyarországi magfizikai kutatások elindítójának szavait idézve úgy tűnik, ő is hasonló korszakot élt át: „A legnagyobb hatás, amit a Cavendish Laboratórium gyakorolt rám, nem is az volt, hogy megtanultam a nukleáris technikát. Hanem az, hogy ha az ember egy új területen kutat úttörőként, felszerelése jelentős részét saját kezével kell elkészítenie.” Debrecenben látta még nyomát ennek a munkának?

- Persze, mi a Kísérleti Fizikai Intézetben nőttünk föl. 14 éves koromig ott laktunk: a laboratórium és a lakás egybefolyt. Az ebédlőnkben még állt egy vegyi fülke, abban pedig egy centrifuga; rögtön az előszobánk mellett volt az előkészítő, ahol a mamám tartotta az elsőéves fizika-előadást, és délután ott állították össze a kísérleteket a másnap reggeli órára, mi pedig állandóan a felnőttek körül lábatlankodtunk. Ennél izgalmasabb gyerekkort elképzelni sem tudok.

Debrecenben különösen a kísérleti fizikának volt nagy hagyománya: minden tanár szakos és fizikushallgatónak szerepelt a tanrendjében a műhelygyakorlat, ahol az üvegfúvástól kezdve a forrasztásig, fúrásig, esztergálásig, a különböző szerszámgépek használatáig mindent végig kellett csinálni. Ezeket mi már tízévesen tudtuk az öcsémmel, mert bementünk az órákra és a hallgatókkal együtt végeztük a gyakorlatokat.

Nem tűnik el nyomtalanul, hogy az ember tízéves korában gépeket használ: még most is sok elektronikai berendezést építek otthon hobbiból. A fiammal, aki egyetemista, komoly „elektronikai projektjeink” voltak gimnazistakorában. Tizenkét évesen már használta az oszcilloszkópot, és most kísérleti pálya felé indult el.

A Pan-STARRS-hoz mi magunk terveztük és raktuk össze a nagy számítógépeket - még a szerelésben is részt vettem. Mostanában nincs annyi időm, hogy napi száz sor kódot írjak, de régebben elég szigorúan betartottam ezt a normát - valahogy hozzátartozik a kutatáshoz. A programozástól nem lesz piszkos a kezünk… Van erre egy jó angol kifejezés: it keeps you honest - nem hagyja, hogy az ember „elszálljon”, hogy elveszítse a kapcsolatot a részletekkel.

- A zenélés is megmaradt?

- Négy-öt évvel ezelőtt elkezdtünk egy új lemezt, és amikor már mindenkinek a szólamát fölvettük, Matolcsy Kálmán barátunk, a billentyűs meghalt, tavaly pedig hangmérnök barátunkat is elvesztettük. Talán a jövő nyáron befejezzük a lemezt. András öcsém nem szakadt el az elektronikus zenétől: ő a világ egyik legnevesebb hangszertervezője, amerikai és japán cégeknek tervez Budapesten hangszereket. Most írok éppen egy előterjesztést a National Science Foundationnak arról, hogy az óriási adattömegekben hogyan találhatnánk meg elektronikus zenei effektusok felhasználásával azokat a különálló adatokat, amelyek nem illeszkednek bizonyos együttesekbe.

- Miért érdemes audiomódszerekhez folyamodni?

- Mert a fül sokkal érzékenyebb, mint a szem. Mindig vizualizációra törekszünk, de a képernyő pixele csak 8 bit mély, nem növelhetjük akármeddig a felbontást, a színek számát. A hangok több lehetőséget rejtenek magukban. A hallható küszöbön belül időben, térben - vagyis különböző irányokból - küldhetünk információt az embernek. Ezt eddig egyáltalán nem használtuk ki az adatok közötti trendek, mintázatok felismerésére. Most egy „Caltech”-es és néhány zeneszerző barátommal kísérletet teszünk erre - ha semmi sem jön ki belőle, akkor is visszakanyarodunk kicsit a zenéhez.

Az interjút készítette: Silberer Vera

Jegyzet:
1 L. Csabai István: A világegyetem térképe, Természet Világa, 2004. július.  


Természet Világa, Feltárul a Világegyetem, 2009
http://www.termeszetvilaga.hu/ 
http://www.chemonet.hu/TermVil/