Risø-supercomputer med 16.048 kerner skal knække biologiens Big Data


Direktør Peter Kaar fra GoVirtual, som har installeret supercomputeren på Risø, foran de to pavilloner der huser den første del af den nye supercomputer.

På en indhegnet parkeringsplads på DTU’s Risø-campus står to gråmalede pavilloner af stål, som ikke ser ud af meget på den store tomme flisebelagte plads. Men varmedisen, der stiger op fra rækken af køleenheder placeret ved siden af den ene af pavillonerne, afslører, at der indenfor gemmer sig én af de kraftigste supercomputere i verden.

Supercomputeren Computerome står nu klar til at hjælpe hundredevis af forskere inden for det biologiske forskningsområde med at løse de mest krævende dataanalyser, de står over for i dag.

Målt efter supercomputernes klassiske målestok, kommatalsoperationer pr. sekund eller flops, er Computerome lige nu nummer 121 på listen over offentligt kendte supercomputere. Men Computerome er ikke bygget til at vinde i lige netop dén disciplin.

»Vi kan ikke bruge traditionelle supercomputere, for de passer ikke til vores datatunge behov. Vi er udfordret i en æra med Big Data, og data fra genomer, proteiner og bakterier stiller helt særlige behov til computeren,« forklarer chefkonsulent Peter Løngreen fra DTU Systembiologi til Version2.

Læs også: Ny supercomputer på Risø: Hurtigste RAM vigtigere end hurtigste processorer

I en traditionel supercomputer kan hver enkelt beregningsenhed eller node ofte arbejde selvstændigt med en lille mængde data, når eksempelvis en fysiker udfører modelberegninger. Men biologerne har behov for at kunne udveksle meget store datasæt mellem noderne, og derfor er der i Computerome lagt vægt på andre specifikationer end blot mange hurtige processorer.

Hver af de 540 HP-servere, der udgør hovedmusklen i Computerome, har således 128 gigabyte DDR4 RAM, ligesom der er yderligere 27 servere med hver 1 terabyte DDR3 RAM. Derudover er der installeret et kraftigt Mellanox Infiniband netværk til at forbinde serverne i en klynge.


Netværket er en væsentlig komponent i den nye supercomputer. Foto: Jesper Stein Sandal

Systemet er i det hele beregnet til at kunne håndtere store datamængder. Storagesystemet står i den ene af de to pavilloner og består af et EMC Isilon system med en kapacitet på foreløbig 3 petabyte.

Og det er store datasæt, der skal knuses i Computerome.

»Størrelsen på et datasæt er vokset fra et par gigabyte for ti år siden til i dag flere hundrede gigabyte,« fortæller post-doc Anders Jacobsen Skanderup fra Biologisk Institut ved Københavns Universitet til Version2.

Han er én af de forskere, som ser frem til at benytte den nye supercomputer.

»Vi kigger på et helt genomen for kræftpatienter for at finde de mutationer, der kan give grobund for kræft,« forklarer Anders Jacobsen Skanderup.

Kræft er en sygdom, som kan se meget forskellig ud fra patient til patient, og derfor er det nødvendigt at sammenligne det genetiske materiale for mange patienter, hvis man skal identificere særlige genetiske mutationer, der kan hænge sammen med en bestemt kræftform.

I et pilotforsøg har Anders Jacobsen Skanderup sammen med forskerkollegerne regnet på genomer for 800 patienter. Det krævede tre måneders udregninger på 3 kraftige servere. Han vurderer, at den samme udregning ville kunne laves på en uge eller kortere med den nye supercomputer.

»Det har stor betydning, fordi vi i stedet kunne kigge på 10.000 patienter, og vi kan justere på parametrene i vores analyse uden at skulle vente tre måneder. Det giver en mere fleksibel forskningsproces,« siger Anders Jacobsen Skanderup.

Den eksponentielle vækst i størrelsen af datasættene skyldes blandt andet fremkomsten af billige, hurtige gensekventeringsmaskiner, der gør det muligt at kortlægge et helt genomen frem for blot at se på et udsnit.

Det giver nye muligheder for at forstå, hvad kræft er for en sygdom.

»I min analyse vil jeg gerne forstå mutationerne i kræftceller ved at sammenligne DNA fra kræftceller med DNA fra raske celler,« forklarer Anders Jacobsen Skanderup.

Det indebærer at sammenligne to datasæt på hver 100 gigabyte med hinanden, og når det skal ske for tusindvis af patienter, så stiller det krav til infrastrukturen, som transporterer og lagrer dataene.


Foreløbig er Computerome udstyret med 3 petabyte Isilon-storage fra EMC. Foto: Jesper Stein Sandal

Fysikerne hos eksempelvis CERN har i årevis delt data fra de store eksperimenter, så forskellige forskergrupper har kunnet arbejde med de samme data. En tilsvarende tanke ligger bag Computerome blot inden for de biologiske forskningsområder.

»Der er ingen grund til, at vi konkurrerer på infrastruktur, hvis vi skal håndtere data, som måske fordobles på seks måneder. Vi skal undgå at generere de samme data. Vi har her skabt en national infrastruktur, som skal muliggøre, at vi kan arbejde sammen på en række store datasæt,« siger Peter Løngreen.

Computerome er en del af det europæiske forskningssamarbejde inden for de biologiske områder ELIXIR, og det er ikke kun universitetsforskere, som skal bruge supercomputeren. Også medicinalvirksomheder vil kunne anvende supercomputeren til deres forskning, hvor de også vil kunne trække på fælles datasæt.

Lige nu er det meste af den 3.500 kvadratmeter store plads tom, men planen er, at supercomputeren skal kunne udbygges i takt med, at behovet for databehandlingskapacitet vokser.

»Vi har mulighed for at kunne udvide. Vi har for eksempel lagt strøm ind til 10 gange den nuværende kapacitet,« siger Peter Løngreen.

Det vil forskerne i de efterhånden slidte bygninger på Risø nok sætte pris på. En del af varmen fra supercomputeren vil nemlig blive opsamlet i køleanlægget og anvendt til at forsyne bygningerne på Risø med varme og på længere sigt også det lokale fjernvarmenet.

Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>