To datacentre skal sikre Rockwool mod totalt nedbrud

En brand, oversvømmelse eller en orkan kan ødelægge et helt datacenter, og hvad gør man så? Hos Rockwool stod evnen til at komme sig oven på et komplet nedbrud øverst på dagsordenen, da der skulle bygges nyt datacenter.

Koncernen har inden for de seneste år samlet alle it-funktioner under én afdeling, som sørger for at levere it-tjenester til Rockwools datterselskaber, og derfor skulle de maskinstuer, som før havde været spredt mellem selskaberne, samles i et centralt datacenter.

»Vi har gennem det sidste halvandet år kørt et projekt ud fra et ønske om at få et redundant datacenter. Vi har samlet it-services centralt i Danmark, og det næste, vi skulle have fat i, var redundans og en disaster recovery-plan,« fortæller sektionschef Jan Elberg fra Rockwool Group IT til Version2 Insight.
Målsætningen blev at konstruere en infrastruktur bestående af to datacentre, som kunne sikres imod langvarige nedbrud, hvis eksempelvis strøm, netværk eller flere dele af infrastrukturen i ét datacenter blev ødelagt.


Redundans var et af de vigtigste mål for Rockwool, med at samle alle it-services centralt i Danmark. »Vi kan genskabe forretningssystemerne inden for 48 timer,« fortæller sektionschef Jan Elberg fra Rockwool Group IT. (Foto: Rockwool)

»Vi opererer med, at ét site skal kunne være nede. Det er ikke ‘high availability’. Dét er et andet projekt. Vi kan sikre, at virksomheden kan overleve og kunne genskabe forretningssystemerne inden for 48 timer, og den maksimale periode for datatab er 24 timer. Men der er måske nogle applikationer, hvor vi skal omdefinere kravene, når vi går i dialog med forretningen,« siger Jan Elberg.

Et datacenter hjemme – ét ude i byen

Målet om at have to redundante datacentre er blevet indfriet ved dels at leje sig ind hos en housing-udbyder i Taastrup, dels ved at ombygge den tidligere maskinstue hos Rockwools hovedkontor i Hedehusene.

»De ligger tæt på hinanden, så det er relativt let at få gode forbindelser mellem dem, men samtidig er de stadig adskilt,« forklarer Jan Elberg.
Hvert af de to datacentre er indrettet med redundant netværk, internetforbindelser, storage-system og serverfarm, og i første omgang skal de to datacentre primært fungere som erstatning for hinanden, hvis noget går galt.

»Vi kan køre aktiv-aktiv, men det er ikke tanken, at vi skal køre produktionen i det redundante datacenter, men vi kan, hvis vi skal,« fortæller Jan Elberg.
Aktiv-aktiv er normalt en model, der bruges til høj redundans, hvor man også vil have mulighed for at flytte kørende applikationer mellem to centre. Foreløbig er det ikke noget, som Rockwool benytter sig af, men infrastrukturen giver altså mulighed for det, hvis behovet skulle opstå.

Det er også muligt for Rockwool at flytte en applikation mellem de to datacentre, men for at mindske risikoen for uoprettelige fejl, kan det ikke ske automatisk. Hvis det er nødvendigt at flytte en applikation fra det ene datacenter til det andet, så kræver det manuel indgriben.
Den beslutning udspringer af ønsket om, at de to datacentre først og fremmest skal sikre muligheden for at køre systemerne videre i tilfælde af et alvorligt nedbrud.

»Hvis netværket mellem de to maskinstuer forsvinder, kan man ende med at køre to aktive, hvis det kører automatisk, og så kan data forsvinde. Så vi vil gerne være dem, der drejer på knappen,« siger Jan Elberg.

Ny indmad

Udgangspunktet for designet af de moderniserede maskinstuer var dels disaster recovery, men også at få opbygget en infrastruktur, som passede til de it-services, koncernen havde behov for, og som gav mulighed for at flytte en tjeneste mellem de to datacentre.

Det betød blandt andet, at der skulle designes et nyt netværk, hvor Rockwool endte med at udskifte alt eksisterende udstyr. Samtidig blev der opbygget en ny serverfarm i hvert datacenter, og begge datacentre har nu også samme storage-system.

»Det giver også større fleksibilitet, fordi vi ikke er afhængige af at skulle have alt stående i én maskinstue. Vi har mulighed for at flytte vores virtuelle servere, hvis vi skulle få lyst,« forklarer Jan Elberg.

I første omgang har fokus været på at undgå det helt store nedbrud, og der er også lagt nye, detaljerede planer for disaster recovery for alle applikationer, som er blevet afprøvet på papiret og er ved at blive testet i de færdige datacentre.

Lige nu har Rockwool ingen applikationer, som kræver 100 procents oppetid i den kategori, hvor det skal forstås helt bogstaveligt. Selv om det er en global virksomhed, så har det alligevel været muligt at nå frem til at kunne afholde mindre servicevinduer, hvor eksempelvis software kan opdateres.

»Muligheden for at kunne lave service i dagtimerne er noget, vi har tænkt på, men det er også lidt farligt,« siger Jan Elberg.
Selv om datacentret er designet til ikke at have et ‘single point of failure’, så kan der være applikationer, som gør det vanskeligere end andre. Den del af applikationerne, som kører på virtuelle servere, er dog noget lettere at vedligeholde.

»På en distribueret platform kan vi flytte virtuelle servere fra én fysisk maskine til en anden, så vi kan lave service på hardwaren,« siger Jan Elberg.
En del af det forestående arbejde er at få lavet en nærmere analyse af de forretningskritiske applikationer for at se, hvordan servicevinduer skal sættes sammen.

Ingen overkill

Redundans mellem datacentre kan være en bekostelig affære, hvis man vil op i den kategori, hvor det næsten er umuligt, at flere komponenter fejler på samme tid og forårsager et længerevarende nedbrud. Det er næsten altid muligt at lægge flere penge på bordet og få ekstra teknologier, som kan være med til at forhindre nedetid, men de sidste ’9-taller’ er sjældent billige.

Derfor er det også nødvendigt at se på, hvad der er rent faktisk er nødvendige teknologier, og hvad der sprænger budgettet unødigt.

»Vi kører eksempelvis med storage fra EMC, men vi har ikke investeret i deres high-end SAN-replikering. Det rakte økonomien ikke til. Vi har valgt løsninger, som passede bedre til vores verden, men er ikke gået på kompromis. Vi har ikke fravalgt noget, men vi har heller ikke købt noget ekstravagant. Vi har en infrastruktur, vi kan vokse med,« siger Jan Elberg.

Denne artikel har været bragt i Version2 download-magasin Version2 Insight om DDOS angreb. Find dette og flere Insights og whitepapers her

Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>