Sygehuse ramt af uforudset fejl: Netværksswitche bombarderet med pakker

Der var ingen forudgående advarsler før klokken 03:45 tirsdag morgen, da forbindelsen til samtlige it-systemer på sygehusene i Region Nordjylland pludselig blev afbrudt.

Først seks timer senere er alle systemer atter tilgængelige efter et nedbrud, som ikke var forudset.

»Vi skal nu have lavet en dybere årsagsanalyse og finde frem til løsningsforslag. Vi skal også lave et review sammen med vores leverandør, men vi skal også have et eksternt review. Det er vores standardproces, når sådan noget sker. Det her var ikke en fejl, vi havde forudset, så nu sætter vi hårdt mod hårdt,« siger it- og supportchef Klaus Larsen fra Region Nordjylland til Version2.

Læs også: Seks timer langt nedbrud lammer alle it-systemer på nordjyske sygehuse

Cirka en time efter, alarmerne var gået, fandt it-folkene frem til, at nedbruddet havde ramt det core-netværk, som sørger for forbindelsen til datacentrene. Fire store Cisco-switche var umulige at komme i kontakt med, og derfor måtte it-folkene ud til selve switchene og etablere en kablet forbindelse til dem.

Her viste det sig, at switchene blev løbet over ende af en pakkestorm, men der gik yderligere tid, før årsagen til pakkestormen blev fundet.

»Det var i en netværkskomponent i et VLAN, hvor der skete noget uplanmæssigt. Den tog vi ud af drift, og derefter begyndte det at blive bedre, og vi kunne begynde at få servicesne op at køre igen,« fortæller Klaus Larsen.

Samtidig med, at it-systemerne blev bragt online igen, ledte it-folkene videre efter den dybere årsag til, at netværket var gået amok.

Det lykkedes at finde frem til en hardwarekomponent i fibernetværket mellem core-switchene, som var gået i stykker, men ikke var registreret som fejlramt.

Selvom netværket har fysisk fuld redundans med dobbelt op på hardwarekomponenterne, så hjalp det ikke Region Nordjylland i dette tilfælde.

»Vi bliver hårdt ramt, når noget kun går halvt ned. Core-nettet er fysisk redundant, men når nettet begynder at overgeare, så har det ingen effekt. Fiberkomponenten kunne ikke finde ud af, om den virkede eller ej. Det var pokkers uheldigt,« siger Klaus Larsen.

Læs også: Version2 Insight: Hvor godt er dit datacenter sikret mod nedbrud?

Hvis fiberkomponenten havde meldt fejl, kunne den være blevet koblet ud og blevet skiftet, men i stedet fortsatte den altså med at køre videre, selvom det udløste en storm af netværkspakker, som i praksis overbelastede netværket.

Hardwareredundansen hjalp dog med at få it-systemerne tilbage igen, da det var muligt at skifte den defekte komponent uden at skulle lukke netværket ned.

Nu skal forløbet granskes nærmere for at finde ud af, om der skal ske ændringer i udstyr, konfiguration eller beredskabet for at undgå lignende problemer, hvor en enkelt fejl i core-netværket sætter de redundante datacentre ud af spillet.

Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>