Stort set hver gang et eller andet stort system går ned i timevis, viser det sig at være “netværksfejl”, men hvad ved vi egentlig om disse “netværksfejl” og hvordan kan vi blive bedre til at designe systemer der overlever dem ?
ACM Queue har lige publiceret en rigtig interessant artikel fyldt med real-life “netværksfejl” som med stort udbytte kan bruges som checkliste i designet af distribuerede systemer.
Det er den slags emperisk erfaringsudveksling der gør os allesammen klogere.
phk