Laatste reacties

  • mobil bekas: It's a good resources
  • Steve Vos: Volgens mij hebde ook een lege doos gekregen smile
  • David Geens: @Dirk: je stelt het nogal extreem voor en niet helemaal correct. Wij zitten...
  • Dirk : LCL Antwerpen kan je ook geen datacenter noemen, het heeft eerder iets weg ...
  • Steve Vos: Tof geschreven.. 1 seconde tis nie lang é maar twas te lang smile
  • Kenneth: Highway to hell !!!! AC DC smile
  • Van Nuffel: verzoeknummer graag voor 2 uitbollende collegaatjes in Lier. Om het weekend...
  • Joris: ze was zelfs lekker !
  • Mattias : En blij dat wij zijn, ongelooflijk smile
  • MisterD: yeps, waren foto's in een flickr account van de organisator, zijn nu weg, s...

Search



RSS   RSS Comment

donderdag 22 oktober 2009

Eén seconde zonder stroom is niet erg. Toch?

Categorie: Business | Door: MiniMatti

Het is geen ramp als het licht even uitvalt, de TV zich herstart of de radio even stopt met geluid te maken. Het is van een heel ander kaliber als dit zich in een datacenter afspeelt, zoals gisteren het geval was in het datacenter van LCL, te Antwerpen – waar ook een groot deel van onze infrastructuur, en onze kantoren, staan.

Hoe, wat & waarom?
Het is belangrijk te weten wat er net gebeurt is, en hoe het heeft kunnen plaatsvinden.

LCL, eigenaar van het datacenter, voert een maandelijkse generator test uit op al haar sites. Immers, wat voor nut heeft een noodgenerator nog, als deze niet gecontroleerd wordt op de werking? Deze controle gebeurde ’s morgens, en verliep vlekkeloos. Eerst werd de netstroom naar het datacenter afgesloten, namen de UPS-en het automatisch over, en startte de generator even netjes op. So far, so good.

Tijdens de test kreeg LCL verschillende waarschuwingsberichten van één van de UPS-en van 120kVA. De leverancier werd verwittigd en gevraagd dit verder te onderzoeken. Een technieker kwam ter plaatse in de namiddag, rond 17u. De UPS die de waarschuwing gaf werd onderzocht, en hier liep het mis. De UPS sloot zichzelf af gedurende 1 seconde, en startte dan weer op. Die ene seconde was cruciaal in de stroomtoevoer voor het ganse datacenter.

Nadien werd besloten de stroomtoevoer door de generator te laten verlopen, om de problemen te onderzoeken. De malfunctionerende UPS werd buiten werking geschakeld en afgesloten van de anderen, en de stroomtoevoer werd weer omgeschakeld naar netstroom, zonder generator.

So what?
Tijdens die ene secone, werd de stroomtoevoer naar elke server, switch, router & appliance onderbroken, en achteraf weer hervat. Een instant reboot dus voor elk toestel in het datacenter, ongeacht of het hier klaar voor was. De meeste toestellen waren weer online na 5 tot 10 minuten onderbreking; onze border routers en switchen waren herstart, net als de servers en toestellen die daar achter hangen.

Maar Murphy lijkt in de IT wereld nooit veraf te zijn, en kwam ons ook toen een bezoek brengen. Door de korte uitval had één van onze distributieswitchen het begeven, en moest deze vervangen worden. Reservemateriaal is altijd aanwezig, werd klaargestoomd en de back-up van de configuratie werd ingeladen. Ondertussen worden alle servers van klanten één voor één gecontroleerd of ze goed opstarten, en werden de nodige handelingen verricht bij die servers die hier moeilijkheden bij ondervonden.

Dit is echter een tijdrovende taak om de servers zo snel mogelijk één voor één af te gaan, én grondig te zijn in de uit te voeren controle. Sommige servers starten goed op, maar de services daarom nog niet: webservice, mailservice, databaseservice, ... Een server die langs buitenaf perfect bereikbaar is, is nog steeds nutteloos indien de gewenste applicatie hierop niet draait.

Bij servers van klanten is bij ons niet altijd gekend wat de functie van de server is, en welke dienst hierop bereikbaar moet zijn alvorens de server weer “functioneel” is.

Murphy’s Law
Kortom, gisteren werden we zwaar getroffen door Murphy’s Law. Indien elk toestel zou opstarten zoals het hoort, zonder fouten en interventies, zouden we allemaal op een strand in Rio kunnen liggen. Helaas werkt het zo niet. Hardware is gevoelig voor plotse stroomonderbrekingen, besturingssystemen of applicaties die net op dàt moment een kritieke schrijfactie maakten moeten eraan geloven.

We stellen alles in het werk onze communicatie zo open en duidelijk mogelijk te houden, en steeds informatief en behulpzaam te blijven. Het is echter geen eenvoudige klus dit te combineren met een “solution striven” mentaliteit, om zo snel mogelijk tot een werkende oplossing te komen. Indien we kortaf waren aan de telefoon, of per e-mail, wensen we ons hiervoor te excuseren – we proberen ons immers te concentreren op het probleem voor handen, en dit zo snel mogelijk op te lossen – gecombineerd met de vele vragen die klanten op zo’n moment hebben.

We houden onze status pagina’s (http://status.nucleus.be) zo up-to-date als mogelijk en proberen u ook via Twitter (@nucleus_hosting) op de hoogte te houden. Hierin moeten we soms cru zijn, en voorrang geven aan het oplossen van het probleem. U wil immers graag op de hoogte gehouden worden, maar nog liever het probleem opgelost zien, vermoeden we.





Share/Save/Bookmark

Reacties


Tof geschreven.. 1 seconde tis nie lang é maar twas te lang smile

Steve Vos - zaterdag 24 oktober 2009 - 19:31:02
--------------------------


LCL Antwerpen kan je ook geen datacenter noemen, het heeft eerder iets weg van een opslagruimte met beperkte koeling & een (oude) noodgenerator. Daarnaast hebben ze de afgelopen 2 jaar wel een mooie reputatie opgebouwd op het vlak van downtime, misschien toch eens opteren om een betere leverancier te kiezen? Anders gaat jullie nieuwe aanwinst Cloudia snel hoofdpijn krijgen ...

Voor de rest heel leuk geschreven !

Dirk - zondag 01 november 2009 - 21:59:36
--------------------------


@Dirk: je stelt het nogal extreem voor en niet helemaal correct. Wij zitten al zeven jaar in dit datacenter en dit is de eerste maal dat er stroomproblemen zijn geweest.
Er zijn andere (grotere) datacenters die een minder goed track record kunnen voorleggen.

Dus je bewering van de laatste twee jaar is gewoon uit de lucht gegrepen.

Wat ik wel toegeef is dat het van alle datacenters waar we zitten (Cloudia zit in Nossegem by the way) is Antwerpen het dringendst toe aan vernieuwing, wat dan ook het programma staat voor het eerste semester van 2010.

David Geens - maandag 02 november 2009 - 09:19:17
--------------------------


Reageer










Allowed BBCode:[b] [i] [u] [color=] [size=] [quote] [code] [email]