Er is een storing gedetecteerd in de cache batterij van de storage van het NVMe performance cluster.

Dit geeft geen onderbrekingen in de diensten, maar zal wel vervangen moeten worden.

De leverancier, Dell EMC, werkt aan vervanging en zal dit morgen ochtend uitvoeren met een engineer on-site. Dit betekend dat tot morgen ochtend bij de vervanging de storage normaal beschikbaar is. Tijdens de vervanging van de batterij zal een van beide controllers uitgeschakeld zijn waardoor er verminderde redundantie is. De diensten zullen wel normaal beschikbaar blijven en we verwachten geen problemen.

Dit onderhoud zal om 9.00 uur uitgevoerd worden.

Om 7.25 uur is een server chassis uitgevallen in tdcg-ams-cluster01. Dit is het NVMe performance cluster.

Hierdoor zijn virtuele servers uitgevallen en automatisch herstart op de andere servers. De downtime is per virtuele server verschillend. Tussen de 5 minuten en 25 minuten zien we in de monitoring omdat niet alle servers tegelijk worden opgestart.

UPDATE 10.00 uur:

Analyse van het chassis samen met de leverancier heeft opgeleverd dat de oorzaak ligt bij een bug in de firmware. Deze bug heeft door een health monitoring fout er voor gezorgd dat het chassis uitgeschakeld werd met alle componenten, terwijl dat door de redundancy niet nodig was.


De firmware is geupdate met de release die we als oplossing hebben ontvangen en daarna is het chassis met alle servers en switches weer opgestart.
De servers zijn weer online en onderdeel van het cluster. We lopen nu de laatste controles langs en dan gaan deze servers weer virtuele servers toegewezen krijgen.

Er zal een planning gemaakt worden om deze update ook te installeren op de andere chassis oplossingen in de clusters in NorthC Amsterdam.

Om 7.25 uur is een server chassis uitgevallen in tdcg-ams-cluster01. Dit is het NVMe performance cluster.

Hierdoor zijn virtuele servers uitgevallen en automatisch herstart op de andere servers. De downtime is per virtuele server verschillend. Tussen de 5 minuten en 25 minuten zien we in de monitoring omdat niet alle servers tegelijk worden opgestart.

Een engineer is onderweg naar het datacentrum omdat we alle verbindingen zijn kwijtgeraakt naar het chassis.

Alle virtuele servers zijn beschikbaar en er is voldoende redundantie in het platform om de diensten aan te bieden.