Om 7.25 uur is een server chassis uitgevallen in tdcg-ams-cluster01. Dit is het NVMe performance cluster.

Hierdoor zijn virtuele servers uitgevallen en automatisch herstart op de andere servers. De downtime is per virtuele server verschillend. Tussen de 5 minuten en 25 minuten zien we in de monitoring omdat niet alle servers tegelijk worden opgestart.

Een engineer is onderweg naar het datacentrum omdat we alle verbindingen zijn kwijtgeraakt naar het chassis.

Alle virtuele servers zijn beschikbaar en er is voldoende redundantie in het platform om de diensten aan te bieden.

One Thought on “NorthC Amsterdam Cluster storing

  1. avatar Trans-iX B.V. on 29 March 2022 at 10:02 said:

    Analyse van het chassis samen met de leverancier heeft opgeleverd dat de oorzaak ligt bij een bug in de firmware. Deze bug heeft door een health monitoring fout er voor gezorgd dat het chassis uitgeschakeld werd met alle componenten, terwijl dat door de redundancy niet nodig is.
    De firmware is geupdate met de release die we als oplossing hebben ontvangen en daarna is het chassis met alle servers en switches weer opgestart.
    De servers zijn weer online en onderdeel van het cluster. We lopen nu de laatste checks langs en dan gaan deze servers weer virtuele servers toegewezen krijgen.

Post Navigation