Om 7.25 uur is een server chassis uitgevallen in tdcg-ams-cluster01. Dit is het NVMe performance cluster.
Hierdoor zijn virtuele servers uitgevallen en automatisch herstart op de andere servers. De downtime is per virtuele server verschillend. Tussen de 5 minuten en 25 minuten zien we in de monitoring omdat niet alle servers tegelijk worden opgestart.
UPDATE 10.00 uur:
Analyse van het chassis samen met de leverancier heeft opgeleverd dat de oorzaak ligt bij een bug in de firmware. Deze bug heeft door een health monitoring fout er voor gezorgd dat het chassis uitgeschakeld werd met alle componenten, terwijl dat door de redundancy niet nodig was.
De firmware is geupdate met de release die we als oplossing hebben ontvangen en daarna is het chassis met alle servers en switches weer opgestart.
De servers zijn weer online en onderdeel van het cluster. We lopen nu de laatste controles langs en dan gaan deze servers weer virtuele servers toegewezen krijgen.
Er zal een planning gemaakt worden om deze update ook te installeren op de andere chassis oplossingen in de clusters in NorthC Amsterdam.