Incident description

System Incident status Start Date End Date
Graham Closed
Created by Fraser McCrossan on

Title


Graham cluster outage / Arrêt de service de la grappe Graham


Summary


Starting Monday, April 3, 2023, at 9 a.m. EDT, the Graham cluster will be unavailable to all users as we perform cluster maintenance. The scheduler will not start jobs that are not expected to complete before the outage. Any remaining running jobs will be terminated. The work will be completed by Tuesday, April 4, 2023 at 10 a.m.


During the outage, a new home server will be installed. We will migrate all user data off the old server onto the new. We will also update the compute node image and CUDA driver version.


Please watch https://status.alliancecan.ca for updates on the availability of Graham and all other national systems.

This outage will impact the cluster, login nodes, visualization nodes (VDI) as well as data transfer nodes (DTN). There will be no impact to the Graham cloud.

Users will be notified by email when the cluster is up and running again.


For questions, or assistance please email support@tech.alliancecan.ca.


=====


En raison de travaux de maintenance, la grappe Graham ne sera pas disponible à compter de 9 h HAE le 3 avril prochain.  D’ici là, seules les tâches pouvant se terminer avant le 3 avril à  9 h HAE seront démarrées. Les tâches encore en cours le 3 avril à 9 h HAE seront annulées. Le service reprendra à 10 h HAE le 4 avril.


Cet arrêt de service nous permettra d’installer un nouveau serveur /home et de mettre à jour l’image logicielle des nœuds de calcul ainsi que le pilote CUDA.


L’état de Graham et des autres grappes est rapporté sur la page https://status.alliancecan.ca.


L’arrêt de service touchera les nœuds de connexion, les nœuds de visualisation (VDI) ainsi que les nœuds de transfert de données (DTN). Le nuage Graham ne sera pas touché.


Nous vous informerons par courriel de la reprise du service.


Si vous avez des questions ou avez besoin d’assistance, écrivez à support@tech.alliancecan.ca


Updated by Fraser McCrossan on