Incident description

Service Incident status Start Date End Date
Rorqual Closed
Created by Pier-Luc St-Onge on

Title


Rolling update of Nvidia drivers to 580 - Mise à jour progressive des pilotes Nvidia vers la version 580


Summary


Starting May 21 at 1:00 p.m. ET: rolling update of Nvidia drivers to 580 (CUDA 13) on all GPU nodes.

We are using the drain method — no running jobs will be interrupted, but no new jobs will start on a node until its update is complete. As soon as a node gets updated, GPU jobs will be able to use that node. Full rollout will take up to 7 days (max job duration on GPU nodes), but GPU jobs will be able to start sooner than that.

Feel free to reach out if you have any questions or issues.

======

À partir du 21 mai à 13h00 HE : mise à jour progressive des pilotes Nvidia vers la version 580 (CUDA 13) sur tous les nœuds GPU.

Nous utilisons la méthode de drainage — les tâches de calcul en cours ne seront pas interrompues, mais aucune nouvelle tâche ne démarrera sur un nœud avant que sa mise à jour ne soit terminée. Dès qu'un nœud est à jour, les tâches GPU vont pouvoir utiliser ce nœud. Le déploiement complet prendra jusqu’à 7 jours (durée maximale des tâches sur les nœuds GPU), mais des tâches GPU pourront démarrer avant cela.

N’hésitez pas à nous écrire pour toute question ou problème.


Updated by Minh-Nghia Nguyen on