Updates


Event Date Summary

The fix has been installed on /home and on /project.

===

Le correctif a été installé sur /home et sur /project.

On Thursday last week, the fix has been installed on /scratch only. Soon after, we got an issue with an InfiniBand connection which has prevented us from continuing with other file systems. Since Friday, the /scratch has been stable and is behaving well, that is large files are no longer split in very small blocks. We hope to install the fix on the other file systems this week. We apologize for this slow update process.

======

Jeudi la semaine dernière, le correctif a été installé sur /scratch seulement. Peu de temps après, nous avons eu un problème de connexion InfiniBand qui nous a empêché de continuer avec les autres systèmes de fichiers. Le /scratch est maintenant stable depuis vendredi et se comporte bien, c'est-à-dire que les gros fichiers ne sont plus coupés en de très petits blocs. Nous espérons installer le correctif sur les autres systèmes de fichiers cette semaine. Nous sommes désolés pour le long processus de mises à jour.

We just tried to update the /scratch file system, but the well-tested update did not work as expected. We will keep the current working version of the file system, but the stability fix will be applied on the current version later this week. There should be no impact on users.

======

Nous avons juste essayé de mettre à jour le système de fichiers /scratch, mais la mise à jour dûment testée n'a pas fonctionné tel qu'attendu. Nous allons donc garder la version actuellement en production du système de fichiers, mais le correctif de stabilité sera installé sur cette version courante plus tard cette semaine. Il ne devrait y avoir aucun impact sur les usagers.

On Monday January 26, the storage administrators will proceed with multiple file system updates -- one file system at a time will be partially unresponsive (only affecting the access to a subset of files each time) for a few minutes, multiple times throughout the day. We apologize for the inconvenience. These urgent updates will address the recent file system instabilities.

======

Ce lundi 26 janvier, les administrateurs du stockage procéderont à plusieurs mises à jour du système de fichiers -- un seul système de fichiers à la fois sera partiellement indisponible (affectant uniquement l'accès à certains fichiers à chaque fois) pendant quelques minutes, et ce, à plusieurs reprises dans la journée. Nous vous prions de nous excuser pour les impacts sur vos activités de recherche. Ces mises à jour urgentes devraient permettre de résoudre les problèmes d'instabilité récents du système de fichiers.


Incident description

Service Incident status Start Date End Date
Rorqual Closed
Created by Pier-Luc St-Onge on

Title


2026-01-26 - Fix for storage instabilities -- Correctif pour instabilités du stockage


Summary


Since a few days, the storage system has suffered of many episodes of instability affecting the access to data on either the /scratch space or the /project space. On a daily basis, the operation team is addressing all resolvable problems coming up randomly. Permanent solutions are on the way, but this will take time for their implementation.

In the meantime, we encourage users to make use of the $SLURM_TMPDIR on compute nodes when it is suitable. For more information, see this documentation page.

======

Depuis quelques jours, le système de stockage subit de nombreuses instabilités, affectant l'accès aux données sur les espaces /scratch et /project. L'équipe d'exploitation s'efforce quotidiennement de résoudre les problèmes qui surviennent de manière aléatoire. Des solutions permanentes sont en cours d'élaboration, mais leur mise en œuvre prendra du temps.

En attendant, nous encourageons les utilisateurs à utiliser la variable d'environnement $SLURM_TMPDIR sur les nœuds de calcul lorsque cela est approprié. Pour plus d'informations, consultez cette page de documentation.


Updated by Pier-Luc St-Onge on