Updates


Event Date Summary

Here are the details on this filesystem failure

The major failure on November 6, 2025 involved four logical volumes in a storage unit with 106 disks. By design, each storage unit contains two RAID configurations of 53 disks and each RAID contains the equivalent of three disks with distributed parity. However, during the replacement of a broken disk, we encountered problems with seven other disks, which led to the shutdown of this system.

During the recent work, three disks were recovered, which enabled us to make a backup copy of two of the four volumes affected. The recovered files were put back in their initial location in /project after two transfers to a temporary system.

Nevertheless, an eighth disk stopped working during this process, leading to the loss of data on the other two volumes. Furthermore, automatic encryption of the data by the system made it impossible to access these data by a different method.

During these operations, other volumes were deliberately shut down to simplify our work.

In the end, two volumes (of the 136 which make up /project) were lost. However, a backup copy on tape exists for the majority of these files. We have a list of these files, organized by user, and will proceed to restore the data from this backup copy. This involves around 1.1 million files to be restored, among the 249 million files on the system.

The attempts at accessing the lost files on the two lost volumes currently return an error message similar to “No such file or directory.” The restoration by the backup copy will overwrite these lost files and they will once again be able to be used.

At the end of this restoration, we are going to also have a list of files which are definitively lost because they were not in the backup copy.

We apologize for the impact this incident has had on your research activities.

In an effort to be proactive, we have been in contact with the vendor since July 23, 2025 concerning a reliability problem with the system. Afterwards, there were weekly meetings since the beginning of October and more frequent meetings since the event. The problem has been escalated to the developers and storage system architects, as well as the management.

While waiting to know the exact cause, we are taking further precautions during disk changes. These precautions lead to a loss of system availability during roughly ten minutes, but will allow for greater certainty concerning the durability of the data.

======

Voici les détails de cette panne du système de stockage

La défaillance majeure du 6 novembre 2025 impliquait quatre volumes logiques dans une unité de stockage de 106 disques. Par design, chaque unité de stockage contient deux RAID de 53 disques et chaque RAID contient l’équivalent de trois disques de parités distribuées. Or, pendant le remplacement d’un disque défectueux, nous avons rencontré des problèmes avec sept autres disques, ce qui a causé un arrêt de ce système.

Pendant les manipulations des derniers jours, trois disques ont été récupérés, ce qui a permis d’effectuer une copie de sauvegarde de deux des quatre volumes touchés. Ces fichiers ont été remis à leur emplacement initial dans /project après deux transferts vers un système temporaire.

Cependant, un huitième disque a cessé de fonctionner pendant cette procédure, ce qui a provoqué des pertes de données sur les deux autres volumes. De plus, le chiffrement automatique des données par le système empêchait d’accéder autrement à ces données.

Au cours de ces manipulations, d'autres volumes ont été arrêtés volontairement pour simplifier les opérations.

Finalement, deux volumes (sur les 136 de /project) ont été perdus. Cependant, une copie de sauvegarde sur ruban existe pour la majorité de ces fichiers. Nous avons une liste de ces fichiers par usager et allons procéder à la restauration avec cette copie de sauvegarde. Il s’agit d’environ 1.1 million de fichiers à restaurer sur un total de 249 millions sur le système.

Les tentatives d’accès aux fichiers perdus par les deux volumes perdus retournent présentement des erreurs similaires à No such file or directory. Leur restauration via la copie de sauvegarde va écraser ces fichiers perdus et ils seront ensuite de retour et à nouveau utilisables.

À la fin de cette restauration, nous allons aussi avoir la liste des fichiers définitivement perdus, car ils n'étaient pas encore pris en sauvegarde.

Nous sommes désolés pour les impacts causés par cet incident sur vos activités de recherche.

Dans une approche proactive, nous avons été en contact avec le manufacturier depuis le 23 ​juillet 2025 à propos d’un problème de fiabilité sur le système. Par la suite, nous avons eu des rencontres hebdomadaires depuis début d’octobre et des rencontres plus fréquentes depuis l'évènement. Le problème est remonté aux développeurs et architectes du système de stockage et des disques durs, ainsi qu’à la direction de l’entreprise.

En attendant de connaître la cause exacte, nous prenons des précautions supplémentaires lors des changements de disques. Ces précautions causent une non-disponibilité du système d’une dizaine de minutes, mais permettront une meilleure assurance sur la durabilité des données.

Some news from /project:

  • Some data is temporarily inaccessible to facilitate operations and reduce risks.
  • 50% of the affected data will be restored over the weekend; tape backups will be used to restore the remaining problematic files if the vendor cannot find a solution for the inaccessible data.
  • Analyses are continuing with the vendor to determine the cause of the problem.

======

Quelques nouvelles de /project :

  • Certaines données sont temporairement inaccessibles pour faciliter les opérations et réduire les risques.
  • La restauration de 50% des données impactées se fera au cours de la fin de semaine ; les copies de sauvegarde sur ruban vont être utilisées pour restaurer les autres fichiers en problème si le vendeur ne trouve pas une solution aux données inaccessibles.
  • Des analyses se poursuivent avec le vendeur pour trouver la cause du problème.

Please note that the /project storage space will not return to service before the week of November 17. Compute jobs will remain in the queue until the storage system is stabilized.

Important information will be sent by email to Rorqual users.

======

Le retour en production de l’espace de stockage /project ne se fera pas avant le début de la semaine du 17 novembre. Notez que les tâches de calcul resteront en file d’attente tant que le système de stockage ne sera pas stabilisé.

D'importantes informations seront envoyées par courriel aux usagers de Rorqual.


Incident description

Service Incident status Start Date End Date
Rorqual Closed
Created by Sami Mahmoud on

Title


2025-11-06 - Filesystem problem - Problème de système de fichiers


Summary


There is a problem with the storage system behind the /project filesystem on Rorqual. We are investigating with the vendor. The problem will not be solved before Tuesday November 11.

In the meantime, most compute nodes are already offline, which means pending jobs will be kept in the waiting queue. If you have active jobs using /project, you may cancel them in order to preserve your priority.

The access to /project may work for some files, but not all. At this point, avoid writing or erasing files on /project.

We apologize for the inconvenience.

======

Il y a un problème avec le système de stockage derrière le système de fichiers /project sur la grappe Rorqual. Nous analysons le problème avec le manufacturier. Le problème ne sera pas résolu avant mardi 11 novembre.

En attendant, la plupart des nœuds de calcul sont déjà hors-ligne, ce qui veut dire que les tâches de calcul en attente le resteront. Si vous avez des tâches en cours utilisant /project, vous pouvez les annuler afin de préserver votre priorité.

L'accès à /project pourrait fonctionner pour certains fichiers, mais pas tous. À ce point, évitez d'écrire ou de supprimer des fichiers dans /project.

Nous vous prions de nous excuser pour la gêne occasionnée.


Updated by Pier-Luc St-Onge on