Event Date | Summary |
---|---|
All clients have been updated. ========= Tous les clients ont été mis à jour. |
|
=========
|
Service | Incident status | Start Date | End Date |
---|---|---|---|
Narval | Closed |
Filesystem problem - Problème de système de fichiers
Some users have reported transient and random issues with Narval's filesystems. We have noticed that since a recent kernel security update which forced us to change the version of Lustre clients, compute nodes are more frequently evicted. When this happens, filesystem operations that are in progress on that node will fail. This may crash jobs that are not resilient against such failures (i.e. which don't retry to read or write upon failure). We are investigating possible solutions.
Certains utilisateurs nous ont rapporté des problèmes transients et aléatoires avec les systèmes de fichiers de Narval. Nous avons aussi remarqué que depuis une mise à jour de sécurité du noyau Linux qui a nécessité un changement de version du client Lustre, les noeuds de calcul se font plus fréquemment évincer. Lorsqu'une éviction se produit, les opérations d'écriture ou lecture qui sont en cours sur le noeud de calcul en question vont échouer. Ceci peut faire échouer des tâches qui ne sont pas résiliantes par rapport à ce type d'erreur (ex., qui ne réessaient de nouveau si une erreur se produit). Nous investiguons les pistes de solution potentielles.
Updated by Maxime Boissonneault on