Updates


Event Date Summary
Bonjour, bonnes nouvelles - Nous avons rétabli le service comme avant la coupure de courant pour Narval HPC, le stockage Béluga et Narval, le cloud Béluga et la sauvegarde / Hello, great news - We restored the service as before the power outage for Narval HPC, Béluga and Narval storage, Béluga cloud and the backup
Les services qui seront progressivement rétablis : * la réseautique, * les nœuds de connexion et le stockage principal de Béluga et Narval * le stockage sur ruban * les nuages Béluga-cloud et Juno * l'ensemble des nœuds de calcul de Narval ======================================================================================================== The temporary high voltage cable is in place and we now have enough power bring back online all services by tomorrow : * networking * Béluga and Narval login nodes and main storage * tape storage * Béluga-cloud and Juno * Narval’s compute nodes.
L'évaluation du panneau électrique primaire indique qu’il est en bon état et qu’il peut alimenter Narval. Compte tenu de cette bonne nouvelle, l’ÉTS installe actuellement un câble à haute tension temporaire provenant du bâtiment voisin. Cette installation fournira suffisamment d'énergie pour remettre en ligne la réseautique, le stockage principal, le stockage sur ruban, les nœuds de connexion, les nuages, ainsi qu’une partie des nœuds de calcul. Toutefois, certains défis persistent avant de pouvoir connecter ce câble à la grappe de calcul. ======================================================================== The expert evaluation of the primary power panel did not reveal damage that would prevent it from being connected. Given this good news, ÉTS is currently installing a temporary high voltage cable from a nearby building. This cable should eventually provide us with enough power to bring back online the networking, the main storage, the tape storage, the login nodes, the cloud and a portion of the compute nodes. However, challenges remain to actually connect the cable to the cluster.
Voici un résumé des événements des derniers jours Mardi 8 mars 10h30: Des travaux de voirie sectionnent et étirent le conduit contenant l’alimentation électrique principale, l’alimentation d’urgence et le réseau RISQ 13h30: Première évaluation des actions possibles à court terme par l’ETS Mercredi 9 mars Évaluation préliminaire des dégâts par des experts indépendants Discussions pour obtenir une génératrice d’urgence pour rétablir la puissance au système de robot de rubans. Jeudi 10 mars AM: Installation de la génératrice pour le robot de rubans. 16h30: Système de sauvegarde sur ruban alimenté. Vérifications en cours. Vendredi 11 mars AM: Système de sauvegarde sur ruban fonctionnel, mais accessible uniquement sur place (pas directement accessible par les utilisateurs). AM: Expertise sur la cellule principale du transformateur du centre de données. 9h30: Mise en place d’un nouveau chemin de fibre optique temporaire. ======================================================================== Here is a summary of the last days' events Tuesday March 8 10:30am: Road work cuts and pulls the conduit that contains the main power, emergency power, and RISQ network cables. 1:30pm: First evaluation of possible short-term actions done by ETS. Wednesday March 9 Preliminary evaluation of the damage by independent experts Discussions to obtain an emergency generator to re-establish power to the tape robot system. Thursday March 10 AM: Installation of the generator that provides power to the tape robot. 4:30pm: Backup system on tape powered on. Verification in progress. Friday March 11 AM: Backup system on tape is working, but only accessible on site (not directly accessible by users or via the network) AM: Expertise on the main cell of the data center transformer. 9:30am: A new temporary fibre network cable pathway is put in place.
L’évaluation des dommages est toujours en cours. Veuillez noter que cet incident affecte uniquement des composantes situées à l’extérieur de la salle hébergeant les serveurs. Les systèmes de stockage ainsi que Béluga et Narval n’ont subi aucun dommage physique. Vos données sont inaccessibles pour le moment, mais elles ne sont ni perdues ni compromises. Toutefois, les dommages potentiels à l’entrée électrique sont encore en évaluation. Pour les utilisatrices et utilisateurs qui ont des données critiques et urgentes, notre équipe a maintenant accès au robot de rubans et nous pouvons récupérer de petites quantités de données manuellement et localement. Si vous avez des données critiques et urgentes à récupérer, veuillez écrire à notre équipe (support@calculcanada.ca). Nous vous rappelons que vous avez accès au service infonuagique d'Arbutus et aux grappes de calcul Cedar, Graham et Niagara. Si vous souhaitez utiliser ces autres grappes, merci de suivre les instructions sur la page Migration entre nos grappes : https://docs.computecanada.ca/wiki/Migrating_between_clusters/fr ======================================================================== Damage evaluation is still in progress. Note that this incident only affected hardware components outside the server room. Specifically, the Béluga and Narval storage systems and servers did not suffer any physical damage. Your data is not lost or compromised; it is simply not accessible at the moment. However, damage on the electrical panels is still under evaluation. For the users with critical and urgent need to access data, our team now has access to the tape robot and we can recover small quantities of data manually and locally. If you have critical and urgent needs, please email (support@computecanada.ca) In the meantime, we would also like to remind you that the Arbutus cloud and the Cedar, Graham and Niagara clusters can be used. Those who wish to use other clusters can follow the instructions in this page Migrating between clusters: https://docs.computecanada.ca/wiki/Migrating_between_clusters
L’incident à l’origine des actuels arrêts de service a non seulement causé des dommages matériels à la ligne haute-tension du centre de données, mais aussi au panneau d’alimentation de la salle des serveurs à haute disponibilité. L’utilisation d’une génératrice n’est donc pas possible à très court terme. Ceci a donc des conséquences sur : * le réseau Ethernet central; * les infrastructures infonuagiques Béluga Cloud et Juno; * le système de stockage de Narval et Béluga; * le système de stockage et de prise de copie de sauvegarde sur ruban. Par conséquent, la plupart de ces services ne reviendront pas en production avant plusieurs semaines. Notre équipe est consciente de l’importance de l’accès à vos données et notre priorité est de permettre l’accès aux données sauvegardées sur ruban. Aujourd’hui, des démarches ont déjà été entreprises afin d’évaluer le temps requis pour un retour en service, même partiel. Nous vous communiquerons les plus récents développements d’ici 24 à 48 heures. Comme ceci peut affecter les allocations qui débuteront en avril, le comité d’administration du concours d’allocation a été avisé et prendra les décisions qui s’imposent. ======================================================================== The incident responsible for the current shutdown has not only caused physical damage to the data centre's high-voltage line but also the fuse box in the room used by the high-availability servers. The use of a mobile generator is therefore not an option in the short-term. This has consequences on: * the main Ethernet network * the Béluga and Juno cloud infrastructure * the storage systems for Narval and Béluga * the tape and backup storage system As a result, the majority of these services will not be restored for several weeks. Our team is aware of the importance of being able to access your data. Our immediate priority is to provide access to data backed up on tape. Today, we have already taken steps to evaluate the time required for service restoration, even partial. We will communicate with you concerning the most recent developments in the next 24 to 48 hours. As this event may affect the allocations which will begin in April, the committee responsible for administering the resource allocation competition has been informed of the situation and will make the necessary decisions.
Road construction work in the vicinity of the ÉTS campus has damaged the high voltage electrical line and fibre optic network cable used by the data centre hosting Béluga and Narval. For this reason the entire data centre is currently offline and will remain inaccessible for multiple weeks. / Des travaux de voirie près de l’ÉTS ont endommagé la ligne de haute tension et la fibre réseau qui alimentent le centre de données hébergeant Narval et Béluga. Tout le centre de données est hors-ligne pour plusieurs semaines.

Incident description

System Incident status Start Date End Date
Narval Closed No closed date
Created by Pier-Luc St-Onge on

Title


Panne majeure - Major outage


Summary


There is a power outage at this site - all access are closed, including the access to the data. We are investigating the root cause of this outage. There is no estimated time to resolution. / Il y a une panne de courant sur ce site - tous les accès sont fermés, incluant l'accès aux données. Nous analysons la cause à l'origine de cette panne. Il n'y a pas d'estimation du temps de retour à la normale.


Updated by Cristian Gergely on