Du 14 au 15 juillet 2025 de 22h50 à 02h36 (UTC+2), deux nœuds situés en bas d'un rack ont subi une montée anormale et brutale de température, provoquant leur arrêt automatique. Durant l'incident, aucun autre équipement dans la salle n'a été impacté et la température ambiante ne présentait pas d'anomalie.
Les deux nœuds ont connu une élévation critique de température qui a déclenché leur mécanisme d'arrêt de sécurité. Différentes investigations ont été menées avant d'identifier la cause racine et de mettre en œuvre des mesures correctives avec l'assistance du sous-traitant.
La montée de température, atteignant des niveaux dangereux près du seuil d'arrêt de 42°C, a dépassé la capacité de refroidissement spécifiquement pour ces nœuds en bas de rack. Cette combinaison de positionnement et de conditions thermiques a rendu les nœuds inaccessibles, nécessitant une intervention manuelle pour le redémarrage. Les nœuds ont été redémarrés avec succès vers 02h15, avec des températures mesurées à 39°C durant le processus de redémarrage.
Après avoir sécurisé notre infrastructure, plusieurs projets correctifs ont été entrepris : vérification du flux d'air de la salle et du rack par les techniciens sous-traitants et notre équipe infrastructure, et le remplacement du plancher technique devant le rack par un modèle avec ventilation améliorée. Les dernières mesures des capteurs précédemment problématiques indiquent une température stabilisée à 28°C.