[CLOUDGOUV-EU-WEST-1] Problème stockage

Incident Report for 3DSOutscale Status page

Postmortem

Du 14 au 15 juillet 2025 de 22h50 à 02h36 (UTC+2), deux nœuds situés en bas d'un rack ont subi une montée anormale et brutale de température, provoquant leur arrêt automatique. Durant l'incident, aucun autre équipement dans la salle n'a été impacté et la température ambiante ne présentait pas d'anomalie.

Les deux nœuds ont connu une élévation critique de température qui a déclenché leur mécanisme d'arrêt de sécurité. Différentes investigations ont été menées avant d'identifier la cause racine et de mettre en œuvre des mesures correctives avec l'assistance du sous-traitant.

La montée de température, atteignant des niveaux dangereux près du seuil d'arrêt de 42°C, a dépassé la capacité de refroidissement spécifiquement pour ces nœuds en bas de rack. Cette combinaison de positionnement et de conditions thermiques a rendu les nœuds inaccessibles, nécessitant une intervention manuelle pour le redémarrage. Les nœuds ont été redémarrés avec succès vers 02h15, avec des températures mesurées à 39°C durant le processus de redémarrage.

Après avoir sécurisé notre infrastructure, plusieurs projets correctifs ont été entrepris : vérification du flux d'air de la salle et du rack par les techniciens sous-traitants et notre équipe infrastructure, et le remplacement du plancher technique devant le rack par un modèle avec ventilation améliorée. Les dernières mesures des capteurs précédemment problématiques indiquent une température stabilisée à 28°C.

Posted Aug 07, 2025 - 10:37 CEST

Resolved

This incident has been resolved.
Posted Jul 15, 2025 - 10:04 CEST

Monitoring

Bonjour,

Nous vous informons que l’incident a été résolu et que les services sont à présent rétablis.
Nos équipes restent néanmoins en phase de monitoring afin de s’assurer de la stabilité complète de la situation.

Nous vous remercions pour votre patience.

Cordialement,
Outscale Support
Posted Jul 15, 2025 - 02:43 CEST

Update

Bonjour,

À ce stade, nous ne sommes pas encore en mesure de vous communiquer un délai estimé de rétablissement.
Nos équipes techniques restent pleinement mobilisées pour résoudre l’incident dans les meilleurs délais.

Cordialement,
Outscale Support
Posted Jul 15, 2025 - 01:11 CEST

Identified

Bonjour,

Nous souhaitons vous informer que nous avons identifié un incident impactant le "Persistent storage".
Nos équipes techniques sont actuellement mobilisées et travaillent activement à sa résolution.

Nous vous tiendrons informé(e) de l’évolution de la situation dans les plus brefs délais.
Nous vous remercions pour votre compréhension et votre patience.

Cordialement,

Outscale Support
Posted Jul 14, 2025 - 23:41 CEST
This incident affected: cloudgouv-eu-west-1 (Persistent storage).