Synthèse de l’incident
01/06 10h18 : Mise en production du service d’authentification 3DS et début incident
01/06 10h22 : Rollback
01/06 10h37 : Ouverture de la cellule de crise
01/06 10h48 : Communication status page
01/06 11h25 : Fin de l’incident et reprise du service
03/06 08h50 : Mise à jour automatique de sécurité (patch management) et début de l’incident
03/06 09h44 : Ouverture de la cellule de crise
03/06 10h50 : Fin de l’incident et reprise du service
Root cause
Service d’authentification 3DS démarré avec les dernières configurations industrialisées antérieures à l’incident GCP
Contexte
Lors de l'incident du 26/04 lié à GCP, certaines configurations ont été modifiées manuellement suite à l’inaccessibilité des outils Google permettant d'industrialiser les configurations.
Lors du rollback du 1er juin, les services ont été redémarrés avec les dernières configurations industrialisées qui ont écrasé les configurations manuelles.
Une mise à jour de sécurité automatique a eu lieu le 3 juin, provoquant le redémarrage du service d’authentification 3DS avec les dernières configurations industrialisées et un deuxième incident similaire au premier.
Actions à entreprendre par Payplug
Symptome | Action |
---|---|
Dernière configuration industrialisée pas à jour | Arrêt des mises en production tant que la situation n’est pas stabilisée Répertorier les configurations manuelles et réindustrialiser ces configurations |
Communication status page tardive/absente dans les deux cas | Améliorer l’automatisation du processus incident majeur (notamment en heure non ouvrée) Renforcer la formation sur le processus incident majeur Reprendre l’implémentation de monitoring / alerting spécifiques supplémentaires |