Service concerné
Paiement e-commerce (y compris moyens de paiement alternatifs).
Impact client
Dégradation progressive du service à partir de 10h45 jusqu'à 11h15 avant récupération progressive jusqu'à 11h42.
Synthèse de l’incident
10h45 : mise en production de fonctionnalités de monitoring et début de l’incident.
11h04 : détection de la dégradation du service paiement.
11h08 : ouverture de la cellule de crise technique.
11h13 : rollback pour enlever la fonctionnalité et reprise progressive du service.
11h42 : rollback terminé, reprise totale du service et fin de l’incident.
Root cause
Mise en production de fonctionnalités pour améliorer notre monitoring qui se sont avérées défaillantes. Les tests effectués n’avaient pas mis en évidence la défaillance des fonctionnalités.
Contexte
La mise en production d’une nouvelle fonctionnalité, tout comme le rollback pour l'enlever sont progressifs sur les différents serveurs, ce qui explique la dégradation et le retour progressifs du trafic.
Actions à entreprendre par Payplug
Symptôme | Action |
---|---|
Tests qui n’ont pas mis en évidence la défaillance | Investigation en cours sur la non détection en environnement de test. Actions à venir pour pallier le potentiel problème de manque de représentativité des tests. |
Détection de l’incident perfectible (19 minutes après début de mise en production, en partie justifié par le déploiement progressif) | Revue et rappel de formation des équipes sur le process de déploiement (notamment sur la partie monitoring post déploiement) |
Rollback pour rétablir le service trop long | Amélioration du process de rollback qui nécessite actuellement un redéploiement progressif sur tous les serveurs |
==============VERSIONE ITALIANA==============
Servizio coinvolto
Pagamento e-commerce (compresi metodi alternativi di pagamento).
Impatto sul cliente
Dal 10:45 alle 11:15 si è verificato un degrado progressivo del servizio, seguito da un recupero graduale fino alle 11:42.
Sintesi dell'incidente
10:45: Introduzione in produzione di nuove funzionalità di monitoraggio, avvio dell'incidente.
11:04: Rilevamento del degrado nel servizio di pagamento.
11:08: Attivazione della cellula di crisi tecnica.
11:13: Rollback per eliminare le nuove funzionalità e ripristino graduale del servizio.
11:42: Completamento del rollback, ripristino del servizio, conclusione dell'incidente.
Causa principale
Introduzione di funzionalità difettose durante la messa in produzione, non rilevate durante i test.
Contesto
La messa in produzione e il rollback delle funzionalità sono progressivi su server diversi, spiegando il degrado e il recupero graduale del traffico.
Azioni da intraprendere
Symptôme | Action |
---|---|
Test che non hanno individuato la falla | Indagine sulla mancata rilevazione durante i test e azioni future per migliorare la rappresentatività dei test. |
Rilevazione dell'incidente migliorabile | Revisione e rinnovo della formazione dei team sul monitoraggio post-incidente. |
Rollback troppo lungo | Miglioramento del processo di rollback per ridurre il tempo necessario al ripristino. |