English version below
Post Mortem
Référence incident
TSR-3389
Service concerné
Reversement des transactions.
Impact client
Impossibilité de procéder au reversement de l’intégralité des transactions pendant la durée de l’incident, entraînant un retard de règlement des marchands.
Synthèse de l’incident
- 15 juin 10h10 : remontées d’alertes indiquant que certains marchands n’ont pas reçu de fonds. Début de l’incident et début des premières analyses.
- 15 juin 10h36 : création d’une cellule de crise dédiée.
- 15 juin 10h37 : identification d’un problème de génération de certaines demandes de virements.
- 15 juin 10h52 : identification d’un second incident affectant la validation des virements.
- 15 juin 11h11 : résolution de l’incident affectant la validation des virements.
- 15 juin 11h14 : demande de validation des virements contenant les transactions du weekend et poursuite des investigations sur l’erreur de génération de certaines demandes de virements.
- 15 juin 11h34 : validation des virements du weekend & poursuites des investigations pour pouvoir envoyer les fonds le lendemain suite au dépassement du cutoff.
- 15 juin 11h55 : identification de l’origine de l’incident.
- 15 juin 12h22 : élaboration d’un plan d’action pour permettre l’envoi des fonds manquants le lendemain.
- 15 juin 15h : déploiement des actions correctives sous surveillance des équipes.
- 15 juin 17h10 : fin des actions correctives. Fin de l’incident.
- 16 juin 7h30 : aucune alerte indiquant des erreurs.
- 16 juin 9h30 : vérification de la bonne génération des demandes de virement.
- 16 juin 10h57 : contrôle des virements par les équipes techniques.
- 16 juin 10h59 : les différents contrôles confirment le reversement de l’ensemble des fonds.
Root cause
Une erreur dans le déclenchement d’un lanceur de tâche a interrompu la génération des fichiers de virements et a ainsi empêché le reversement de certains fonds.
Actions prises par Payplug
| Symptômes |
Actions |
| Absence d’une alerte spécifique sur la non génération d’un fichier. |
Ajout d’une alerte pour détecter des erreurs de non génération d’un fichier et anticiper un incident de reversement. |
| Absence d’alerte spécifique sur l’échec d’un lanceur de tâches. |
Réflexions en cours pour ajouter des alertes pouvant remonter des échecs dans un lanceur de tâches. |
==============ENGLISH VERSION==============
Post Mortem
Incident reference
TSR-3389
Payment services affected by the incident
Transaction settlement
Client impact
Inability to settle all transactions during the incident, resulting in delayed merchant settlements.
Incident Overview
- 15 June 10:10 am: alerts were raised indicating that some merchants had not received their funds. Incident start and commencement of initial investigations.
- 15 June 10:36 am: a dedicated crisis management team was established.
- 15 June 10:37 am: a problem affecting the generation of certain bank transfer requests was identified.
- 15 June 10:52 am: a second incident affecting transfer validation was identified.
- 15 June 11:11 am: the incident affecting transfer validation was resolved.
- 15 June 11:14 am: request submitted for validation of transfers containing weekend transactions, while investigations continued into the error affecting the generation of certain transfer requests.
- 15 June 11:34 am: weekend transfers validated. Investigations continued to enable the missing funds to be sent the following day due to the cut-off time having been exceeded.
- 15 June 11:55 am: root cause of the incident identified.
- 15 June 12:22 pm: an action plan was developed to enable the missing funds to be sent the following day.
- 15 June 3:00 pm: corrective actions deployed under team supervision.
- 15 June 5:10 pm: corrective actions completed. Incident resolved.
- 16 June 7:30 am: no alerts indicating any errors.
- 16 June 9:30 am: verification of the correct generation of transfer requests.
- 16 June 10:57 am: transfers checked by the technical teams.
- 16 June 10:59 am: all checks confirmed that all funds had been successfully settled.
Root cause
An error in the triggering of a job scheduler interrupted the generation of bank transfer files, preventing the settlement of certain funds.
Actions taken by Payplug
| Symptoms |
Actions |
| No specific alert was in place to detect the failure to generate a file. |
An alert has been added to detect file generation failures and proactively identify potential settlement incidents. |
| No specific alert was in place to detect failures of the job scheduler. |
Discussions are underway to implement alerts capable of reporting failures within the job scheduler. |