INCIDENT PROCESSING | Perturbations plateforme de paiement / Payment platform disruptions / Perturbazioni della piattaforma di pagamento

Incident Report for Payplug

Postmortem

English version below

Post Mortem

Référence incident

TSR-2090

Service concerné

Paiements e-commerce et magasin.

Impact client

Indisponibilité générale.

Synthèse de l’incident

  • 23 juillet : mise hors production du premier groupe de serveurs.
  • 24 juillet : mise hors production du deuxième groupe de serveurs.
  • 29 juillet 14h43 : mise hors production du troisième groupe de serveurs. Début de l’incident.
  • 29 juillet 14h45 : remontées d’alertes.
  • 29 juillet 14h48 : création d’une cellule d’incident majeur et début des investigations.
  • 29 juillet 14h51 : communication Statuspage.
  • 29 juillet 14h51 : redéploiement du service.
  • 29 juillet 15:05 : reprise progressive du service.
  • 29 juillet 15h08 : fin de l’incident.

Contexte

La patch management consiste en une série de correctifs qui sont déployés chaque semaine alternativement sur chacune des trois parties des serveurs de production (les mardi, mercredi et jeudi).

Root cause

Le patch management a successivement mis hors production chacun des serveurs.

Actions à entreprendre par Payplug

Symptômes Actions
Défaut de détection de la mise hors production des serveurs. Ajout de contrôles pour être alerté dès qu’un serveur est mis hors production.
Mise hors production du dernier serveur. Ajout de contrôles pour être alerté lorsqu’il ne reste plus qu’un serveur actif en production. Interdiction de la mise hors production automatique du dernier serveur.
Mises hors production successives de tous les serveurs de production par le patch management. Désactivation jusqu’à nouvel ordre du patch management. Investigations en cours.

==============ENGLISH VERSION==============

Post Mortem

Incident reference

TSR-2090

Payment services affected by the incident

E-commerce and in-store payments.

Client impact

Widespread unavailability.

Incident Overview

  • July 23: decommissioning of the first group of servers.
  • July 24: decommissioning of the second group of servers.
  • July 29 - 2:43pm: decommissioning of the third group of servers. Start of the incident.
  • July 29 - 2:45pm: alerts triggered.
  • July 29 - 2:48pm: major incident task force created and investigations started.
  • July 29 - 2:51pm: statuspage communication.
  • July 29 - 2:51 pm: service redeployment.
  • July 29 - 3:05pm: gradual service recovery.
  • July 29 - 3:08pm: end of the incident.

Context

Patch management consists of a series of updates that are deployed weekly in rotation across each of the three groups of production servers (on Tuesdays, Wednesdays, and Thursdays).

Root cause

Patch management successively decommissioned each of the servers.

Actions to be taken by Payplug

Symptômes Actions
Failure to detect server decommissioning. Addition of controls to trigger alerts as soon as a server is decommissioned.
Decommissioning of the last server. Addition of controls to trigger alerts when only one active production server remains. Blocking of automatic decommissioning of the last server.
Successive decommissioning of all production servers by patch management. Patch management deactivated until further notice. Ongoing investigations.
Posted Jul 30, 2025 - 09:12 CEST

Resolved

TSR-2090
- Début / Start / Inizio : 29/07/2025 14h43 CEST.
- Fin / End /fine : 29/07/2025 15h08 CEST.
- Catégorie / Category / Categoria: Production Processing
- Responsabilité / Responsibility / Responsabilità : Payplug
- Priorité / Priority / Priorità: P2

FR
Un correctif a été appliqué.
Le service a été rétabli.

EN
A fix has been applied.
The service has been restored.

IT
È stata applicata una correzione.
Il servizio è stato ripristinato.
Posted Jul 29, 2025 - 16:17 CEST

Monitoring

TSR-2090
- Début / Start / Inizio : 29/07/2025 14h43 CEST.
- Fin / End /fine : En cours / Ongoing / In corso.
- Catégorie / Category / Categoria: Production Processing
- Responsabilité / Responsibility / Responsabilità : Payplug
- Priorité / Priority / Priorità: P2

FR
Le service revient progressivement en nominal depuis 15h08.
Nous continuons de monitorer le service.

EN
Nominal service has been observed since 3:08pm.
We are continuing to monitor the service.

IT
Il servizio sta tornando progressivamente alla normalità dalle 15:08.
Continuiamo a monitorare il servizio.
Posted Jul 29, 2025 - 15:14 CEST

Investigating

FR

Nous avons identifié des difficultés sur le processing de paiements.
L'incident est en cours d'analyse.

EN

We have identified ongoing difficulties on the payment processing.
An investigation is in progress.

IT

Abbiamo identificato delle difficoltà nell'elaborazione dei pagamenti.
L'incidente è in fase di analisi.
Posted Jul 29, 2025 - 14:57 CEST
This incident affected: API de Paiement | Payment API, Portail | Portal, Demande de paiement | Payment request, and Paiement en magasin.