lundi 5 avril 2010

Chapitre 7: L'accident informatique impossible

Comme tout le monde s’y attendait, Laurence de V. a entamé ce comité exécutif en posant une question à Julie Tavelle sur la situation de la relation client depuis l’incident informatique dont tout le monde parle à MonEpargne.com.

« Le portail d’accès aux services financiers proposés par nos partenaires a été indisponible pendant deux jours, de mardi 14h jusque jeudi vers 18h. Cela a provoqué une avalanche de plaintes sur le site Web, un doublement des courriers électroniques et une bulle d’appels sur le centre d’appel. Nous sommes en train d’évaluer le manque à gagner d’un point de vue économique, mais il s’agit du plus gros incident depuis trois ans.

– Sans compter les problèmes que cela nous pose vis-à-vis de nos partenaires, renchérit Armand Pujol en sa qualité de directeur du business developpement. Je suis constamment au téléphone avec nos différents fournisseurs et ils sont très remontés. La plupart me menace d’appliquer des pénalités. Cet incident est totalement inadmissible au regard des sommes extravagantes que nous avons dépensées pour assurer la sécurisation de ce portail. Je vous rappelle que nous avions investi plus de trois millions d’euros pour un ensemble de machines haut de gamme, précisément pour garantir la disponibilité !

– De plus, je me suis investi personnellement dans le plan de secours, à la demande des équipes informatiques, intervient Ravi Mutatsuru qui est le patron de Julie Tavelle. Ce qui signifie que nous avions également un autre ensemble de machines sur un site distant qui pouvait prendre le relais en cas de crise grave, telle qu’un incendie ou un sabotage. Nous avions donc une double sécurité, je dois avouer que je ne comprends pas comment nous avons pu en arriver à cette situation ».

Caroline se dit qu’il est temps d’intervenir avant que la question ne soit reformulée de façon plus froide et beaucoup plus incisive par la présidente. Elle a apprécié de ne pas ouvrir le débat, mais elle sent la tension qui règne dans la pièce. Elle a passé la soirée précédente à préparer cette explication, il est temps de mettre cette épreuve derrière elle.

« Nous avons eu une panne de climatisation dans une des salles machines, donc le fait d’avoir un cluster haute disponibilité n’a servi à rien, il a fallu basculer sur la machine de secours. Même les machines « haut de gamme » ont besoin d’une température stabilisée pour fonctionner…

– Ce n’est vraiment pas de chance, intervient Paul Bellon qui est responsable des moyens généraux et donc de l’équipement des salles machines, nos blocs de climatisation sont tous redondés, mais la panne de ventilateur que nous avons eu sur l’un des blocs s’est produite pendant le jour le plus chaud de la canicule exceptionnelle de cet été. Même si les blocs sont dimensionnés pour couvrir l’ensemble de la salle de façon unitaire, nous n’avons pas réussi à maintenir la température de la salle en faisant tourner le deuxième bloc au maximum. Pourtant les deux unités venaient d’être révisées et le fabriquant nous avait garanti le fonctionnement pour les six mois suivants.

– Paul, je n’y connais rien en matière de climatisation, mais a priori que la clim’ tombe en panne pendant la canicule, c’est plutôt normal, non ? » Cette remarque acide d’Antoine Viener indique à Caroline qu’il faut reprendre le contrôle de la discussion.

– La bascule sur le site de secours a parfaitement fonctionné, mais elle a pris plus de deux heures, le temps de restaurer les données et de lancer les applicatifs. Le site de secours est un site passif, conformément aux demandes de notre client – Caroline se retourne vers Ravi – ce qui signifie que la bascule n’est pas instantanée. Ceci est qualifié par la DMIA – la durée maximale d’interruption admissible – pour laquelle nous avions retenu quatre heures. Un site de secours actif aurait été possible, mais il coûtait plus cher…

– C’est normal que nous ayons choisi une solution simple et plus économique, rétorque Ravi, puisque nous avions retenu une configuration haute disponibilité très chère pour le site primaire, et que nous étions sûrs que nous n’aurions pas besoin d’utiliser le site secondaire.

– Lorsque le site secondaire – de secours – a redémarré, poursuit Caroline, nous avons dû faire face aux ordres en retard. Le portail B2B sert à la fois pour les interactions avec les clients physiques, mais aussi pour les échanges électroniques B2B avec des partenaires financiers. Ces ordres se sont accumulés pendant les deux heures et ont créé une surcharge au moment de la reprise. Les performances se sont dégradées, et nous sommes tombés sur une anomalie logicielle du module que nous avons installé pour gérer les délestages que nous faisons lorsque le site est trop fréquenté et que les performances se dégradent. Il nous a fallu moins de deux jours pour diagnostiquer, corriger l’anomalie, tester et installer le patch correctif, ce qui est excellent et ce pourquoi je tiens à remercier notre fournisseur et nos équipes. » Caroline sent bien qu’il y a une pointe de provocation dans cette dernière remarque, mais c’est pourtant la stricte vérité. « Pendant ces deux jours, nous avons pu installer un palliatif et faire fonctionner 70 % de nos services, mais il est vrai qu’une partie des services les plus populaires du portail financier était indisponible.

– Nous avons rétabli le service à la date que nous avions annoncé aux clients sur la page « bouchon » du site Web, souligne Julie, mais nous avons eu des ralentissements et des performances dégradées pendant près de quatre jours après le rétablissement. »

Caroline est sensible au soutien implicite et à la mesure des propos de Julie depuis le début de la réunion. Elle remarque que les déjeuners opérationnels de Paul ont réduit la distance et créé un meilleur climat depuis quelques mois.

« La machine du site secondaire est dimensionnée de façon « optimisée » pour le flux quotidien, le rattrapage lié à la situation de crise a pris beaucoup de temps, même si nous avons utilisé toutes les ressources et travaillé toutes les nuits.

– Ce sous-dimensionnement, cela semble être une erreur d’architecture du système ? Était-ce sous notre responsabilité ou celle de notre fournisseur ? demande Antoine.

– Il s’agit plus d’une limitation que d’une erreur, réplique Caroline. Cette limitation était connue et avait été exposée à notre client, Ravi, mais comme il l’a expliqué, nous avons considéré que les inconvénients liés aux ralentissements ne justifiaient pas l’investissement dans une deuxième configuration haute performance.

– En revanche, l’anomalie qui vous a coûté 36 heures d’interruption est bien une erreur, reprend Paul Bellon, comment se fait-il qu’elle n’ait point été détectée pendant les tests ? Quand on voit ce que coûtent les tests pour chaque projet informatique, je ne comprends pas qu’on puisse laisser passer des anomalies aussi flagrantes…

– Les tests que nous réalisons sont avant tout des tests fonctionnels et des tests d’interface. Nous réalisons également des tests de performance et des tests d’exploitabilité, mais nous n’avons pas de jeux de données « réels » qui correspondent à des véritables situations de crise. Nous sommes obligés de mettre les systèmes sous stress avec des générateurs de données qui ne représentent pas la complexité fonctionnelle de ce qui se passe en opération. C’est pour cela que certaines anomalies de fonctionnement liées à des portions du logiciel qui sont utilisées dans des situations exceptionnelles peuvent échapper à la détection.

– En fait, nous investissons beaucoup mais cela ne sert pas à grand-chose ? », interroge Laurence de V. La présidente a regardé les échanges, telle l’arbitre d’un match de tennis. Elle n’est pas convaincue par les explications de Caroline ; pour elle, un problème informatique est de la responsabilité de la direction informatique.

– Tout au contraire ! Nous avons eu deux incidents en trois ans sur le site primaire du portail, un lié à une panne disque et l’autre à une carte de contrôleur réseau, qui ont été tous les deux invisibles parce que l’architecture du cluster a bien fonctionné. Si nous n’avions pas investi dans ces nouvelles machines, nous aurions eu des interruptions de quelques heures à chaque fois. Nous ne pouvons également que nous féliciter d’avoir mis en place un plan de secours. Sans lui, ce n’est pas une indisponibilité partielle de 30 % que nous aurions eu, mais bien une indisponibilité totale en attendant le retour de la climatisation. Il faudra attendre le bilan économique pour pouvoir tirer des conclusions, mais, pour ma part, je crois que nous devrions augmenter la puissance des machines de secours, compte tenu de l’enjeu économique.

Ludovic, je voudrais que tu prennes la main sur ce sujet et que tu fasses un audit complet. Caroline, il faut renforcer vos procédures et vos équipes, même si cela doit nous coûter un peu plus cher. Préparez-nous une proposition pour le mois prochain » Caroline regarde sa montre et attend la prochaine pause avec impatience, en faisant l’amère constatation qu’elle est seule pour « porter le chapeau ». Elle pensait pourtant avoir bien expliqué l’implication des directions métiers lors de l’établissement du plan de secours, mais il est difficile de partager une aussi lourde responsabilité.

Aucun commentaire:

Enregistrer un commentaire