05 Oct Une erreur virtuelle est une bonne erreur
Les opérateurs de data centers peuvent difficilement « aller vite et casser des choses ». Mais ils peuvent découvrir de meilleures méthodes de travail et d’exploitation.
Il n’y a jamais de bon moment pour faire une erreur dans un data center. En réalité, travailler dans une telle installation revient à dire que « ne pas faire d’erreur » fait partie de la description du poste.
Alors, pourquoi une erreur virtuelle serait une bonne erreur ?
Prenons un instant de recul par rapport à ces moments angoissants où une alerte vous indique que vous êtes confronté à une panne. Ou le sentiment de frustration lorsque l’entreprise reçoit une demande qui va pousser votre capacité dans une zone d’inconfort. Réfléchissons à nouveau à la raison pour laquelle nous faisons ce que nous faisons.
J’ai appris très tôt une chose dans mon parcours dans le secteur. C’est qu’il y a deux façons significatives de faire les choses. La première est la façon dont nous l’avons toujours fait. La seconde est la meilleure façon possible de le faire.
La première a ses avantages car elle évite de faire des vagues, mais elle nuit à l’objectif ultime du data center, qui est de soutenir l’entreprise le plus efficacement possible. La seconde est définitivement meilleure pour l’entreprise. Toutefois, la découverte de la « meilleure façon » de faire quelque chose est semée d’embûches. Et les data centers ne sont pas vraiment des environnements du type « échouer rapidement, apprendre rapidement ».
Mais que se passerait-il s’ils pouvaient l’être ?
Le coût des temps d’arrêt et de la sous-performance
À l’heure actuelle, alors que de nombreuses entreprises et secteurs restent fragiles après le choc de la pandémie, les temps d’arrêt sont plus problématiques que jamais. L’enquête mondiale menée par l’Uptime Institute en 2020 auprès des responsables de data centers a révélé que 40 % des pannes coûtent désormais entre 100 000 et 1 million de dollars. Et ce, avant de prendre en compte l’impact sur la réputation d’une marque.
Nous sommes tous exposés à ces incidents. La panne de Microsoft Azure fin 2020 en est un bon exemple. Un incident lié au refroidissement a mis hors service l’installation britannique. Parmi les retombées de cet incident, il y a eu l’impact très médiatisé sur le portail d’information Covid-19 du gouvernement britannique. Ce n’était pas quelque chose qui pouvait être balayé discrètement sous le tapis au milieu de la pandémie.
Pour d’autres organisations, qu’il s’agisse d’un vendredi noir ou d’un grand jour de négociation, des incidents cauchemardesques similaires sont présents à l’esprit. Il est probable que ce problème devienne de plus en plus courant. La transformation numérique et la révolution du télétravail de ces 18 derniers mois sont venues s’ajouter à la croissance exponentielle des données et à la prolifération des applications d’entreprise. Le data center doit fournir énormément de services à l’entreprise. De plus, presque tout le monde, en dehors des personnes qui gèrent l’infrastructure et les opérations, suppose qu’il peut toujours le faire.
Embrasser le chaos
Historiquement, on prenait de grandes marges pour définir les limites de capacité, de refroidissement et de puissance électrique. Cette pratique est aujourd’hui dépassée. Les professionnels de l’infrastructure et des opérations doivent donc se contenter de faire les choses. Et c’est là que nous revenons à notre culture du « fail fast ». Lorsque les changements affluent, vous devez les planifier et les gérer avec précision et rapidité. L’utilisation du jumeau numérique de votre data center vous permet de le faire. A la différence que vos erreurs ne seront jamais que virtuelles. La partie « apprentissage rapide » peut ensuite être déployée dans un environnement réel.
Le jumeau numérique est une représentation virtuelle de votre installation physique. Il vous offre une simulation précise et réaliste de votre environnement dans laquelle vous pouvez tester des scénarios. ceci, jusqu’aux serveurs ou les prises électriques d’alimentation. Grâce à la dynamique des fluides numérique (CFD), il simule le flux d’air dans l’installation. Vous pouvez ainsi comprendre les propriétés thermiques, les points chauds et les autres points de défaillance (électriques par exemple) susceptibles de provoquer des temps d’arrêt.
C’est cette approche qui permet aux entreprises de tirer des enseignements de certains innovateurs du secteur technologique. Prenons l’exemple de Netflix lors de sa migration vers AWS en 2011. Ils se sont appuyés sur le principe de l’ingénierie du chaos, ce qui consiste à casser les choses volontairement. Ils ont examiné la fiabilité de leurs systèmes dans un large éventail de scénarios. Enfin, ils ont expérimenté les conséquences de serveurs et de clusters défaillants, ainsi que le remplissage de disques durs aléatoires. Cela leur a permis de réduire le temps moyen de résolution (MTTR) des incidents dans leurs environnements critiques.
Se tromper vite pour ne pas faire d’erreur
Vous voulez connaître les retombées d’une panne d’unité de refroidissement ? Ou désirez comprendre les conséquences de la montée en puissance des racks de votre site passif lorsque le site miroir actif sur un site géographique différent est défaillant ? Vous souhaitez tester ce qui se passe si vous changez quelques serveurs ? La technologie du jumeau numérique permet aux entreprises de réaliser ce type d’analyse audacieuse dans un modèle totalement exempt de risques. Et cela peut se faire de manière rapide et transparente.
Un jumeau numérique vous permet de modéliser votre data center dans n’importe quelle configuration. Et ce, à travers n’importe quelle complication ou catastrophe. Alors, comme vous pouvez anticiper et résoudre efficacement les faiblesses, une demande importante de l’entreprise ne vous fait plus froid dans le dos.
Il ne fait aucun doute que les professionnels de l’infrastructure et de l’exploitation continueront à éviter les pannes dans les data centers. Cela fait partie intégrante de leur description de poste. Mais la façon dont ils s’y prennent va devoir changer radicalement. Heureusement, les capacités sont déjà là pour rendre cela possible. Le déploiement d’un jumeau numérique vous permet de vous préparer à des scénarios de panne et de mettre en œuvre des changements en toute sécurité.
Le reste de l’entreprise subit une transformation numérique majeure qui change la donne. Avec l’approche du jumeau numérique, les data centers peuvent faire un pas en avant similaire et énorme. Donc, si vous devez faire une erreur, assurez-vous qu’elle ne soit que virtuelle.
________________________________
Le déploiement d’un jumeau numérique vous permet de vous préparer à des scénarios de pannes et de mettre en œuvre des changements en toute sécurité
Dave King, Future Facilities, Product Manager