Close

Gestion des incidents pour les équipes haute vélocité

Plans de reprise d'activité pour les professionnels ITOps et DevOps

À mesure que les services informatiques passent d'un centre de coûts secondaire à un atout stratégique pour l'entreprise, des pratiques efficaces de reprise d'activité sont plus importantes que jamais.

Qu'il s'agisse de temps d'arrêt des apps, de perte de données ou même d'un incendie sur site, il est rarement simple d'intervenir en cas de sinistre.

Pour les petites entreprises, la reprise peut être dévastatrice. Environ 40 à 60 % d'entre elles ne rouvrent jamais leurs portes à la suite d'un sinistre, selon la Federal Emergency Management Agency (FEMA).

Qu'est-ce qu'un plan de reprise d'activité ?

Un plan de reprise d'activité est un ensemble documenté de pratiques et de procédures mises en place pour protéger une organisation et ses ressources informatiques en cas de sinistre. Généralement, le plan comprend des scénarios, des runbooks, des sauvegardes et des instructions pour assurer le bon fonctionnement de l'entreprise et des services informatiques opérationnels. C'est particulièrement pertinent dans le cadre d'événements tels que les échecs système, les temps d'arrêt, les violations de la sécurité ou la perte de données.

Selon IBM :

« Avant les années 1970, la plupart des organisations n'avaient qu'à se soucier de faire des copies de leurs documents au format papier. La planification de la reprise d'activité a pris de l'importance au cours des années 1970, les entreprises ayant commencé à compter davantage sur des opérations informatisées. À l'époque, la plupart des systèmes étaient des ordinateurs centraux qui traitaient les tâches par lots. Un autre ordinateur central hors site pouvait être chargé à partir de bandes de sauvegarde, en attendant la restauration du site principal. »

Planification de la reprise d'activité et planification de la continuité d'activité

La planification de la reprise d'activité est un sous-ensemble de la planification de la continuité d'activité. Alors que la planification de la reprise d'activité vise à rétablir les services impactés le plus rapidement possible, la planification de la continuité d'activité vise à garantir le fonctionnement ininterrompu de l'entreprise en cas de sinistre.

Le rôle de l'informatique est central dans les deux pratiques, qu'il s'agisse de la reprise d'activité ou de la continuité de l'activité.

Il est facile de confondre reprise d'activité et continuité de l'activité, ou de les considérer comme interchangeables. La planification de la reprise d'activité vise à rétablir le service après un incident. La reprise d'activité est une plus petite partie du plan de continuité d'activité global. Un plan de continuité d'activité est conçu pour assurer le fonctionnement de l'organisation avant, pendant et après un incident. Si la reprise d'activité signifie « comment nous mettons fin à cet incident », la continuité de l'activité explique « comment continuer à opérer en tant qu'entreprise même pendant un incident ».

Planification de la reprise d'activité et gestion des incidents

Pour les équipes DevOps et informatiques opérationnelles, la gestion des incidents désigne le processus appliqué pour répondre à un événement non planifié ou à une interruption de service et rétablir le service à son état opérationnel.

La gestion des incidents et la reprise d'activité sont souvent utilisées de manière interchangeable, selon l'équipe et l'organisation. La gestion des incidents est également axée sur la résolution des incidents en temps réel et le rétablissement des services pendant l'incident.

Chez Atlassian, nous définissons un incident comme un événement ayant provoqué une perturbation ou une réduction de la qualité d'un service nécessitant une réponse d'urgence.

Ou selon le livre « Site Reliability Engineering: How Google Runs Production Systems » :

« Une gestion efficace des incidents est essentielle pour limiter les perturbations causées par un incident et rétablir le plus rapidement possible les activités normales de l'entreprise. Si vous n'avez pas préparé votre réponse aux incidents potentiels, une gestion des incidents fondée sur des principes peut être mise à mal dans des situations réelles. »

Google recommande également d'inclure la gestion des incidents dans le processus de test de reprise d'activité d'une organisation. Tout au long du processus de réponse aux incidents, les actions et les communications des intervenants sont idéalement consignées afin de créer une chronologie d'incident détaillée qui peut servir de ressource pour de futurs incidents ou pannes liés. Cette approche est idéale pour les organisations qui exécutent des tests de reprise d'activité, car les équipes disposent du contexte global des opérations.

Qu'est-ce que l'objectif de récupération ?

L'objectif de récupération (RTO) désigne la période de récupération acceptable pour une fonction métier pour reprendre le service normal après une panne. Il est étroitement lié au temps moyen jusqu'à la remise en route abordé dans les métriques DevOps.

Planification de la reprise d'activité dans un univers DevOps

Comment les plans de reprise d'activité restent-ils pertinents dans l'univers de la livraison continue, des tests automatisés et des déploiements multiples par jour ?

En d'autres termes, quel rôle jouent les plans de reprise d'activité dans les organisations qui ont adopté DevOps ?

Heureusement, les deux pratiques peuvent coexister et se compléter mutuellement. Les mêmes outils et processus que vous utilisez pour pusher du code depuis l'environnement de développement vers l'environnement de test, puis de production, peuvent également jouer un rôle dans la reprise d'activité. Par exemple, les sauvegardes des environnements de production utilisés pour tester les déploiements peuvent également être utilisées pour exécuter des simulations de sinistre. De plus, les commits de code suivis depuis votre pipeline de CI/CD peuvent être un outil utile pour faire face aux changements récents dans un scénario de reprise d'activité.

DevOps donne de plus en plus le ton pour toutes les décisions informatiques de l'entreprise, ce n'est pas un secret. Mais cela n'implique pas que tout le travail consacré au plan de reprise et aux ressources est perdu, ou que votre plan de reprise d'activité restera sur l'étagère à prendre la poussière.

Découvrez la solution de gestion des incidents d'Atlassian, Jira Service Management, et comment elle fournit la flexibilité nécessaire aux équipes de développement et opérationnelles pour collaborer, que ce en vue de résoudre des incidents ou lors d'une reprise d'activité.