Planification de la continuité de l'activité et reprise après sinistre

Cette page s'applique à Apigee et à Apigee hybrid.

Consultez la documentation d'Apigee Edge.

Apigee est une plate-forme cloud mutualisée et en libre-service qui s'exécute dans une configuration entièrement redondante (live/live) sur plusieurs centres de données, répartis dans plusieurs régions du monde. Apigee utilise Google Cloud pour sa plate-forme cloud. Dans le cadre des services que nous créons sur Google Cloud, nous utilisons plusieurs centres de données dans chaque région, qui nous permettent de diffuser du trafic en temps réel pour nos clients. Nous n'avons pas de centre de données "live" et de centre de données "de secours" (c'est-à-dire "secondaire", ou "de basculement"). Nous disposons d'au moins deux centres de données qui diffusent constamment et simultanément du trafic client, dans chaque région du monde.

Plan BCP/DR

La solution Apigee de planification de la continuité de l'activité et de reprise après sinistre (BCP/DR) consiste en un plan à l'échelle de la plate-forme, qui ne contient pas de tâches détaillées pour les clients individuels. La plate-forme est plutôt configurée pour traiter les demandes de données client, indépendamment des perturbations et des pannes. Les données continuent de circuler même si tout un centre de données se retrouve hors connexion. En cas de déconnexion d'une région entière, un client monorégion peut subir une interruption des services de traitement d'API. Pour les clients qui recherchent une solution plus performante qu'une redondance "intra-région" des services, la disponibilité d'Apigee revendique un niveau de redondance mondial, avec des centres de données redondants via lesquels le trafic peut être diffusé dans plusieurs régions ou pays. Ainsi, même en cas de déconnexion d'une région entière, les données continuent de circuler.

Les services client monorégions ne sont pas automatiquement transférés vers une autre région, en raison des restrictions géographiques potentielles concernant le traitement des données et l'accès à celles-ci. Les services Apigee sont hébergés pour les clients de la région identifiée par le client. En raison de possibles réglementations spécifiques, ou des engagements client envers leurs utilisateurs sur les emplacements géographiques des données, les services ne seront pas automatiquement transférés vers une autre région, car cela pourrait compromettre les engagements de Google envers ses clients, ou bien les engagements des clients de Google envers leurs clients.

Google ne partage pas l'ensemble du plan BCP/DR avec un client individuel, car ce plan contient des informations internes sensibles et des références à nos clients. Nos règles de confidentialité empêchent le partage du plan de plate-forme BCP/DR avec des clients individuels susceptibles d'exposer d'autres noms de clients. Nous offrons ce même niveau de confidentialité à chaque client.

Gestion du BCP/DR

Une équipe Google chargée de la sécurité des informations est chargée de superviser le programme de résilience opérationnelle, tandis qu'un chargé d'incidents, soumis à des rotations régulières, est responsable de la gestion et de la résolution de tous les incidents. Des effectifs opérationnels et d'ingénierie se tiennent prêts en permanence pour répondre aux sollicitations du chargé d'incidents, qui dispose également de playbooks pour toutes les mesures potentiellement applicables.

Tests BCP/DR

Google applique des processus opérationnels compatibles avec les tests BCP/DR de la plate-forme, à une cadence plus fréquente que nos tests annuels complets du BCP/DR. Chaque mois, nous effectuons des mouvements de charge depuis notre environnement live/live, pendant que nous effectuons des mises à jour des systèmes qui exécutent le service. Ce processus implique de désactiver l'ensemble des systèmes d'un centre de données, la charge étant alors gérée par le centre de données appairé. Au cours de ce processus et après chaque mise à jour effectuée, le premier centre de données est rétabli et les services sont de nouveau exécutés en configuration live/live, afin de vérifier que la mise à jour n'a pas introduit de problème. Le centre de données appairé est alors désactivé pour recevoir les mêmes mises à jour, puis rétabli en ligne. Google utilise des outils et des techniques permettant de drainer le trafic et d'envoyer un faible pourcentage de celui-ci aux services récemment mis à jour, afin de détecter d'éventuels problèmes ou erreurs avant de revenir au traitement de la charge complète.

Ce processus opérationnel cohérent va au-delà des standards de l'industrie, qui définissent des "tests" de résilience semestriels de notre service ; la fréquence de cette tâche opérationnelle est ainsi plus élevée.

En plus des processus opérationnels décrits ci-dessus, Google effectue également des exercices BCP/DR au moins une fois par an, lors desquels les membres des équipes opérationnelles d'ingénierie testent une véritable situation de sinistre. Cela apporte à nos équipes une formation et une expérience supplémentaires sur nos plans BCP/DR destinés à l'entreprise dans son ensemble, au-delà du service à proprement parler.

Les tests BCP/DR effectués par Google n'ont pas recours à des "exercices de basculement" ni à des "emplacements secondaires", car tout cela est intégré au système en cours d'exécution.

Google gère des playbooks à l'intention de toutes les équipes opérationnelles et d'ingénierie. Ces playbooks sont révisés et mis à jour au moins une fois par an, et sont utilisés dans tous nos exercices de formation et nos tests BCP/DR.

Des rapports annuels sur les tests BCP/DR sont à la disposition des clients. Nous partageons également avec nos auditeurs tiers les résultats de nos tâches opérationnelles et nos rapports sur les exercices annuels de reprise après sinistre. Ces informations permettent à nos auditeurs de vérifier notre conformité aux normes PCI, HIPAA, ISO, ainsi que le respect de nos engagements contractuels et des autres exigences.

Tests BCP/DR au niveau du client

Nous encourageons les clients à intégrer les services Apigee dans leurs propres plans de reprise après sinistre. Les clients peuvent et doivent envisager la façon dont Apigee peut rediriger le trafic selon les besoins pour maintenir les services aux utilisateurs finaux, même en cas de panne du centre de données client ou d'un autre sinistre. Toutefois, ce niveau de test n'entre pas dans le cadre du plan de reprise après sinistre d'Apigee. Nous encourageons les clients à effectuer des tests BCP/DR sur leurs propres applications et à inclure Apigee dans ces tests.

DMIA/PDMA

Apigee ne spécifie pas de perte de données maximale admissible (PDMA) ni de durée maximale d'interruption admissible (DMIA) pour les clients, ni dans les contrats liés aux activités BCP/DR. Les contrats de niveau de service sont l'équivalent cloud des points de données DMIA/PDMA. Comme Apigee est un service cloud redondant avec à la fois des services de gestion et d'exécution structurés par des services actifs redondants, la DMIA et la PDMA peuvent toutes deux être considérés comme des éléments "en temps réel". Les clients monorégions reçoivent un minimum de services redondants dans différents centres de données de la même région. Les clients qui souhaitent bénéficier de niveaux de redondance plus élevés peuvent opter pour des services multirégionaux.

Plan de pandémie

Google inclut un plan de pandémie dans le cadre du plan et des processus BCP/DR globaux. Pour les opérations commerciales telles que les prestations d'assistance, Google gère une équipe d'assistance mondiale disponible 24h/24, 7j/7, répartie dans plusieurs bureaux et sites distants. Si une pandémie dans une région du monde a des répercussions sur l'un de nos sites d'assistance, le personnel des autres bureaux en en est averti et prend le relais sur la charge normalement gérée par le bureau concerné. Pour les autres services commerciaux tels que la vente, les effectifs sont répartis à l'échelle mondiale. Toutes les équipes de Google sont équipées pour travailler à distance si nécessaire. Les outils utilisés sont basés sur le cloud et se prêtent naturellement à un plan d'intervention en cas de pandémie.

Actualités

Google étudie et met à jour le plan BCP/DR au moins une fois par an. Les informations recueillies sur les incidents, les modifications de produits, les standards de l'industrie, les activités d'analyse des risques et les tests BCP/DB sont utilisées pour mettre à jour le plan.

Analyse d'impact sur l'entreprise et évaluations des risques

Google effectue chaque année une analyse de l'impact sur l'entreprise et une évaluation des risques. Les résultats de ces deux éléments sont hiérarchisés et documentés dans le système de suivi des problèmes.