Modèle analytique hybride et multicloud

Last reviewed 2023-12-14 UTC

Ce document explique que l'objectif du modèle analytique hybride et multicloud est de tirer parti de la division entre les charges de travail transactionnelles et analytiques.

Dans les systèmes d'entreprise, la plupart des charges de travail appartiennent aux catégories suivantes :

  • Les charges de travail transactionnelles incluent des applications interactives telles que des applications de vente, de traitement financier, de planification des ressources d'entreprise ou de communication.
  • Les charges de travail analytiques incluent des applications qui transforment, analysent, affinent ou visualisent des données pour faciliter les processus de prise de décision.

Les systèmes d'analyse obtiennent leurs données à partir de systèmes transactionnels en interrogeant des API ou en accédant à des bases de données. Dans la plupart des entreprises, les systèmes d'analyse et transactionnels ont tendance à être séparés et faiblement couplés. L'objectif du modèle analytique hybride et multicloud est de tirer parti de cette division préexistante en exécutant des charges de travail transactionnelles et analytiques dans deux environnements informatiques différents. Les données brutes sont d'abord extraites des charges de travail exécutées dans l'environnement informatique privé, puis chargées dans Google Cloud, où elles sont utilisées à des fins de traitement analytique. Certains résultats peuvent ensuite être renvoyés aux systèmes transactionnels.

Le schéma suivant illustre des architectures conceptuellement possibles en montrant des pipelines de données potentiels. Chaque chemin/flèche représente une option de pipeline de transformation et de transfert de données possible pouvant être basée sur l'ETL ou l'ELT, en fonction de la qualité des données disponible et du cas d'utilisation ciblé.

Pour transférer vos données vers Google Cloud et en exploiter la valeur, utilisez les services de transfert de données, une suite complète de services d'ingestion, d'intégration et de réplication de données.

Données provenant d'un environnement sur site ou d'un autre environnement cloud et transmises à Google Cloud via l'ingestion, les pipelines, le stockage, l'analyse, la couche d'application et la couche de présentation.

Comme le montre le schéma précédent, la connexion de Google Cloud à des environnements sur site et à d'autres environnements cloud peut permettre divers cas d'utilisation d'analyse de données, tels que le streaming de données et les sauvegardes de base de données. Pour alimenter le transport de base d'un modèle d'analyse hybride et multicloud nécessitant un volume élevé de transfert de données, Cloud Interconnect et Cross-Cloud Interconnect fournissent une connectivité dédiée aux fournisseurs cloud sur site et autres.

Avantages

L'exécution de charges de travail analytiques dans le cloud présente plusieurs avantages essentiels :

  • Le trafic entrant (transfert de données de votre environnement informatique privé ou d'autres clouds vers Google Cloud) peut être gratuit.
  • Les charges de travail analytiques doivent souvent traiter des quantités importantes de données et peuvent être exécutées en rafale. Elles sont donc particulièrement bien adaptées au déploiement dans un environnement de cloud public. En procédant au scaling des ressources de calcul de manière dynamique, vous pouvez traiter rapidement des ensembles de données volumineux tout en évitant les investissements initiaux et tout surprovisionnement de matériel informatique.
  • Google Cloud fournit un ensemble complet de services permettant de gérer les données tout au long de leur cycle de vie, de l'acquisition initiale à la visualisation finale, en passant par le traitement et l'analyse.
    • Les services de transfert de données sur Google Cloud fournissent une suite complète de produits pour déplacer, intégrer et transformer des données en toute transparence de différentes manières.
    • Cloud Storage est parfaitement adapté à la construction d'un lac de données.
  • Google Cloud vous aide à moderniser et à optimiser votre plate-forme de données pour décloisonner les données. L'utilisation d'un ata lakehouse permet de standardiser les différents formats de stockage. Elle peut également offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité. Pour en savoir plus, consultez BigLake.

  • BigQuery Omni fournit une puissance de calcul qui s'exécute localement dans l'espace de stockage sur AWS ou Azure. Il vous permet également d'interroger vos propres données stockées dans Amazon Simple Storage Service (Amazon S3) ou Azure Blob Storage. Cette fonctionnalité d'analyse multicloud permet aux équipes responsables des données de décloisonner les données. Pour en savoir plus sur l'interrogation de données stockées en dehors de BigQuery, consultez la page Présentation des sources de données externes.

Bonnes pratiques

Pour implémenter le modèle d'architecture d'analyse hybride et multicloud, tenez compte des bonnes pratiques générales suivantes :

  • Utilisez le modèle de mise en réseau de transfert pour permettre l'ingestion de données. Si les résultats analytiques doivent être renvoyés aux systèmes transactionnels, vous pouvez combiner le modèle de transfert et de sortie contrôlée.
  • Servez-vous des files d'attente Pub/Sub ou des buckets Cloud Storage pour transférer des données à Google Cloud à partir de systèmes transactionnels exécutés dans votre environnement informatique privé. Ces files d'attente ou buckets peuvent ensuite servir de sources pour les pipelines de traitement de données et les charges de travail.
  • Pour déployer des pipelines de données ETL et ELT, envisagez d'utiliser Cloud Data Fusion ou Dataflow, en fonction de vos besoins spécifiques. Les deux sont des services de traitement de données entièrement gérés, axés sur le cloud, qui permettent de créer et de gérer des pipelines de données.
  • Pour découvrir, classer et protéger vos éléments de données importants, envisagez d'utiliser les fonctionnalités de protection des données sensibles de Google Cloud, telles que les techniques d'anonymisation. Ces techniques vous permettent de masquer, de chiffrer et de remplacer les données sensibles, telles que les informations personnelles, à l'aide d'une clé générée de manière aléatoire ou prédéterminée, le cas échéant et de manière conforme.
  • Lorsque vous avez des charges de travail Hadoop ou Spark existantes, il peut être utile de migrer les tâches vers Dataproc et de migrer les données HDFS existantes vers Cloud Storage.
  • Lorsque vous effectuez un premier transfert de données de votre environnement informatique privé vers Google Cloud, choisissez la méthode de transfert la mieux adaptée à la taille de votre ensemble de données et à la bande passante disponible. Pour en savoir plus, consultez la page Migration vers Google Cloud : transférer des ensembles de données volumineux.

  • Si le transfert ou l'échange de données entre Google Cloud et d'autres clouds est nécessaire à long terme avec un volume de trafic élevé, nous vous recommandons d'évaluer l'utilisation de Google Cloud Cross-Cloud Interconnect pour vous aider à établir une connectivité dédiée à haut débit entre Google Cloud et d'autres fournisseurs de services cloud (disponible dans certains emplacements).

  • Si le chiffrement est requis au niveau de la couche de connectivité, différentes options sont disponibles en fonction de la solution de connectivité hybride sélectionnée. Ces options incluent des tunnels VPN, un VPN haute disponibilité sur Cloud Interconnect et MACsec pour Cross-Cloud Interconnect.

  • Utilisez des outils et des processus cohérents dans tous les environnements. Dans un scénario d'analyse hybride, cette pratique peut contribuer à accroître l'efficacité opérationnelle, bien qu'elle ne constitue pas une condition préalable.