Solution de démarrage rapide : entrepôt de données avec BigQuery

Last reviewed 2024-01-29 UTC

Ce guide vous aide à comprendre, déployer et utiliser la solution de démarrage rapide Entrepôt de données avec BigQuery. Cette solution montre comment vous pouvez créer un entrepôt de données dans Google Cloud en utilisant BigQuery comme entrepôt de données, avec Looker Studio comme tableau de bord et outil de visualisation. La solution utilise également les fonctionnalités d'IA générative de Vertex AI pour générer du texte qui résume l'analyse.

Voici des cas d'utilisation courants de la création d'un entrepôt de données :

  • Agrégation et création d'entrepôts d'analyse marketing pour améliorer les revenus ou d'autres métriques client.
  • Création de rapports financiers et d'analyses.
  • Création de tableaux de bord opérationnels pour améliorer les performances de l'entreprise.

Ce document s'adresse aux développeurs qui ont une certaine expérience de l'analyse de données et qui ont déjà utilisé une base de données pour effectuer une analyse. Nous partons du principe que vous connaissez les concepts de base du cloud, mais pas nécessairement Google Cloud. Une expérience avec Terraform est utile mais n'est pas indispensable pour déployer cette solution via la console.

Objectifs

  • Découvrez comment les données circulent dans un entrepôt de données cloud et comment les données peuvent être transformées à l'aide de SQL.
  • Créez des tableaux de bord à partir de données afin d'effectuer des analyses de données.
  • Programmez des instructions SQL pour mettre à jour les données selon une récurrence courante.
  • Créez un modèle de machine learning pour prédire les valeurs de données au fil du temps.
  • Utilisez l'IA générative pour résumer les résultats de votre modèle de machine learning.

Produits utilisés

La solution utilise les produits Google Cloud suivants :

  • BigQuery : un entrepôt de données entièrement géré et hautement évolutif avec des fonctionnalités de machine learning intégrées.
  • Cloud Storage : un service adapté aux entreprises qui fournit un stockage d'objets économique et sans limite pour divers types de données. Les données sont accessibles depuis et en dehors de Google Cloud et sont répliquées de manière géoredondante.
  • Looker Studio : une plate-forme d'informatique décisionnelle en libre-service qui vous aide à créer et à partager des insights de données.
  • Vertex AI : Une plate-forme de machine learning (ML) qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA.

Les produits Google Cloud suivants sont utilisés pour organiser les données dans la solution en vue d'une première utilisation :

  • Workflows : une plate-forme d'orchestration entièrement gérée qui exécute des services dans un ordre spécifié en tant que workflow. Les workflows peuvent combiner des services, y compris des services personnalisés hébergés sur Cloud Run ou Cloud Functions, des services Google Cloud tels que BigQuery, et n'importe quelle API basée sur HTTP.
  • Cloud Functions : environnement d'exécution sans serveur permettant de créer et de connecter des services cloud.

Architecture

L'exemple d'entrepôt déployé par cette solution analyse les données d'e-commerce fictives de TheLook pour comprendre les performances de l'entreprise au fil du temps. Le schéma suivant illustre l'architecture des ressources Google Cloud déployées par la solution.

Architecture de l'infrastructure pour la solution d'entrepôt de données.

Flux de la solution

L'architecture représente un flux de données courant pour alimenter et transformer les données d'un entrepôt de données :

  1. Les données sont envoyées à un bucket Cloud Storage.
  2. Les workflows facilitent le transfert des données.
  3. Les données sont chargées dans BigQuery sous forme de table BigLake en utilisant une procédure stockée SQL.
  4. Les données sont transformées dans BigQuery à l'aide d'une procédure stockée SQL.
  5. Des tableaux de bord sont créés à partir des données pour une analyse plus approfondie avec Looker Studio.
  6. Les données sont analysées à l'aide d'un modèle de k-moyennes créé avec BigQuery ML. L'analyse identifie des schémas courants, qui sont résumés grâce aux fonctionnalités d'IA générative de Vertex AI via BigQuery.
  7. Cloud Functions crée des notebooks Python avec du contenu d'apprentissage supplémentaire.

Coût

Pour obtenir une estimation du coût des ressources Google Cloud utilisées par l'entrepôt de données avec la solution BigQuery, consultez l'estimation précalculée dans le Simulateur de coût Google Cloud.

Utilisez l'estimation comme point de départ pour calculer le coût de votre déploiement. Vous pouvez modifier l'estimation afin qu'elle reflète les modifications de configuration que vous prévoyez d'apporter aux ressources utilisées dans la solution.

L'estimation précalculée est basée sur des hypothèses pour certains facteurs, y compris les suivants :

  • Emplacements Google Cloud où les ressources sont déployées.
  • La durée d'utilisation des ressources.

  • La région des données dans laquelle les données sont stockées en préproduction.

Déployer la solution

Cette section vous guide tout au long du processus de déploiement de la solution.

Créer ou choisir un projet Google Cloud

Lorsque vous déployez la solution, vous choisissez le projet Google Cloud dans lequel les ressources sont déployées. Lorsque vous décidez d'utiliser un projet existant ou d'en créer un, prenez en compte les facteurs suivants :

  • Si vous créez un projet pour la solution, vous pouvez supprimer le projet lorsque vous n'en avez plus besoin et éviter de continuer à payer des frais. Si vous utilisez un projet existant, vous devez supprimer le déploiement lorsque vous n'en avez plus besoin.
  • L'utilisation d'un nouveau projet permet d'éviter les conflits avec les ressources précédemment provisionnées, telles que les ressources utilisées pour les charges de travail de production.

Si vous souhaitez déployer la solution dans un nouveau projet, créez-le avant de commencer le déploiement.

Pour créer un projet, procédez comme suit :

  1. Dans Google Cloud Console, accédez à la page de sélection du projet.

    Accéder au sélecteur de projet

  2. Pour commencer à créer un projet Google Cloud, cliquez sur Créer un projet.

  3. Attribuez un nom à votre projet. Notez l'ID de projet que vous avez généré.

  4. Modifiez les autres champs si nécessaire.

  5. Pour créer le projet, cliquez sur Créer.

Obtenir les autorisations IAM requises

Pour démarrer le processus de déploiement, vous devez disposer des autorisations IAM (Identity and Access Management) répertoriées dans le tableau suivant. Si vous disposez du rôle de base roles/owner pour le projet dans lequel vous prévoyez de déployer la solution, vous disposez déjà de toutes les autorisations nécessaires. Si vous ne disposez pas du rôle roles/owner, demandez à votre administrateur de vous accorder ces autorisations (ou des rôles qui les incluent).

Autorisation IAM requise Rôle prédéfini incluant les autorisations requises

serviceusage.services.enable

Administrateur Service Usage
(roles/serviceusage.serviceUsageAdmin)

iam.serviceAccounts.create

Administrateur de compte de service
(roles/iam.serviceAccountAdmin)

resourcemanager.projects.setIamPolicy

Administrateur de projet IAM
(roles/resourcemanager.projectIamAdmin)
config.deployments.create
config.deployments.list
Administrateur Cloud Infrastructure Manager
(roles/config.admin)

Compte de service créé pour la solution

Lorsque vous lancez le processus de déploiement, un compte de service est créé pour déployer la solution en votre nom (et pour supprimer le déploiement ultérieurement si vous le souhaitez). Certaines autorisations IAM sont attribuées temporairement à ce compte de service. En d'autres termes, les autorisations sont révoquées automatiquement une fois les opérations de déploiement et de suppression de la solution terminées. Nous vous recommandons de supprimer le compte de service après avoir supprimé le déploiement, comme décrit plus loin dans ce guide.

Afficher les rôles attribués au compte de service

Ces rôles sont listés ici si un administrateur de votre projet ou de votre organisation Google Cloud a besoin de ces informations.

  • roles/aiplatform.admin
  • roles/bigquery.admin
  • roles/cloudfunctions.admin
  • roles/config.agent
  • roles/datalineage.viewer
  • roles/dataform.admin
  • roles/iam.serviceAccountAdmin
  • roles/iam.serviceAccountUser
  • roles/iam.serviceAccountTokenCreator
  • roles/logging.configWriter
  • roles/resourcemanager.projectIamAdmin
  • roles/run.invoker
  • roles/serviceusage.serviceUsageAdmin
  • roles/storage.admin
  • roles/workflows.admin

Choisir une méthode de déploiement

Pour vous aider à déployer cette solution avec un minimum d'efforts, une configuration Terraform est fournie dans GitHub. La configuration Terraform définit toutes les ressources Google Cloud requises pour la solution.

Vous pouvez déployer la solution en utilisant l'une des méthodes suivantes :

  • Via la console : utilisez cette méthode si vous souhaitez essayer la solution avec la configuration par défaut et voir comment elle fonctionne. Cloud Build déploie toutes les ressources requises pour la solution. Lorsque vous n'avez plus besoin de la solution déployée, vous pouvez la supprimer via la console. Toutes les ressources que vous créez après le déploiement de la solution devront peut-être être supprimées séparément.

    Pour utiliser cette méthode de déploiement, suivez les instructions de la section Déployer via la console.

  • À l'aide de la CLI Terraform : utilisez cette méthode si vous souhaitez personnaliser la solution, ou automatiser le provisionnement et la gestion des ressources à l'aide de l'approche Infrastructure as Code (IaC). Téléchargez la configuration Terraform depuis GitHub, personnalisez éventuellement le code si nécessaire et déployez la solution à l'aide de la CLI Terraform. Après avoir déployé la solution, vous pouvez continuer à la gérer à l'aide de Terraform.

    Pour utiliser cette méthode de déploiement, suivez les instructions de la section Déployer à l'aide de la CLI Terraform.

Déployer via la console

Pour déployer la solution préconfigurée, suivez la procédure suivante.

  1. Dans le catalogue de solutions de démarrage rapide Google Cloud, accédez à la solution Entrepôt de données avec BigQuery.

    Accéder à la solution "Entrepôt de données avec BigQuery"

  2. Examinez les informations fournies sur la page, telles que l'estimation du coût de la solution et le temps de déploiement estimé.

  3. Lorsque vous êtes prêt à déployer la solution, cliquez sur Déployer.

    Un guide interactif détaillé s'affiche.

  4. Suivez la procédure du guide interactif.

    Notez le nom que vous saisissez pour le déploiement. Ce nom sera requis ultérieurement lorsque vous supprimerez le déploiement.

    Lorsque vous cliquez sur Déployer, la page Déploiements de solutions s'affiche. Le champ État de cette page indique En cours de déploiement.

  5. Attendez que la solution soit déployée.

    Si le déploiement échoue, le champ État indique Échec. Vous pouvez utiliser le journal Cloud Build pour diagnostiquer les erreurs. Pour en savoir plus, consultez la section Erreurs lors du déploiement via la console.

    Une fois le déploiement terminé, le champ État indique Déployé.

  6. Pour vérifier les ressources déployées, cliquez sur le menu Actions , puis sélectionnez Afficher les ressources.

    La page Inventaire des éléments de la console Google Cloud s'ouvre dans un nouvel onglet du navigateur. Cette page recense les objets BigQuery, la fonction Cloud, le workflow Workflows, le sujet Pub/Sub, et les ressources de déclencheur Eventarc déployés par la solution.

    Pour afficher les détails de chaque ressource, cliquez sur le nom de la ressource dans la colonne Nom à afficher.

  7. Pour afficher et utiliser la solution, revenez à la page Déploiements de solutions dans la console.

    1. Cliquez sur le menu Actions .
    2. Sélectionnez Afficher le tableau de bord Looker Studio pour ouvrir un tableau de bord basé sur l'exemple de données transformé à l'aide de la solution.
    3. Sélectionnez Ouvrir l'éditeur BigQuery pour exécuter des requêtes et créer des modèles de machine learning (ML) à l'aide des exemples de données de la solution.

Lorsque vous n'avez plus besoin de la solution, vous pouvez supprimer le déploiement pour éviter de continuer à payer des frais pour les ressources Google Cloud. Pour en savoir plus, consultez la section Supprimer le déploiement.

Déployer via la CLI Terraform

Cette section explique comment personnaliser la solution, ou automatiser son provisionnement et sa gestion à l'aide de la CLI Terraform. Les solutions que vous déployez à l'aide de la CLI Terraform ne s'affichent pas sur la page Déploiements de solutions de la console Google Cloud.

Configurer le client Terraform

Vous pouvez exécuter Terraform dans Cloud Shell ou sur votre hôte local. Ce guide explique comment exécuter Terraform dans Cloud Shell, où Terraform est préinstallé et configuré pour s'authentifier auprès de Google Cloud.

Le code Terraform de cette solution est disponible dans un dépôt GitHub.

  1. Clonez le dépôt GitHub dans Cloud Shell.

    Ouvrir dans Cloud Shell

    Une invite s'affiche pour confirmer le téléchargement du dépôt GitHub dans Cloud Shell.

  2. Cliquez sur Confirmer.

    Cloud Shell est lancé dans un onglet de navigateur distinct, et le code Terraform est téléchargé dans le répertoire $HOME/cloudshell_open de votre environnement Cloud Shell.

  3. Dans Cloud Shell, vérifiez si le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Il s'agit du répertoire qui contient les fichiers de configuration Terraform pour la solution. Si vous devez accéder à ce répertoire, exécutez la commande suivante :

    cd $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse
    
  4. Initialisez Terraform à l'aide de la commande suivante :

    terraform init
    

    Attendez que le message suivant s'affiche :

    Terraform has been successfully initialized!
    

Configurer les variables Terraform

Le code Terraform que vous avez téléchargé comprend des variables que vous pouvez utiliser pour personnaliser le déploiement en fonction de vos besoins. Par exemple, vous pouvez spécifier le projet Google Cloud et la région dans laquelle vous souhaitez déployer la solution.

  1. Assurez-vous que le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Si ce n'est pas le cas, accédez à ce répertoire :

  2. Dans le même répertoire, créez un fichier texte nommé terraform.tfvars.

  3. Dans le fichier terraform.tfvars, copiez l'extrait de code suivant et définissez les valeurs des variables requises.

    • Suivez les instructions fournies en tant que commentaires dans l'extrait de code.
    • Cet extrait de code n'inclut que les variables pour lesquelles vous devez définir des valeurs. La configuration Terraform inclut d'autres variables ayant des valeurs par défaut. Pour examiner toutes les variables et les valeurs par défaut, consultez le fichier variables.tf disponible dans le répertoire $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse.
    • Assurez-vous que chaque valeur que vous définissez dans le fichier terraform.tfvars correspond au type de la variable, comme déclaré dans le fichier variables.tf. Par exemple, si le type défini pour une variable dans le fichier variables.tf est bool, vous devez spécifier true ou false comme valeur de cette variable dans le fichier terraform.tfvars.
    # This is an example of the terraform.tfvars file.
    # The values in this file must match the variable types declared in variables.tf.
    # The values in this file override any defaults in variables.tf.
    
    # ID of the project in which you want to deploy the solution
    project_id = "PROJECT_ID"
    
    # Google Cloud region where you want to deploy the solution
    # Example: us-central1
    region = "REGION"
    
    # Whether or not to enable underlying apis in this solution.
    # Example: true
    enable_apis = true
    
    # Whether or not to protect BigQuery resources from deletion when solution is modified or changed.
    # Example: false
    force_destroy = false
    
    # Whether or not to protect Cloud Storage resources from deletion when solution is modified or changed.
    # Example: true
    deletion_protection = true
    
    # Name of the BigQuery ML GenAI remote model used for text generation
    # Example: "text_generate_model"
    text_generation_model_name = "text_generate_model"
    

    Pour en savoir plus sur les valeurs que vous pouvez attribuer aux variables requises, consultez les ressources suivantes :

Valider et examiner la configuration Terraform

  1. Assurez-vous que le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Si ce n'est pas le cas, accédez à ce répertoire :

  2. Vérifiez que la configuration ne comporte aucune erreur :

    terraform validate
    

    Si la commande renvoie une erreur, apportez les corrections nécessaires dans la configuration, puis exécutez à nouveau la commande terraform validate. Répétez cette étape jusqu'à ce que la commande renvoie le message suivant :

    Success! The configuration is valid.
    
  3. Examinez les ressources définies dans la configuration :

    terraform plan
    
  4. Si vous n'avez pas créé le fichier terraform.tfvars comme décrit précédemment, Terraform vous invite à saisir des valeurs pour les variables qui n'ont pas de valeurs par défaut. Saisissez les valeurs requises.

    Le résultat de la commande terraform plan est une liste des ressources provisionnées par Terraform lorsque vous appliquez la configuration.

    Si vous souhaitez apporter des modifications, modifiez la configuration, puis exécutez à nouveau les commandes terraform validate et terraform plan.

Provisionner les ressources

Lorsqu'aucune autre modification n'est nécessaire dans la configuration, déployez les ressources.

  1. Assurez-vous que le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Si ce n'est pas le cas, accédez à ce répertoire :

  2. Appliquez la configuration Terraform :

    terraform apply
    
  3. Si vous n'avez pas créé le fichier terraform.tfvars comme décrit précédemment, Terraform vous invite à saisir des valeurs pour les variables qui n'ont pas de valeurs par défaut. Saisissez les valeurs requises.

    Terraform affiche la liste des ressources qui seront créées.

  4. Lorsque vous êtes invité à effectuer les actions, saisissez yes.

    Terraform affiche les messages indiquant la progression du déploiement.

    Si le déploiement ne peut pas être terminé, Terraform affiche les erreurs à l'origine de l'échec. Consultez les messages d'erreur et mettez à jour la configuration pour corriger les erreurs, puis exécutez à nouveau la commande terraform apply. Pour obtenir de l'aide concernant la résolution des erreurs Terraform, consultez la section Erreurs lors du déploiement de la solution à l'aide de la CLI Terraform.

    Une fois toutes les ressources créées, Terraform affiche le message suivant :

    Apply complete!
    

    Le résultat Terraform indique également les informations supplémentaires suivantes dont vous aurez besoin :

    • L'URL Looker Studio du tableau de bord déployé.
    • Le lien permettant d'ouvrir l'éditeur BigQuery pour certains exemples de requêtes.

    L'exemple suivant montre à quoi ressemble le résultat :

    lookerstudio_report_url = "https://lookerstudio.google.com/reporting/create?c.reportId=8a6517b8-8fcd-47a2-a953-9d4fb9ae4794&ds.ds_profit.datasourceName=lookerstudio_report_profit&ds.ds_profit.projectId=my-cloud-project&ds.ds_profit.type=TABLE&ds.ds_profit.datasetId=ds_edw&ds.ds_profit.tableId=lookerstudio_report_profit&ds.ds_dc.datasourceName=lookerstudio_report_distribution_centers&ds.ds_dc.projectId=my-cloud-project&ds.ds_dc.type=TABLE&ds.ds_dc.datasetId=ds_edw&ds.ds_dc.tableId=lookerstudio_report_distribution_centers"
    bigquery_editor_url = "https://console.cloud.google.com/bigquery?project=my-cloud-project&ws=!1m5!1m4!6m3!1smy-cloud-project!2sds_edw!3ssp_sample_queries"
    
  5. Pour afficher et utiliser le tableau de bord et pour exécuter des requêtes dans BigQuery, copiez les URL de sortie de l'étape précédente et ouvrez-les dans de nouveaux onglets de navigateur.

    Le tableau de bord et l'éditeur BigQuery s'affichent dans les nouveaux onglets.

  6. Pour voir toutes les ressources Google Cloud déployées, suivez une visite interactive.

    Commencer la visite

Lorsque vous n'avez plus besoin de la solution, vous pouvez supprimer le déploiement pour éviter de continuer à payer des frais pour les ressources Google Cloud. Pour en savoir plus, consultez la section Supprimer le déploiement.

Personnaliser la solution

Cette section fournit des informations que les développeurs Terraform peuvent utiliser pour modifier l'entrepôt de données avec solution BigQuery afin de répondre à leurs propres exigences techniques et métier. Les conseils de cette section ne sont pertinents que si vous déployez la solution à l'aide de la CLI Terraform.

Une fois que vous avez vu comment la solution fonctionne avec les exemples de données, vous pouvez travailler avec vos propres données. Pour utiliser vos propres données, placez-les dans le bucket Cloud Storage nommé edw-raw-hash. Le hachage est un ensemble aléatoire de huit caractères généré lors du déploiement. Vous pouvez modifier le code Terraform comme suit :

  • ID de l'ensemble de données. Modifiez le code Terraform de sorte que lorsque le code crée l'ensemble de données BigQuery, il utilise l'ID de l'ensemble de données que vous souhaitez utiliser pour vos données.
  • Schéma. Modifiez le code Terraform de sorte qu'il crée l'ID de la table BigQuery que vous souhaitez utiliser pour stocker vos données. Cela inclut le schéma de la table externe afin que BigQuery puisse lire les données de Cloud Storage.
  • Requêtes programmées. Ajoutez des procédures stockées qui effectuent l'analyse qui vous intéresse.
  • Tableaux de bord Looker. Modifiez le code Terraform qui crée un tableau de bord Looker de sorte que le tableau de bord reflète les données que vous utilisez.

Voici des objets d'entrepôt de données courants, montrant l'exemple de code Terraform dans main.tf.

  • Ensemble de données BigQuery : le schéma où les objets de base de données sont regroupés et stockés.

    resource "google_bigquery_dataset" "ds_edw" {
          project = module.project-services.project_id
          dataset_id = "DATASET_PHYSICAL_ID"
          friendly_name = "DATASET_LOGICAL_NAME"
          description = "DATASET_DESCRIPTION"
          location = "REGION"
          labels = var.labels
          delete_contents_on_destroy = var.force_destroy
      }
  • Table BigQuery : un objet de base de données qui représente les données stockées dans BigQuery ou qui représentent un schéma de données stocké dans Cloud Storage.

    resource "google_bigquery_table" "tbl_edw_inventory_items" {
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          table_id = "TABLE_NAME"
          project = module.project-services.project_id
          deletion_protection = var.deletion_protection
          ...
      }
  • Procédure stockée BigQuery : un objet de base de données qui représente une ou plusieurs instructions SQL à exécuter lorsqu'elles sont appelées. Il peut s'agir de transformer des données d'une table à une autre ou de charger des données d'une table externe dans une table standard.

    resource "google_bigquery_routine" "sp_sample_translation_queries" {
          project = module.project-services.project_id
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          routine_id = "sp_sample_translation_queries"
          routine_type = "PROCEDURE"
          language = "SQL"
          definition_body = templatefile("${path.module}/assets/sql/sp_sample_translation_queries.sql", { project_id = module.project-services.project_id })
        }
  • Requête programmée BigQuery : un utilitaire permettant de programmer l'exécution d'une requête ou d'une procédure stockée à une fréquence donnée.

    resource "google_bigquery_data_transfer_config" "dts_config" {
        display_name = "TRANSFER_NAME"
        project = module.project-services.project_id
        location = "REGION"
        data_source_id = "scheduled_query"
        schedule = "every day 00:00"
        params = {
            query = "CALL ${module.project-services.project_id}.ds_edw.sp_lookerstudio_report()"
            }
      }

Pour personnaliser la solution, procédez comme suit dans Cloud Shell :

  1. Vérifiez que le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Si ce n'est pas le cas, accédez à ce répertoire :

    cd $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse
    
  2. Ouvrez main.tf et apportez les modifications souhaitées.

    Pour en savoir plus sur les effets d'une telle personnalisation sur la fiabilité, la sécurité, les performances, les coûts et les opérations, consultez la section Recommandations en matière de conception.

  3. Validez et examinez la configuration Terraform.

  4. Provisionnez les ressources.

Recommandations en matière de conception

Cette section fournit des recommandations concernant l'utilisation de l'entrepôt de données avec solution BigQuery pour développer une architecture répondant à vos exigences en termes de sécurité, de fiabilité, de coût et de performances.

Lorsque vous débutez le scaling avec BigQuery, vous disposez de plusieurs méthodes pour améliorer les performances des requêtes et réduire vos dépenses totales. Ces méthodes incluent la modification de la manière dont vos données sont physiquement stockées, la modification de vos requêtes SQL et l'utilisation de réservations d'emplacements pour optimiser les performances et les coûts. Pour en savoir plus sur les moyens de faciliter le scaling et l'exécution de votre entrepôt de données, consultez la page Présentation de l'optimisation des performances des requêtes.

Veuillez noter les points suivants :

  • Avant d'apporter des modifications à la conception, évaluez l'impact sur les coûts et envisagez des compromis potentiels avec d'autres fonctionnalités. Vous pouvez évaluer l'impact des modifications de conception sur les coûts à l'aide du simulateur de coût Google Cloud.
  • Pour implémenter des modifications de conception dans la solution, vous devez disposer d'une expertise en codage Terraform et d'une connaissance approfondie des services Google Cloud utilisés dans la solution.
  • Si vous modifiez la configuration Terraform fournie par Google et que vous rencontrez des erreurs, définissez un problème dans GitHub. Les problèmes GitHub sont examinés de la manière la plus optimale possible et ne sont pas destinés aux questions d'utilisation générales.
  • Pour en savoir plus sur la conception et la configuration d'environnements de production dans Google Cloud, consultez les pages Conception de zone de destination dans Google Cloud et Checklist de configuration de Google Cloud.

Supprimer le déploiement

Lorsque vous n'avez plus besoin du déploiement de la solution, supprimez-le pour éviter de continuer à payer des frais pour les ressources que vous avez créées.

Supprimer via la console

Suivez cette procédure si vous avez déployé la solution via la console.

  1. Dans la console Google Cloud, accédez à la page Déploiements de solutions.

    Accéder à la page "Déploiements de solutions"

  2. Sélectionnez le projet contenant le déploiement que vous souhaitez supprimer.

  3. Recherchez le déploiement que vous souhaitez supprimer.

  4. Cliquez sur Actions, puis sélectionnez Supprimer.

  5. Saisissez le nom du déploiement, puis cliquez sur Confirmer.

    Le champ État indique Suppression.

    Si la suppression échoue, consultez les conseils de dépannage de la section Erreur lors de la suppression d'un déploiement.

Lorsque vous n'avez plus besoin du projet Google Cloud que vous avez utilisé pour la solution, vous pouvez le supprimer. Pour en savoir plus, consultez la section Facultatif : supprimer le projet.

Suppression à l'aide de la CLI Terraform

Suivez cette procédure si vous avez déployé la solution à l'aide de la CLI Terraform.

  1. Dans Cloud Shell, assurez-vous que le répertoire de travail actuel est $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. Si ce n'est pas le cas, accédez à ce répertoire :

  2. Supprimez les ressources provisionnées par Terraform :

    terraform destroy
    

    Terraform affiche la liste des ressources qui seront supprimées.

  3. Lorsque vous êtes invité à effectuer les actions, saisissez yes.

    Terraform affiche des messages de progression. Une fois toutes les ressources supprimées, Terraform affiche le message suivant :

    Destroy complete!
    

    Si la suppression échoue, consultez les conseils de dépannage de la section Erreur lors de la suppression d'un déploiement.

Lorsque vous n'avez plus besoin du projet Google Cloud que vous avez utilisé pour la solution, vous pouvez le supprimer. Pour en savoir plus, consultez la section Facultatif : supprimer le projet.

(Facultatif) Supprimez le projet.

Si vous avez déployé la solution dans un nouveau projet Google Cloud dont vous n'avez plus besoin, supprimez-le en procédant comme suit :

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Lorsque vous y êtes invité, saisissez l'ID du projet, puis cliquez sur Arrêter.

Si vous décidez de conserver le projet, supprimez le compte de service créé pour cette solution, comme décrit dans la section suivante.

Facultatif : supprimer le compte de service

Si vous avez supprimé le projet que vous avez utilisé pour la solution, ignorez cette section.

Comme mentionné précédemment dans ce guide, lorsque vous avez déployé la solution, un compte de service a été créé en votre nom. Certaines autorisations IAM ont été accordées temporairement au compte de service. Autrement dit, les autorisations ont été révoquées automatiquement après la fin des opérations de déploiement et de suppression de la solution, mais le compte de service n'est pas supprimé. Nous vous recommandons de supprimer ce compte de service.

  • Si vous avez déployé la solution via la console Google Cloud, accédez à la page Déploiements de solutions. (Si vous êtes déjà sur cette page, actualisez le navigateur.) Un processus est déclenché en arrière-plan pour supprimer le compte de service. Aucune autre action n'est nécessaire.

  • Si vous avez déployé la solution à l'aide de la CLI Terraform, procédez comme suit :

    1. Dans Google Cloud Console, accédez à la page Comptes de service.

      Accéder à la page "Comptes de service"

    2. Sélectionnez le projet que vous avez utilisé pour la solution.

    3. Sélectionnez le compte de service que vous souhaitez supprimer.

      L'ID d'adresse e-mail du compte de service créé pour la solution est au format suivant :

      goog-sc-DEPLOYMENT_NAME-NNN@PROJECT_ID.iam.gserviceaccount.com
      

      L'ID d'adresse e-mail contient les valeurs suivantes :

      • DEPLOYMENT_NAME : nom du déploiement.
      • NNN : nombre aléatoire à trois chiffres.
      • PROJECT_ID : ID du projet dans lequel vous avez déployé la solution.
    4. Cliquez sur Supprimer.

Résoudre les erreurs

Les actions à effectuer pour diagnostiquer et résoudre les erreurs dépendent de la méthode de déploiement et de la complexité de l'erreur.

Erreurs lors du déploiement via la console

Si le déploiement échoue lorsque vous utilisez la console, procédez comme suit :

  1. Accédez à la page Déploiements de solutions.

    Si le déploiement a échoué, le champ État indique Échec.

  2. Afficher les détails des erreurs à l'origine de l'échec :

    1. Cliquez sur Actions.

    2. Sélectionnez Afficher les journaux Cloud Build.

  3. Consultez le journal Cloud Build et prenez les mesures appropriées pour résoudre le problème à l'origine de l'échec.

Erreurs lors du déploiement à l'aide de la CLI Terraform

Si le déploiement échoue lors de l'utilisation de Terraform, le résultat de la commande terraform apply inclut des messages d'erreur que vous pouvez consulter pour diagnostiquer le problème.

Les exemples des sections suivantes présentent des erreurs de déploiement que vous pouvez rencontrer lorsque vous utilisez Terraform.

Erreur API non activée.

Si vous créez un projet, puis tentez immédiatement de déployer la solution dans le nouveau projet, le déploiement peut échouer avec l'erreur suivante :

Error: Error creating Network: googleapi: Error 403: Compute Engine API has not
been used in project PROJECT_ID before or it is disabled. Enable it by visiting
https://console.developers.google.com/apis/api/compute.googleapis.com/overview?project=PROJECT_ID
then retry. If you enabled this API recently, wait a few minutes for the action
to propagate to our systems and retry.

Si cette erreur se produit, attendez quelques minutes, puis exécutez à nouveau la commande terraform apply.

Erreur "Impossible d'attribuer l'adresse demandée"

Lorsque vous exécutez la commande terraform apply, une erreur cannot assign requested address peut se produire avec un message semblable à celui-ci :

Error: Error creating service account:
 Post "https://iam.googleapis.com/v1/projects/PROJECT_ID/serviceAccounts:
 dial tcp [2001:db8:ffff:ffff::5f]:443:
 connect: cannot assign requested address

Si cette erreur se produit, exécutez à nouveau la commande terraform apply.

Erreurs d'accès aux données dans BigQuery ou Looker Studio

Une étape de provisionnement s'exécute après les étapes de provisionnement Terraform et charge les données dans l'environnement. Si vous obtenez une erreur lors du chargement des données dans le tableau de bord Looker Studio, ou s'il n'y a aucun objet lorsque vous commencez à explorer BigQuery, attendez quelques minutes et réessayez.

Erreur lors de la suppression d'un déploiement

Dans certains cas, les tentatives de suppression d'un déploiement peuvent échouer :

  • Après avoir déployé une solution via la console, si vous modifiez une ressource provisionnée par la solution et que vous essayez de supprimer le déploiement, la suppression peut échouer. Le champ État de la page Déploiements de solutions indique Échec. Le journal Cloud Build affiche la cause de l'erreur.
  • Après avoir déployé une solution à l'aide de la CLI Terraform, si vous modifiez une ressource à l'aide d'une interface autre que Terraform (par exemple, la console), et que vous essayez de supprimer le déploiement, la suppression peut échouer. Les messages dans le résultat de la commande terraform destroy indiquent la cause de l'erreur.

Examinez les journaux et les messages d'erreur, identifiez et supprimez les ressources à l'origine de l'erreur, puis essayez à nouveau de supprimer le déploiement.

Si un déploiement effectué à partir de la console n'est pas supprimé et si vous ne pouvez pas diagnostiquer l'erreur à l'aide du journal Cloud Build, vous pouvez supprimer le déploiement à l'aide de la CLI Terraform, comme décrit dans la section suivante.

Supprimer un déploiement effectué à partir de la console à l'aide de la CLI Terraform

Cette section explique comment supprimer un déploiement effectué à partir de la console si des erreurs se produisent lorsque vous essayez de le supprimer via la console. Dans cette approche, vous téléchargez la configuration Terraform du déploiement que vous souhaitez supprimer, puis vous supprimez le déploiement à l'aide de la CLI Terraform.

  1. Identifiez la région dans laquelle le code Terraform, les journaux et d'autres données du déploiement sont stockés. Cette région peut être différente de celle que vous avez sélectionnée lors du déploiement de la solution.

    1. Dans la console Google Cloud, accédez à la page Déploiements de solutions.

      Accéder à la page "Déploiements de solutions"

    2. Sélectionnez le projet contenant le déploiement que vous souhaitez supprimer.

    3. Dans la liste des déploiements, identifiez la ligne correspondant au déploiement que vous souhaitez supprimer.

    4. Cliquez sur Afficher tout le contenu de la ligne.

    5. Dans la colonne Emplacement, notez le deuxième emplacement, comme indiqué dans l'exemple suivant :

      Emplacement du code, des journaux et d'autres artefacts du déploiement.

  2. Dans la console Google Cloud, activez Cloud Shell.

    Activer Cloud Shell

    En bas de la fenêtre de la console Google Cloud, une session Cloud Shell démarre et affiche une invite de ligne de commande. Cloud Shell est un environnement shell dans lequel Google Cloud CLI est déjà installé, et dans lequel des valeurs sont déjà définies pour votre projet actuel. L'initialisation de la session peut prendre quelques secondes.

  3. Créez des variables d'environnement pour l'ID de projet, la région et le nom du déploiement que vous souhaitez supprimer :

    export REGION="REGION"
    export PROJECT_ID="PROJECT_ID"
    export DEPLOYMENT_NAME="DEPLOYMENT_NAME"
    

    Dans ces commandes, remplacez les éléments suivants :

    • REGION : emplacement que vous avez noté précédemment dans cette procédure.
    • PROJECT_ID : ID du projet dans lequel vous avez déployé la solution.
    • DEPLOYMENT_NAME : nom du déploiement que vous souhaitez supprimer.
  4. Obtenez l'ID de la dernière révision du déploiement que vous souhaitez supprimer :

    export REVISION_ID=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .latestRevision -r)
        echo $REVISION_ID
    

    Le résultat ressemble à ce qui suit :

    projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME/revisions/r-0
    
  5. Obtenez l'emplacement Cloud Storage de la configuration Terraform pour le déploiement :

    export CONTENT_PATH=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/${REVISION_ID}" \
        | jq .applyResults.content -r)
        echo $CONTENT_PATH
    

    Voici un exemple de résultat de cette commande :

    gs://PROJECT_ID-REGION-blueprint-config/DEPLOYMENT_NAME/r-0/apply_results/content
    
  6. Téléchargez la configuration Terraform de Cloud Storage vers Cloud Shell :

    gsutil cp -r $CONTENT_PATH $HOME
    cd $HOME/content/modules/data_warehouse
    

    Attendez que le message Operation completed s'affiche, comme illustré dans l'exemple suivant :

    Operation completed over 45 objects/268.5 KiB
    
  7. Initialisez Terraform :

    terraform init
    

    Attendez que le message suivant s'affiche :

    Terraform has been successfully initialized!
    
  8. Supprimez les ressources déployées :

    terraform destroy
    

    Terraform affiche la liste des ressources qui seront supprimées.

    Si des avertissements concernant des variables non déclarées s'affichent, ignorez-les.

  9. Lorsque vous êtes invité à effectuer les actions, saisissez yes.

    Terraform affiche des messages de progression. Une fois toutes les ressources supprimées, Terraform affiche le message suivant :

    Destroy complete!
    
  10. Supprimez l'artefact de déploiement :

    curl -X DELETE \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}?force=true&delete_policy=abandon"
    
  11. Attendez quelques secondes, puis vérifiez que l'artefact de déploiement a été supprimé :

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .error.message
    

    Si le résultat indique null, attendez quelques secondes, puis exécutez à nouveau la commande.

    Une fois l'artefact de déploiement supprimé, un message s'affiche comme illustré dans l'exemple suivant :

    Resource 'projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME' was not found
    

Envoyer des commentaires

Les solutions pour un démarrage rapide sont fournies uniquement à titre d'information et ne constituent pas des produits officiellement compatibles. Google est susceptible de modifier ou supprimer des solutions sans préavis.

Pour résoudre les erreurs, consultez les journaux Cloud Build et la sortie Terraform.

Pour envoyer vos commentaires, procédez comme suit :

  • Pour obtenir de la documentation, des tutoriels intégrés à la console ou la solution, utilisez le bouton Envoyer des commentaires.
  • Pour obtenir le code Terraform non modifié, créez des problèmes dans le dépôt GitHub. Les problèmes GitHub sont examinés de la manière la plus optimale possible et ne sont pas destinés aux questions d'utilisation générales.
  • Pour les problèmes liés aux produits utilisés dans la solution, prenez contact avec Cloud Customer Care.

Étapes suivantes