Utiliser le modèle "Flux de modifications Bigtable vers BigQuery"

Dans ce guide de démarrage rapide, vous allez apprendre à configurer une table Bigtable avec un flux de modifications activé, à exécuter un pipeline de flux de modifications, à apporter des modifications à votre table, puis à afficher les modifications en streaming.

Avant de commencer

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Dataflow, Cloud Bigtable API, Cloud Bigtable Admin API, and BigQuery APIs.

    Enable the APIs

  4. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

Créer un ensemble de données BigQuery

Utilisez la console Google Cloud pour créer un ensemble de données destiné à stocker les données.

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, cliquez sur le nom de votre projet.

  3. Développez l'option Actions, puis cliquez sur Créer un ensemble de données.

  4. Sur la page Créer un ensemble de données, procédez comme suit :

    1. Dans le champ ID de l'ensemble de données, saisissez bigtable_bigquery_quickstart.
    2. Conservez les autres paramètres par défaut, puis cliquez sur Créer un ensemble de données.

Créer une table avec un flux de modifications activé

  1. Dans la console Google Cloud, accédez à la page Instances de Bigtable.

    Accéder à la page "Instances"

  2. Cliquez sur l'ID de l'instance que vous utilisez pour ce guide de démarrage rapide.

    Si vous n'avez pas d'instance disponible, créez-en une avec les configurations par défaut dans une région proche de chez vous.

  3. Dans le volet de navigation de gauche, cliquez sur Tables.

  4. Cliquez sur Créer une table.

  5. Nommez la table bigquery-changestream-quickstart.

  6. Ajoutez une famille de colonnes nommée cf.

  7. Sélectionnez Activer le flux de modifications.

  8. Cliquez sur Créer.

  9. Sur la page Tables de Bigtable, recherchez votre table bigquery-changestream-quickstart.

  10. Dans la colonne Flux de modifications, cliquez sur Connecter.

  11. Dans la boîte de dialogue, sélectionnez BigQuery.

  12. Cliquez sur Créer une tâche Dataflow.

  13. Dans les champs fournis, saisissez vos valeurs de paramètres. Vous ne devez pas n'avez pas besoin de fournir de paramètres facultatifs.

    1. Définissez l'ID de profil d'application Bigtable sur default.
    2. Définir l'ensemble de données BigQuery sur bigtable_bigquery_quickstart
  14. Cliquez sur Run Job (Exécuter la tâche).

  15. Attendez que l'état de la tâche soit Starting (Démarrage) ou Running (En cours d'exécution) avant de continuer. L'opération prend environ cinq minutes une fois la tâche mise en file d'attente.

  16. Gardez la tâche ouverte dans un onglet pour pouvoir l'arrêter lors du nettoyage vos ressources.

Écrire des données dans Bigtable

  1. Dans Cloud Shell, écrivez quelques lignes dans Bigtable pour que peut écrire des données dans BigQuery. Tant que vous écrivez les données après la création de la tâche, les modifications apparaissent. Vous n'avez pas besoin d'attendre que l'état de la tâche passe à running.

    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user123 cf:col1=abc
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user546 cf:col1=def
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user789 cf:col1=ghi
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID du projet que vous utilisez
    • BIGTABLE_INSTANCE_ID: ID de l'instance contenant la table bigquery-changestream-quickstart

Afficher les journaux de modifications dans BigQuery

  1. Dans la console Google Cloud, accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet et l'ensemble de données. bigtable_bigquery_quickstart

  3. Cliquez sur la table bigquery-changestream-quickstart_changelog.

  4. Pour afficher le journal des modifications, cliquez sur Aperçu.

    Aperçu du journal des modifications dans BigQuery

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Désactivez le flux de modifications sur la table :

    gcloud bigtable instances tables update bigquery-changestream-quickstart \
    --project=PROJECT_ID --instance=BIGTABLE_INSTANCE_ID \
    --clear-change-stream-retention-period
    
  2. Supprimez la table bigquery-changestream-quickstart :

    cbt --instance=BIGTABLE_INSTANCE_ID --project=PROJECT_ID deletetable bigquery-changestream-quickstart
    
  3. Arrêtez le pipeline de flux de modifications:

    1. Dans la console Google Cloud, accédez à la page Tâches de Dataflow.

      Accéder aux tâches

    2. Sélectionnez votre tâche de traitement par flux dans la liste des tâches.

    3. Dans la barre de navigation, cliquez sur Arrêter.

    4. Dans la boîte de dialogue Arrêter la tâche, sélectionnez Annuler, puis cliquez sur Arrêter la tâche.

  4. Supprimez l'ensemble de données BigQuery :

    1. Dans la console Google Cloud, accédez à la page "BigQuery".

      Accéder à BigQuery

    2. Dans le panneau Explorer, recherchez l'ensemble de données bigtable_bigquery_quickstart, puis cliquez dessus.

    3. Cliquez sur Supprimer, saisissez delete, puis cliquez sur Supprimer pour confirmer.

  5. Facultatif : Supprimez l'instance si vous en avez créé une pour ce démarrage rapide :

    cbt deleteinstance BIGTABLE_INSTANCE_ID
    

Étape suivante