Modèle BigQuery vers Bigtable

Le modèle BigQuery vers Bigtable est un pipeline par lots qui copie les données d'une table BigQuery dans une table Bigtable existante. Le modèle peut lire la table entière ou lire des enregistrements spécifiques indiqués par une requête fournie.

Conditions requises pour ce pipeline

Paramètres de modèle

Paramètres Description
readIdColumn Nom de la colonne BigQuery stockant l'identifiant unique de la ligne.
inputTableSpec

Facultatif : table BigQuery à lire. Format : projectId:datasetId.tablename.

Si vous spécifiez inputTableSpec, le modèle lit les données directement à partir de l'espace de stockage BigQuery à l'aide de l'API BigQuery Storage Read. Pour en savoir plus sur les limites de l'API Storage Read, consultez la section Limites.

Vous devez spécifier inputTableSpec ou query. Si vous définissez les deux paramètres, le modèle utilise le paramètre query.

query

Facultatif : requête SQL à utiliser pour lire les données à partir de BigQuery. Si l'ensemble de données BigQuery se trouve dans un projet différent de celui de la tâche Dataflow, spécifiez le nom complet de l'ensemble de données dans la requête SQL, comme suit : projectId.datasetName.tablename. Par défaut, le paramètre query utilise GoogleSQL, sauf si la valeur de useLegacySql est true.

Vous devez spécifier inputTableSpec ou query. Si vous définissez les deux paramètres, le modèle utilise le paramètre query.

useLegacySql Facultatif : définissez la valeur sur true pour utiliser l'ancien SQL. Ce paramètre s'applique uniquement lorsque vous utilisez le paramètre query. Valeur par défaut : false
bigtableWriteInstanceId ID de l'instance Bigtable qui contient la table.
bigtableWriteTableId ID de la table Bigtable dans laquelle écrire les données.
bigtableWriteColumnFamily Nom de la famille de colonnes de la table Bigtable dans laquelle écrire les données.
bigtableWriteAppProfile Facultatif : ID du profil d'application Bigtable à utiliser pour l'exportation. Si vous ne spécifiez pas de profil d'application, Bigtable utilise le profil d'application par défaut de l'instance.
bigtableWriteProjectId Facultatif : ID du projet Google Cloud lié à l'instance Bigtable dans laquelle vous souhaitez écrire les données.
bigtableBulkWriteLatencyTargetMs Facultatif : Cible de latence de Bigtable en millisecondes pour la limitation basée sur la latence.
bigtableBulkWriteMaxRowKeyCount Facultatif : Nombre maximal de clés de ligne dans une opération Bigtable d'écriture par lot.
bigtableBulkWriteMaxRequestSizeBytes Facultatif : Nombre maximal d'octets à inclure par opération Bigtable d'écriture par lot.
bigtableRpcAttemptTimeoutMs Facultatif : Délai avant expiration (en millisecondes) de chaque tentative de RPC Bigtable.
bigtableRpcTimeoutMs Facultatif : Délai avant expiration total (en millisecondes) d'une opération RPC Bigtable.
bigtableAdditionalRetryCodes Facultatif : Codes de nouvelles tentatives supplémentaires.

Exécuter le modèle

Console

  1. Accédez à la page Dataflow Créer un job à partir d'un modèle.
  2. Accéder à la page Créer un job à partir d'un modèle
  3. Dans le champ Nom du job, saisissez un nom de job unique.
  4. Facultatif : pour Point de terminaison régional, sélectionnez une valeur dans le menu déroulant. La région par défaut est us-central1.

    Pour obtenir la liste des régions dans lesquelles vous pouvez exécuter un job Dataflow, consultez la page Emplacements Dataflow.

  5. Dans le menu déroulant Modèle Dataflow, sélectionnez the BigQuery to Bigtable template.
  6. Dans les champs fournis, saisissez vos valeurs de paramètres.
  7. Cliquez sur Run Job (Exécuter la tâche).

gcloud

Dans le shell ou le terminal, exécutez le modèle :

gcloud dataflow flex-template run JOB_NAME \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/BigQuery_to_Bigtable \
    --parameters \
readIdColumn=READ_COLUMN_ID,\
inputTableSpec=INPUT_TABLE_SPEC,\
bigtableWriteInstanceId=BIGTABLE_INSTANCE_ID,\
bigtableWriteTableId=BIGTABLE_TABLE_ID,\
bigtableWriteColumnFamily=BIGTABLE_COLUMN_FAMILY

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
  • JOB_NAME : nom de job unique de votre choix
  • REGION_NAME : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • READ_COLUMN_ID : colonne BigQuery d'ID uniques.
  • INPUT_TABLE_SPEC : nom de votre table BigQuery.
  • BIGTABLE_INSTANCE_ID : ID de votre instance Bigtable.
  • BIGTABLE_TABLE_ID : ID de votre table Bigtable.
  • BIGTABLE_COLUMN_FAMILY : famille de colonnes de votre table Bigtable.

API

Pour exécuter le modèle à l'aide de l'API REST, envoyez une requête HTTP POST. Pour en savoir plus sur l'API, ses autorisations et leurs champs d'application, consultez la section projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
          "readIdColumn": "READ_COLUMN_ID",
          "inputTableSpec": "INPUT_TABLE_SPEC",
          "bigtableWriteInstanceId": "BIGTABLE_INSTANCE_ID",
          "bigtableWriteTableId": "BIGTABLE_TABLE_ID",
          "bigtableWriteColumnFamily": "BIGTABLE_COLUMN_FAMILY"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/BigQuery_to_Bigtable",
   }
}

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
  • JOB_NAME : nom de job unique de votre choix
  • LOCATION : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • READ_COLUMN_ID : colonne BigQuery d'ID uniques.
  • INPUT_TABLE_SPEC : nom de votre table BigQuery.
  • BIGTABLE_INSTANCE_ID : ID de votre instance Bigtable.
  • BIGTABLE_TABLE_ID : ID de votre table Bigtable.
  • BIGTABLE_COLUMN_FAMILY : famille de colonnes de votre table Bigtable.

Étapes suivantes