Cette page a été traduite par l'API Cloud Translation.

Modèle BigQuery vers Bigtable

Le modèle BigQuery vers Bigtable est un pipeline par lots qui copie les données d'une table BigQuery dans une table Bigtable existante. Le modèle peut lire la table entière ou lire des enregistrements spécifiques indiqués par une requête fournie.

Conditions requises pour ce pipeline

La table BigQuery source doit exister.
La table Bigtable doit exister.
Le compte de service du nœud de calcul doit disposer de l'autorisation roles/bigquery.datasets.create. Pour en savoir plus, consultez la page Présentation de IAM.

Paramètres de modèle

Paramètres obligatoires

readIdColumn : nom de la colonne BigQuery stockant l'identifiant unique de la ligne.
bigtableWriteInstanceId : ID de l'instance Bigtable qui contient la table.
bigtableWriteTableId : ID de la table Bigtable dans laquelle écrire les données.
bigtableWriteColumnFamily : nom de la famille de colonnes de la table Bigtable dans laquelle écrire les données.

Paramètres facultatifs

timestampColumn : nom de la colonne BigQuery à utiliser comme code temporel pour la cellule de la colonne dans Bigtable. La valeur doit être exprimée en millisecondes, par exemple INT64 / Long. Si une ligne ne contient pas le champ, le code temporel d'écriture par défaut sera utilisé. La colonne spécifiée ne sera pas incluse dans la ligne Bigtable en tant que colonne distincte.
skipNullValues : indicateur permettant de déterminer si les valeurs nulles peuvent se propager en tant que valeur vide ou si la colonne est entièrement ignorée pour respecter le format de table creuse Bigtable. Dans les cas où cela entraîne une ligne vide (par exemple, une rowkey valide, mais aucune colonne), la ligne ne peut pas être écrite dans Bigtable et sera ignorée. La valeur par défaut est "false".
inputTableSpec : table BigQuery à lire. Si vous spécifiez inputTableSpec, le modèle lit les données directement à partir de l'espace de stockage BigQuery à l'aide de l'API BigQuery Storage Read (https://cloud.google.com/bigquery/docs/reference/storage). Pour en savoir plus sur les limites de l'API Storage Read, consultez https://cloud.google.com/bigquery/docs/reference/storage#limitations. Vous devez spécifier inputTableSpec ou query. Si vous définissez les deux paramètres, le modèle utilise le paramètre query. Par exemple, <BIGQUERY_PROJECT>:<DATASET_NAME>.<INPUT_TABLE>.
outputDeadletterTable : table BigQuery pour les messages qui n'ont pas pu atteindre la table de sortie. En l'absence de table existante, une table va être créée lors de l'exécution du pipeline. Si aucune valeur n'est spécifiée, <outputTableSpec>_error_records est utilisé. Par exemple, <PROJECT_ID>:<DATASET_NAME>.<DEADLETTER_TABLE>.
query : requête SQL à utiliser pour lire les données à partir de BigQuery. Si l'ensemble de données BigQuery se trouve dans un projet différent de celui de la tâche Dataflow, spécifiez le nom complet de l'ensemble de données dans la requête SQL, par exemple : <ID_PROJET>.<NOM_ENSEMBLE_DE_DONNÉES>.<NOM_TABLE>. Par défaut, le paramètre query utilise GoogleSQL (https://cloud.google.com/bigquery/docs/introduction-sql), sauf si useLegacySql est true. Vous devez spécifier inputTableSpec ou query. Si vous définissez les deux paramètres, le modèle utilise le paramètre query. Par exemple, select * from sampledb.sample_table.
useLegacySql : définissez la valeur sur true pour utiliser l'ancien SQL. Ce paramètre ne s'applique que lorsque vous utilisez le paramètre query. La valeur par défaut est false.
queryLocation : requis lors de la lecture à partir d'une vue autorisée sans l'autorisation de la table sous-jacente. Exemple :US
queryTempDataset : cette option vous permet de définir un ensemble de données existant pour créer la table temporaire dans laquelle stocker les résultats de la requête. Exemple :temp_dataset
KMSEncryptionKey : si vous lisez des données depuis BigQuery à l'aide d'une source de requête, utilisez cette clé Cloud KMS pour chiffrer les tables temporaires créées. Exemple :projects/your-project/locations/global/keyRings/your-keyring/cryptoKeys/your-key
bigtableRpcAttemptTimeoutMs : délai avant expiration (en millisecondes) de chaque tentative de RPC Bigtable.
bigtableRpcTimeoutMs : délai avant expiration total (en millisecondes) d'une opération RPC Bigtable.
bigtableAdditionalRetryCodes : codes de nouvelles tentatives supplémentaires. Exemple :RESOURCE_EXHAUSTED,DEADLINE_EXCEEDED
bigtableWriteAppProfile : ID du profil d'application Bigtable à utiliser pour l'exportation. Si vous ne spécifiez pas de profil d'application, Bigtable utilise le profil d'application par défaut (https://cloud.google.com/bigtable/docs/app-profiles#default-app-profile) de l'instance.
bigtableWriteProjectId : ID du projet Google Cloud contenant l'instance Bigtable dans laquelle écrire les données.
bigtableBulkWriteLatencyTargetMs : cible de latence de Bigtable en millisecondes pour la limitation basée sur la latence.
bigtableBulkWriteMaxRowKeyCount : nombre maximal de clés de ligne dans une opération Bigtable d'écriture par lot.
bigtableBulkWriteMaxRequestSizeBytes : nombre maximal d'octets à inclure par opération Bigtable d'écriture par lot.

Exécuter le modèle

Console

Accédez à la page Dataflow Créer un job à partir d'un modèle.

Accéder à la page Créer un job à partir d'un modèle

Dans le champ Nom du job, saisissez un nom de job unique.
Facultatif : pour Point de terminaison régional, sélectionnez une valeur dans le menu déroulant. La région par défaut est us-central1.
Pour obtenir la liste des régions dans lesquelles vous pouvez exécuter un job Dataflow, consultez la page Emplacements Dataflow.
Dans le menu déroulant Modèle Dataflow, sélectionnez the BigQuery to Bigtable template.
Dans les champs fournis, saisissez vos valeurs de paramètres.
Cliquez sur Run Job (Exécuter la tâche).

gcloud

Dans le shell ou le terminal, exécutez le modèle :

gcloud dataflow flex-template run JOB_NAME \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/BigQuery_to_Bigtable \
    --parameters \
readIdColumn=READ_COLUMN_ID,\
inputTableSpec=INPUT_TABLE_SPEC,\
bigtableWriteInstanceId=BIGTABLE_INSTANCE_ID,\
bigtableWriteTableId=BIGTABLE_TABLE_ID,\
bigtableWriteColumnFamily=BIGTABLE_COLUMN_FAMILY

Remplacez les éléments suivants :

PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
JOB_NAME : nom de job unique de votre choix
REGION_NAME : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
VERSION : version du modèle que vous souhaitez utiliser
Vous pouvez utiliser les valeurs suivantes :
- latest pour utiliser la dernière version du modèle, disponible dans le dossier parent non daté du bucket gs://dataflow-templates-REGION_NAME/latest/
- Le nom de la version, par exemple 2023-09-12-00_RC00, pour utiliser une version spécifique du modèle, qui est imbriqué dans le dossier parent daté respectif dans le bucket : gs://dataflow-templates-REGION_NAME/
Attention : La dernière version des modèles peut être mise à jour avec des modifications destructives. Vos environnements de production devraient utiliser des modèles conservés dans le dernier dossier parent daté afin d'empêcher que ces modifications n'affectent vos workflows.
READ_COLUMN_ID : colonne BigQuery d'ID uniques.
INPUT_TABLE_SPEC : nom de votre table BigQuery.
BIGTABLE_INSTANCE_ID : ID de votre instance Bigtable.
BIGTABLE_TABLE_ID : ID de votre table Bigtable.
BIGTABLE_COLUMN_FAMILY : famille de colonnes de votre table Bigtable.

API

Pour exécuter le modèle à l'aide de l'API REST, envoyez une requête HTTP POST. Pour en savoir plus sur l'API, ses autorisations et leurs champs d'application, consultez la section projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
          "readIdColumn": "READ_COLUMN_ID",
          "inputTableSpec": "INPUT_TABLE_SPEC",
          "bigtableWriteInstanceId": "BIGTABLE_INSTANCE_ID",
          "bigtableWriteTableId": "BIGTABLE_TABLE_ID",
          "bigtableWriteColumnFamily": "BIGTABLE_COLUMN_FAMILY"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/BigQuery_to_Bigtable",
   }
}