Exporter les résultats de requêtes vers Amazon S3

Ce document explique comment exporter le résultat d'une requête exécutée sur une table BigLake vers votre bucket Amazon S3 (Amazon Simple Storage Service).

Pour en savoir plus sur la manière dont les données circulent entre BigQuery et Amazon S3, consultez la section Flux de données lors de l'exportation de données.

Avant de commencer

Assurez-vous de disposer des ressources suivantes :

Exporter des résultats de requête

BigQuery Omni écrit sur l'emplacement Amazon S3 spécifié, quel que soit le contenu existant. La requête d'exportation peut écraser les données existantes ou combiner le résultat de la requête avec des données existantes. Nous vous recommandons d'exporter le résultat de la requête vers un bucket Amazon S3 vide.

Pour exécuter une requête, sélectionnez l'une des options suivantes :

SQL

Dans le champ Éditeur de requête, saisissez une requête d'exportation en GoogleSQL. GoogleSQL est la syntaxe par défaut dans la console Google Cloud.

  1. Dans la console Google Cloud, accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans l'éditeur de requête, saisissez l'instruction suivante :

       EXPORT DATA WITH CONNECTION `CONNECTION_REGION.CONNECTION_NAME`
       OPTIONS(uri="s3://BUCKET_NAME/PATH", format="FORMAT", ...)
       AS QUERY
    

    Remplacez les éléments suivants :

    • CONNECTION_REGION : région dans laquelle la connexion a été créée.
    • CONNECTION_NAME : nom de la connexion que vous avez créée avec l'autorisation nécessaire pour écrire dans le bucket Amazon S3.
    • BUCKET_NAME : bucket Amazon S3 dans lequel vous souhaitez écrire les données.
    • PATH : chemin vers lequel vous souhaitez écrire le fichier exporté. Il doit contenir exactement un caractère générique *, n'importe où dans le répertoire feuille de la chaîne du chemin d'accès, par exemple, ../aa/*, ../aa/b*c, ../aa/*bc et ../aa/bc*. BigQuery remplace * par 0000..N en fonction du nombre de fichiers exportés. BigQuery détermine le nombre et la taille des fichiers. Si BigQuery décide d'exporter deux fichiers, alors * dans le nom du premier fichier est remplacé par 000000000000, et * dans le nom du deuxième fichier par 000000000001.
    • FORMAT : les formats acceptés sont JSON, AVRO, CSV et PARQUET.
    • QUERY : requête permettant d'analyser les données stockées dans une table BigLake.

    • Cliquez sur Exécuter.

Pour en savoir plus sur l'exécution des requêtes, consultez Exécuter une requête interactive.

Java

Avant d'essayer cet exemple, suivez les instructions de configuration pour Java du guide de démarrage rapide de BigQuery : Utiliser les bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API BigQuery pour Java.

Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez la page Configurer l'authentification pour les bibliothèques clientes.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.QueryJobConfiguration;
import com.google.cloud.bigquery.TableResult;

// Sample to export query results to Amazon S3 bucket
public class ExportQueryResultsToS3 {

  public static void main(String[] args) throws InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String datasetName = "MY_DATASET_NAME";
    String externalTableName = "MY_EXTERNAL_TABLE_NAME";
    // connectionName should be in the format of connection_region.connection_name. e.g.
    // aws-us-east-1.s3-write-conn
    String connectionName = "MY_CONNECTION_REGION.MY_CONNECTION_NAME";
    // destinationUri must contain exactly one * anywhere in the leaf directory of the path string
    // e.g. ../aa/*, ../aa/b*c, ../aa/*bc, and ../aa/bc*
    // BigQuery replaces * with 0000..N depending on the number of files exported.
    // BigQuery determines the file count and sizes.
    String destinationUri = "s3://your-bucket-name/*";
    String format = "EXPORT_FORMAT";
    // Export result of query to find states starting with 'W'
    String query =
        String.format(
            "EXPORT DATA WITH CONNECTION `%s` OPTIONS(uri='%s', format='%s') "
              + "AS SELECT * FROM %s.%s.%s WHERE name LIKE 'W%%'",
            connectionName, destinationUri, format, projectId, datasetName, externalTableName);
    exportQueryResultsToS3(query);
  }

  public static void exportQueryResultsToS3(String query) throws InterruptedException {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableResult results = bigquery.query(QueryJobConfiguration.of(query));

      results
          .iterateAll()
          .forEach(row -> row.forEach(val -> System.out.printf("%s,", val.toString())));

      System.out.println("Query results exported to Amazon S3 successfully.");
    } catch (BigQueryException e) {
      System.out.println("Query not performed \n" + e.toString());
    }
  }
}

Dépannage

Si vous obtenez une erreur liée à un problème de quota (quota failure), vérifiez si vous disposez d'une capacité réservée pour vos requêtes. Pour en savoir plus sur les réservations d'emplacements, consultez la section Avant de commencer de ce document.

Limites

Pour obtenir la liste complète des limites applicables aux tables BigLake basées sur Amazon S3 et Blob Storage, consultez la section Limites.

Étapes suivantes