Présentation des transferts Cloud Storage

Le service de transfert de données BigQuery pour Cloud Storage vous permet de programmer des chargements de données récurrents depuis Cloud Storage vers BigQuery. Le chemin d'accès à Cloud Storage et la table de destination peuvent être paramétrés, ce qui vous permet de charger des données à partir de buckets Cloud Storage organisés par date.

Formats de fichiers acceptés

Le service de transfert de données BigQuery est actuellement compatible avec le chargement de données depuis Cloud Storage dans l'un des formats suivants :

  • Valeurs séparées par des virgules (CSV)
  • JSON (délimité par un retour à la ligne)
  • Avro
  • Parquet
  • ORC

URI Cloud Storage

Pour charger des données à partir d'une source de données Cloud Storage, vous devez fournir l'URI Cloud Storage.

L'URI Cloud Storage comprend le nom du bucket et l'objet (nom de fichier). Par exemple, pour un bucket Cloud Storage mybucket et un fichier de données myfile.csv, l'URI du bucket serait gs://mybucket/myfile.csv. Si vos données sont réparties dans plusieurs fichiers, vous pouvez utiliser un caractère générique dans l'URI. Pour plus d'informations, consultez la page Demander les URI Cloud Storage.

BigQuery ne prend pas en charge les URI sources qui comprennent plusieurs barres obliques consécutives après la double barre oblique initiale. Le nom des objets Cloud Storage peut contenir plusieurs barres obliques ("/") consécutives. Toutefois, BigQuery convertit les barres obliques consécutives en une seule. Par exemple, bien que l'URI source suivant soit valide dans Cloud Storage, il ne fonctionne pas dans BigQuery : gs://[BUCKET]/my//object//name.

Pour récupérer l'URI Cloud Storage :

  1. Ouvrez l'interface utilisateur Web de Cloud Storage.

    Interface utilisateur Web de Cloud Storage

  2. Accédez à l'emplacement de l'objet (fichier) contenant les données source.

  3. En haut de l'interface utilisateur Web Cloud Storage, relevez le chemin d'accès à l'objet. Pour composer l'URI, remplacez gs://[BUCKET]/[FILE] par le chemin approprié, par exemple, gs://mybucket/myfile.json. [BUCKET] correspond au nom du bucket Cloud Storage et [FILE] au nom de l'objet (fichier) contenant les données.

Gestion des caractères génériques dans les URI Cloud Storage

Si vos données Cloud Storage sont réparties dans plusieurs fichiers partageant un même nom de base, vous pouvez utiliser un caractère générique dans l'URI lors du chargement des données.

Pour insérer un caractère générique dans l'URI Cloud Storage, il vous suffit d'ajouter un astérisque (*) au nom de base. Par exemple, si vous disposez de deux fichiers nommés fed-sample000001.csv et fed-sample000002.csv, l'URI du bucket aura la forme suivante : gs://mybucket/fed-sample*. Cet URI générique peut ensuite être utilisé dans l'interface utilisateur Web ou la CLI.

Vous ne pouvez utiliser qu'un seul caractère générique pour les objets (noms de fichiers) contenus dans votre bucket. Le caractère générique peut apparaître à l'intérieur ou à la fin du nom de l'objet. Vous ne pouvez pas ajouter un caractère générique au nom du bucket.

Considérations relatives aux zones

Lorsque vous choisissez une zone pour les données, envisagez d'entreprendre les actions suivantes :
  • Cohéberger un ensemble de données BigQuery et une source de données externe.
    • Lorsque vous interrogez des données dans une source de données externe telle que Cloud Storage, ces données doivent se trouver dans la même zone que votre ensemble de données BigQuery. Par exemple, si ce dernier se trouve dans la zone multirégionale UE, le bucket Cloud Storage contenant les données que vous interrogez doit se trouver dans un bucket multirégional de l'UE. Si votre ensemble de données est situé dans la zone multirégionale États-Unis, le bucket Cloud Storage doit se trouver dans un bucket multirégional aux États-Unis.
    • Si votre ensemble de données se trouve dans une zone régionale, le bucket Cloud Storage contenant les données que vous interrogez doit se trouver dans un bucket régional de la même zone. Par exemple, si l'ensemble de données se trouve dans la région Tokyo, le bucket Cloud Storage doit être un bucket régional situé à Tokyo.
    • Si l'ensemble de données externe se trouve dans Cloud Bigtable, l'ensemble de données doit se trouver dans la zone multirégionale US ou EU. Les données Cloud Bigtable doivent se trouver dans l'une des zones Cloud Bigtable gérées.
    • Les considérations relatives aux zones ne s'appliquent pas aux sources de données externes Google Drive.
  • Cohéberger vos buckets Cloud Storage pour charger des données.
    • Si votre ensemble de données BigQuery se trouve dans une zone multirégionale, le bucket Cloud Storage contenant les données que vous chargez doit se trouver dans un bucket régional ou multirégional de la même zone. Par exemple, si votre ensemble de données BigQuery se trouve dans l'UE, le bucket Cloud Storage doit être situé dans un bucket régional ou multirégional de l'UE.
    • Si votre ensemble de données se trouve dans une zone régionale, le bucket Cloud Storage doit être un bucket régional de la même zone. Par exemple, si votre ensemble de données se trouve dans la région Tokyo, le bucket Cloud Storage doit être un bucket régional situé à Tokyo.
    • Exception : Si votre ensemble de données se trouve dans la zone multirégionale États-Unis, vous pouvez charger des données à partir d'un bucket Cloud Storage situé dans n'importe quelle zone régionale ou multirégionale.
  • Cohéberger vos buckets Cloud Storage pour exporter des données.
    • Lorsque vous exportez des données, le bucket Cloud Storage régional ou multirégional doit se trouver dans la même zone que l'ensemble de données BigQuery. Par exemple, si votre ensemble de données BigQuery est situé dans la zone multirégionale UE, le bucket Cloud Storage contenant les données que vous exportez doit se trouver dans une zone régionale ou multirégionale de l'UE.
    • Si votre ensemble de données se trouve dans une zone régionale, le bucket Cloud Storage doit être un bucket régional de la même zone. Par exemple, si votre ensemble de données se trouve dans la région Tokyo, le bucket Cloud Storage doit être un bucket régional situé à Tokyo.
    • Exception : Si votre ensemble de données se trouve dans la zone multirégionale États-Unis, vous pouvez exporter des données dans un bucket Cloud Storage situé dans n'importe quelle zone régionale ou multirégionale.
  • Élaborer un plan de gestion des données.
    • Si vous choisissez une ressource de stockage régionale, telle qu'un ensemble de données BigQuery ou un bucket Cloud Storage, élaborez un plan de gestion géographique des données.
Pour en savoir plus sur les zones Cloud Storage, consultez la section Zones des buckets dans la documentation de Cloud Storage.

Déplacer des données BigQuery entre des zones

Il n'est pas possible de modifier la zone d'un ensemble de données après sa création, ni de déplacer un ensemble de données d'une zone vers une autre. Si vous devez tout de même le faire, procédez comme suit :

  1. Exportez les données de vos tables BigQuery vers un bucket Cloud Storage régional ou multirégional situé dans la même zone que l'ensemble de données. Par exemple, si votre ensemble de données se trouve dans la zone multirégionale UE, exportez les données dans un bucket régional ou multirégional de l'UE.

    L'exportation de données depuis BigQuery est gratuite, mais vous payez des frais pour le stockage des données exportées dans Cloud Storage. Les exportations BigQuery sont soumises aux limites applicables aux tâches d'exportation.

  2. Copiez ou déplacez les données de votre bucket Cloud Storage vers un bucket régional ou multirégional dans la nouvelle zone. Par exemple, si vous déplacez vos données de la zone multirégionale États-Unis vers la zone régionale Tokyo, vous les transférez vers un bucket régional situé à Tokyo. Pour en savoir plus sur le transfert d'objets Cloud Storage, consultez la section Renommer, copier et déplacer des objets de la documentation de Cloud Storage.

    Notez que le transfert de données entre régions entraîne des frais de sortie de réseau dans Cloud Storage.

  3. Après avoir transféré les données vers un bucket Cloud Storage dans la nouvelle zone, créez-y un nouvel ensemble de données BigQuery. Ensuite, chargez les données du bucket Cloud Storage dans BigQuery.

    Le chargement des données dans BigQuery est gratuit, mais vous devrez payer des frais pour le stockage des données dans Cloud Storage jusqu'à ce que vous supprimiez les données ou le bucket. Le stockage des données dans BigQuery après leur chargement vous est également facturé. Le chargement de données dans BigQuery est soumis aux limites applicables aux tâches de chargement.

Pour plus d'informations sur l'utilisation de Cloud Storage pour stocker et déplacer des ensembles de données volumineux, consultez la page Utiliser Google Cloud Storage pour le big data.

Quotas et limites

Le service de transfert de données BigQuery utilise des tâches de chargement pour charger des données Cloud Storage dans BigQuery. Tous les quotas et limites BigQuery associés aux tâches de chargement s'appliquent aux tâches de chargement Cloud Storage récurrentes.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.