Présentation des transferts Cloud Storage

Le service de transfert de données BigQuery pour Cloud Storage vous permet de planifier des chargements de données récurrents depuis Cloud Storage vers BigQuery. Le chemin d'accès à Cloud Storage et la table de destination peuvent être paramétrés, ce qui vous permet de charger des données à partir de buckets Cloud Storage organisés par date.

Formats de fichiers acceptés

Le service de transfert de données BigQuery est actuellement compatible avec le chargement de données depuis Cloud Storage dans l'un des formats suivants :

  • CSV (Comma-Separated Values)
  • JSON (délimité par un retour à la ligne)
  • Avro
  • Parquet
  • ORC

Types de compression acceptés

Le service de transfert de données BigQuery pour Cloud Storage accepte le chargement de données compressées. Les types de compression acceptés par le service de transfert de données BigQuery sont identiques aux types de compression acceptés par les tâches de chargement BigQuery. Pour en savoir plus, consultez la section Charger des données compressées et non compressées.

URI Cloud Storage

Pour charger des données à partir d'une source de données Cloud Storage, vous devez fournir l'URI Cloud Storage.

L'URI Cloud Storage comprend le nom du bucket et l'objet (nom de fichier). Par exemple, si le bucket Cloud Storage est nommé mybucket et que le fichier de données s'appelle myfile.csv, l'URI du bucket sera gs://mybucket/myfile.csv. Si vos données sont séparées en plusieurs fichiers, vous pouvez utiliser un caractère générique dans l'URI. Pour en savoir plus, consultez les URI de requête Cloud Storage.

Le service de transfert de données BigQuery n'accepte pas les URI sources qui comprennent plusieurs barres obliques consécutives après la double barre oblique initiale. Le nom des objets Cloud Storage peut contenir plusieurs barres obliques ("/") consécutives. Toutefois, le service de transfert de données BigQuery convertit les barres obliques consécutives en une seule. Par exemple, l'URI source suivant, bien qu'il soit valide dans Cloud Storage, ne fonctionne pas dans le service de transfert de données BigQuery : gs://bucket/my//object//name.

Pour récupérer l'URI Cloud Storage :

  1. Ouvrez la console Cloud Storage.

    Console Cloud Storage

  2. Accédez à l'emplacement de l'objet (fichier) contenant les données source.

  3. En haut de la console Cloud Storage, notez le chemin d'accès à l'objet. Pour composer l'URI, remplacez gs://bucket/file par le chemin d'accès approprié, par exemple, gs://mybucket/myfile.json. bucket correspond au nom du bucket Cloud Storage et fichier au nom de l'objet (fichier) contenant les données.

Gestion des caractères génériques dans les URI Cloud Storage

Si vos données Cloud Storage sont réparties dans plusieurs fichiers partageant un même nom de base, vous pouvez utiliser un caractère générique dans l'URI lors du chargement des données.

Pour insérer un caractère générique dans l'URI Cloud Storage, il vous suffit d'ajouter un astérisque (*) au nom de base. Par exemple, si vous avez deux fichiers nommés fed-sample000001.csv et fed-sample000002.csv, l'URI du bucket sera gs://mybucket/fed-sample*. Cet URI générique peut ensuite être utilisé dans l'interface utilisateur Web ou l'outil de ligne de commande gcloud (CLI).

Vous pouvez utiliser plusieurs caractères génériques pour les objets (noms de fichiers) contenus dans les buckets. Le caractère générique peut apparaître n'importe où dans le nom de l'objet.

Le développement des caractères génériques ne s'étend pas aux répertoires dans un gs://bucket/. Par exemple, gs://bucket/dir/* trouve les fichiers situés dans le répertoire dir, mais ne trouve pas les fichiers figurant dans le sous-répertoire gs://bucket/dir/subdir/.

Vous ne pouvez pas non plus identifier des fichiers par leur préfixe sans utiliser les caractères génériques. Par exemple, gs://bucket/dir ne trouvera pas de correspondance avec gs://bucket/dir/file.csv, ni avec gs://bucket/file.csv

Cependant, vous pouvez utiliser plusieurs caractères génériques pour les noms de fichiers dans les buckets. Par exemple, gs://bucket/dir/*/*.csv trouve une correspondance avec gs://bucket/dir/subdir/file.csv.

Pour obtenir des exemples de gestion des caractères génériques conjointement avec des noms de table paramétrés, reportez-vous à la section Utiliser des paramètres d'exécution dans les transferts.

Considérations relatives aux zones

Votre bucket Cloud Storage doit se trouver dans une région ou une multirégion compatible avec la région ou la multirégion de l'ensemble de données de destination dans BigQuery.

Cohébergez vos buckets Cloud Storage pour transférer des données.
  • Si votre ensemble de données BigQuery est multirégional, l'ensemble Cloud Storage contenant les données que vous transférez doit se trouver dans un bucket régional ou multirégional au même emplacement. Par exemple, si votre ensemble de données BigQuery se trouve dans l'UE, le bucket Cloud Storage doit être situé dans un bucket régional ou multirégional de l'UE.
  • Si votre ensemble de données se trouve dans une zone régionale, le bucket Cloud Storage doit être un bucket régional de la même zone. Par exemple, si l'ensemble de données se trouve dans la région Tokyo, le bucket Cloud Storage doit être un bucket régional situé à Tokyo.
  • Exception : Si votre ensemble de données est situé dans l'emplacement multirégional États-Unis, vous pouvez transférer des données à partir d'un bucket Cloud Storage dans n'importe quelle région ou multirégion.

Pour en savoir plus sur les transferts et les régions, consultez la section Emplacements et transferts de l'ensemble de données.

Pour en savoir plus sur les emplacements Cloud Storage, consultez la section Emplacements des buckets dans la documentation de Cloud Storage.

Prix

  • Les quotas et limites standards de BigQuery liés aux tâches de chargement s'appliquent.

  • Une fois les données transférées vers BigQuery, les tarifs standards du stockage et des requêtes BigQuery s'appliquent.

  • Les données ne sont pas automatiquement supprimées de votre bucket Cloud Storage après leur importation dans BigQuery, sauf si vous demandez leur suppression lorsque vous configurez le transfert. Consultez Configurer un transfert Cloud Storage.

  • Consultez la page Tarifs appliqués aux transferts pour plus de détails.

Quotas et limites

Le service de transfert de données BigQuery utilise des tâches de chargement pour charger des données Cloud Storage dans BigQuery.

Tous les quotas et limites BigQuery associés aux tâches de chargement s'appliquent aux tâches de chargement Cloud Storage récurrentes.

Étape suivante