Présentation des transferts Amazon S3

Le service de transfert de données BigQuery pour Amazon S3 vous permet de planifier et de gérer automatiquement les tâches de chargement récurrentes à partir d'Amazon S3 dans BigQuery.

Formats de fichiers acceptés

Le service de transfert de données BigQuery est actuellement compatible avec le chargement de données à partir d'Amazon S3 dans l'un des formats suivants :

  • CSV (Comma-Separated Values)
  • JSON (délimité par un retour à la ligne)
  • Avro
  • Parquet
  • ORC

Types de compression acceptés

Le service de transfert de données BigQuery pour Amazon S3 accepte le chargement de données compressées. Les types de compression acceptés par le service de transfert de données BigQuery sont identiques aux types de compression acceptés par les tâches de chargement BigQuery. Pour en savoir plus, consultez la section Charger des données compressées et non compressées.

Prérequis Amazon S3

Pour charger des données à partir d'une source de données Amazon S3, vous devez :

  • indiquer l'URI Amazon S3 pour vos données source ;
  • avoir votre ID de clé d'accès ;
  • avoir votre clé d'accès secrète ;
  • définir au minimum la stratégie AWS gérée AmazonS3ReadOnlyAccess sur vos données source Amazon S3.

URI Amazon S3

Lorsque vous spécifiez l'URI Amazon S3, le chemin d'accès doit être au format s3://bucket/folder1/folder2/... Seul le nom du compartiment de niveau supérieur est requis. Les noms de dossier sont facultatifs. Si vous spécifiez un URI comprenant uniquement le nom du bucket, tous les fichiers du bucket sont transférés et chargés dans BigQuery.

L'URI Amazon S3 et la table de destination peuvent être tous deux paramétrés, ce qui vous permet de charger des données à partir de compartiments Amazon S3 organisées par date. Notez qu'actuellement, la partie compartiment de l'URI ne peut pas être paramétrée. Les paramètres utilisés par les transferts Amazon S3 sont les mêmes que ceux utilisés par les transferts Cloud Storage.

Compatibilité des caractères génériques avec les URI Amazon S3

Si vos données source sont séparées en plusieurs fichiers partageant un nom de base commun, vous pouvez utiliser un caractère générique dans l'URI lorsque vous chargez les données.

Pour ajouter un caractère générique à l'URI, vous devez ajouter un astérisque (*) au nom de base. Par exemple, si vous disposez de deux fichiers nommés fed-sample000001.csv et fed-sample000002.csv, l'URI du compartiment aura la forme suivante : s3://mybucket/fed-sample*.

Vous ne pouvez utiliser qu'un seul caractère générique pour les objets (noms de fichiers) contenus dans votre bucket. Le caractère générique peut apparaître à l'intérieur ou à la fin du nom de l'objet. Vous ne pouvez pas ajouter un caractère générique au nom du bucket.

Clés d'accès AWS

L'ID de clé d'accès et la clé d'accès secrète permettent d'accéder aux données Amazon S3 en votre nom. Il est recommandé de créer un ID de clé d'accès et une clé d'accès secrète uniques spécifiquement pour les transferts Amazon S3 afin de donner un accès minimal au service de transfert de données BigQuery. Pour plus d'informations sur la gestion de vos clés d'accès, consultez la documentation de référence générale AWS.

Considérations relatives à la cohérence

Lorsque vous transférez des données à partir d'Amazon S3, il est possible que certaines de vos données ne soient pas transférées vers BigQuery, en particulier si les fichiers ont été ajoutés au compartiment très récemment. Après son ajout au compartiment, il faut attendre environ 10 minutes avant qu'un fichier ne soit disponible pour le service de transfert de données BigQuery.

Dans certains cas, cependant, cela peut prendre plus de 10 minutes. Pour réduire le risque de données manquantes, programmez vos transferts Amazon S3 au moins 10 minutes après l'ajout de vos fichiers au compartiment. Pour plus d'informations sur le modèle de cohérence Amazon S3, consultez la page Modèle de cohérence des données Amazon S3 dans la documentation Amazon S3.

Prix

Pour plus d'informations sur la tarification du service de transfert de données BigQuery, consultez la page Tarifs.

Notez qu'en utilisant ce service, des coûts peuvent être engagés en dehors de Google. Veuillez consulter la page de tarification d'Amazon S3 pour plus de détails.

Quotas et limites

Le service de transfert de données BigQuery utilise des tâches de chargement pour charger des données Amazon S3 dans BigQuery. Tous les quotas et limites des tâches de chargement s'appliquent aux transferts récurrents Amazon S3.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.