Transferts Amazon S3

Le service de transfert de données BigQuery pour Amazon S3 vous permet de planifier et de gérer automatiquement les tâches de chargement récurrentes à partir d'Amazon S3 dans BigQuery.

Avant de commencer

Avant de créer un transfert Amazon S3 :

  • Vérifiez que vous avez effectué toutes les actions requises pour activer le service de transfert de données BigQuery.
  • Si vous créez le transfert à l'aide de l'interface utilisateur Web classique de BigQuery, autorisez les pop-ups de bigquery.cloud.google.com dans votre navigateur pour pouvoir afficher la fenêtre des autorisations. Vous devez autoriser le service de transfert de données BigQuery à gérer le transfert.
  • Créez un ensemble de données BigQuery pour stocker vos données.
  • Créez la table de destination pour votre transfert et spécifiez la définition du schéma. Le nom de la table de destination doit respecter les règles de dénomination des tables. Les noms de table de destination acceptent également les paramètres.
  • Récupérez votre URI Amazon S3, votre ID de clé d'accès et votre clé d'accès secrète. Pour plus d'informations sur la gestion de vos clés d'accès, consultez la documentation AWS.
  • Les notifications d'exécution de transfert sont actuellement en version alpha. Si vous souhaitez configurer des notifications d'exécution de transfert pour Cloud Pub/Sub, vous devez disposer des autorisations pubsub.topics.setIamPolicy. Si vous ne configurez que des notifications par e-mail, les autorisations Cloud Pub/Sub ne sont pas requises. Pour en savoir plus, consultez la page Notifications d'exécution du service de transfert de données BigQuery.

Limites

Les transferts Amazon S3 sont soumis aux limitations suivantes :

Autorisations requises

Avant de créer un transfert Amazon S3 :

  • Assurez-vous que la personne qui crée le transfert dispose des autorisations requises suivantes dans BigQuery :

    • Autorisations bigquery.transfers.update pour créer le transfert
    • Autorisation bigquery.datasets.update sur l'ensemble de données cible

    Le rôle IAM prédéfini bigquery.admin au niveau du projet comprend les autorisations bigquery.transfers.update et bigquery.datasets.update. Pour en savoir plus sur les rôles IAM dans BigQuery, consultez la page Contrôle des accès.

  • Consultez la documentation d'Amazon S3 pour vous assurer que vous avez configuré toutes les autorisations nécessaires pour activer le transfert. Au minimum, la stratégie AWS gérée AmazonS3ReadOnlyAccess doit être appliquée aux données sources Amazon S3.

Configuration d'un transfert de données Amazon S3

Pour créer un transfert de données Amazon S3 :

Console

  1. Accédez à la page du connecteur Amazon S3 dans Google Cloud Platform Marketplace.

    Accéder à Google Cloud Platform Marketplace

  2. Sur la page de documentation du transfert Amazon S3, cliquez sur Ajouter. Le processus d'ajout peut prendre un moment.

  3. Une fois l'ajout terminé, cliquez sur Configurer le transfert.

  4. Sur la page Créer un transfert :

    • Dans le champ Source de la section Source type (Type de source), choisissez Amazon S3.

      Source de transfert

    • Dans la section Transfer config name (Nom de la configuration du transfert), sous Display name (Nom à afficher), saisissez un nom pour le transfert, tel que My Transfer. Ce nom peut correspondre à n'importe quelle valeur permettant d'identifier facilement le transfert si vous devez le modifier ultérieurement.

      Nom du transfert

    • Dans la section Schedule options (Options de programmation), pour le champ Schedule (Programmation), laissez la valeur par défaut Start now (Commencer) ou cliquez sur Start at a set time (Démarrer à l'heure définie).

      • Pour le champ Repeats (Périodicité), choisissez une option pour la fréquence d'exécution du transfert. Les options proposées comprennent :

        • Daily (Tous les jours) (par défaut)
        • Toutes les semaines
        • Tous les mois
        • Personnalisée
        • À la demande

        Si vous choisissez une option autre que Daily (Tous les jours), des options supplémentaires sont disponibles. Par exemple, si vous choisissez Toutes les semaines, une option vous permet de sélectionner le jour de la semaine.

      • Pour Start date and run time (Date de début et heure d'exécution), saisissez la date et l'heure de début du transfert. Cette option est désactivée si vous choisissez Start now (Commencer).

        Planning de transfert

    • Dans la section Destination settings (Paramètres de destination), pour le champ Destination dataset (Ensemble de données de destination), choisissez l'ensemble de données que vous avez créé pour stocker vos données.

      Transférer un ensemble de données

    • Dans la section Data source details (Détails de la source de données) :

      • Pour le champ Destination table (Table de destination), saisissez le nom de la table que vous avez créée pour stocker les données dans BigQuery. Les noms de table de destination sont compatibles avec les paramètres.
      • Pour le champ URI Amazon S3, saisissez l'URI au format s3://mybucket/myfolder/... Les URI sont eux aussi compatibles avec les paramètres.
      • Pour le champ Access key ID (ID de clé d’accès), saisissez votre ID de clé d’accès.
      • Pour le champ Secret access key (Clé d'accès secrète), saisissez votre clé d'accès secrète.
      • Pour le champ File format (Format de fichier) choisissez votre format de données : JSON (délimité par une nouvelle ligne), CSV, Avro, Parquet ou Orc.

        Détails de la source S3

    • Dans la section Transfer Options (Options de transfert), sous Number of errors allowed (Nombre d'erreurs autorisées), saisissez une valeur entière pour le nombre maximal d'enregistrements incorrects pouvant être ignorés.

      Nombre d'erreurs autorisées

    • Si vous avez choisi CSV ou JSON comme format de fichier, dans la section JSON, CSV, cochez Ignore unknown values (Ignorer les valeurs inconnues) pour accepter les lignes contenant des valeurs qui ne correspondent pas au schéma. Les valeurs inconnues sont ignorées. Pour les fichiers CSV, cette option ignore les valeurs supplémentaires en fin de ligne.

      Ignorer les valeurs inconnues

    • Si vous avez choisi CSV comme format de fichier, dans la section CSV, saisissez les options CSV supplémentaires pour le chargement des données.

      Options CSV

    • (Facultatif) Dans la section Options de notification :

      • Cliquez sur le bouton pour activer les notifications par e-mail. Lorsque vous activez cette option, l'administrateur de transfert reçoit une notification par e-mail en cas d'échec de l'exécution du transfert.
      • Pour Sélectionnez un sujet Cloud Pub/Sub, choisissez le nom de votre sujet ou cliquez sur Créer un sujet pour en créer un. Cette option configure les notifications d'exécution Cloud Pub/Sub pour votre transfert. Les notifications d'exécution de transfert sont actuellement en version alpha.
  5. Cliquez sur Enregistrer.

UI classique

  1. Accédez à l'UI Web de BigQuery.

    Accéder à l'interface utilisateur Web de BigQuery

  2. Cliquez sur Transferts.

  3. Cliquez sur Ajouter un transfert.

  4. Sur la page Nouveau transfert :

    • Pour Source, choisissez Amazon S3.
    • Pour Nom à afficher, saisissez le nom du transfert, par exemple My Transfer. Le nom à afficher peut être n'importe quelle valeur permettant d'identifier facilement le transfert si vous devez le modifier par la suite.
    • (Facultatif) Pour Schedule (Programmation), vous pouvez conserver la valeur par défaut Daily (toutes les 24 heures, en fonction de l'heure de création) ou cliquer sur Edit (Modifier) pour modifier l'heure d'exécution. Vous pouvez également modifier l'intervalle d'exécution et le définir sur "Toutes les semaines", "Tous les mois" ou "Personnalisée". Lorsque vous sélectionnez "Custom" (valeur personnalisée), vous devez ajouter une spécification temporelle de type Cron, par exemple every 12 hours. La période la plus courte autorisée est de 12 heures. Consultez les informations relatives au champ schedule dans la section TransferConfig pour découvrir d'autres valeurs d'API valides.
    • Pour Ensemble de données de destination, sélectionnez l'ensemble de données approprié.
    • Sous Table de destination, saisissez le nom de votre table de destination. Le nom de la table de destination doit respecter les règles de dénomination des tables. Les noms de table de destination acceptent également les paramètres.
    • Pour URI Amazon S3, saisissez l'URI Amazon S3. Les caractères génériques et les paramètres sont acceptés.
    • Pour ID de clé d’accès, saisissez votre ID de clé d’accès.
    • Pour Clé d'accès secrète, saisissez votre clé d'accès secrète.
    • Pour Format de fichier, choisissez votre format de données : JSON (délimité par une nouvelle ligne), CSV, Avro, Parquet ou Orc.
    • Sous la section Options de transfert – Tous les formats :
      • Dans le champ Number of errors allowed (Nombre d'erreurs autorisées), saisissez le nombre maximal d'enregistrements incorrects pouvant être ignorés par BigQuery lors de l'exécution de la tâche. Si cette valeur maximale est dépassée, une erreur de type "non valide" est renvoyée dans le résultat de la tâche, et cette dernière échoue. La valeur par défaut est 0.
    • Si vous avez choisi CSV ou JSON comme format de données, dans la section Options de transfert - JSON, CSV :
      • Cochez la case située en regard de Ignore unknown values (Ignorer les valeurs inconnues) si vous souhaitez que les données ne correspondant pas au schéma de la table de destination ne soient pas prises en compte lors du transfert.
    • Si vous avez choisi CSV comme format de données, dans la section Options de transfert - CSV :

      • Sous Délimiteur de champ, saisissez le caractère qui sépare les champs. La valeur par défaut est une virgule.
      • Dans le champ Header rows to skip (Lignes d'en-tête à ignorer), saisissez le nombre de lignes d'en-tête contenues dans le ou les fichiers sources si vous ne souhaitez pas importer ces lignes. La valeur par défaut est 0.
      • Cochez la case située en regard de Allow quoted newlines (Autoriser les nouvelles lignes entre guillemets) si vous souhaitez autoriser l'ajout de lignes dans les champs entre guillemets.
      • Cochez la case située en regard de Allow jagged rows (Autoriser les lignes irrégulières) si vous souhaitez autoriser le transfert de lignes dont certaines colonnes NULLABLE sont manquantes.
    • (Facultatif) Développez la section Advanced (Avancé), puis configurez les notifications d'exécution pour votre transfert. Les notifications d'exécution de transfert sont actuellement en version alpha.

    • Sous Cloud Pub/Sub topic (Sujet Cloud Pub/Sub), saisissez le nom de votre sujet Cloud Pub/Sub, par exemple projects/myproject/topics/mytopic.

    • Cochez la case Send email notifications (Envoyer des notifications par e-mail) pour autoriser les notifications par e-mail en cas d'échec de l'exécution des transferts.

      Sujet Cloud Pub/Sub

  5. Cliquez sur Ajouter.

Résoudre les problèmes de configuration du transfert Amazon S3

Si vous rencontrez des problèmes lors de la configuration de votre transfert, consultez la page de dépannage pour connaître les étapes de dépannage.

Interroger les données

Lorsque les données sont transférées vers BigQuery, elles sont écrites dans des tables partitionnées avec date d'ingestion. Pour plus d'informations, consultez la page Présentation des tables partitionnées.

Si vous interrogez directement les tables au lieu d'utiliser les vues générées automatiquement, vous devez utiliser la pseudo-colonne _PARTITIONTIME dans votre requête. Pour en savoir plus, consultez la page Interroger des tables partitionnées.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.