Transferts Cloud Storage

Le service de transfert de données BigQuery pour Cloud Storage vous permet de planifier des chargements de données récurrents depuis Cloud Storage vers BigQuery.

Avant de commencer

Avant de créer un transfert Cloud Storage, procédez comme suit :

Limites

Les transferts récurrents de Cloud Storage vers BigQuery sont soumis aux limitations suivantes :

  • Tous les fichiers correspondant aux modèles définis par un caractère générique ou par des paramètres d'exécution pour le transfert doivent partager le même schéma que celui défini pour la table de destination. Si ce n'est pas le cas, le transfert échoue. Les modifications de schéma de table entre les exécutions entraînent également l'échec du transfert.
  • Les fichiers sources dans Cloud Storage doivent dater au moins d'une heure pour être récupérés lors du transfert.
  • Les objets Cloud Storage peuvent comporter des versions gérées ; il est donc important de noter que les objets archivés Cloud Storage ne sont pas acceptés pour les transferts BigQuery. Les objets doivent être publiés pour être transférés.
  • Contrairement aux chargements de données individuels de Cloud Storage vers BigQuery, vous devez créer la table de destination et son schéma avant de configurer le transfert pour les transferts en cours. BigQuery ne peut pas créer la table dans le cadre du processus de transfert de données récurrent.
  • Les transferts à partir de Cloud Storage sont toujours déclenchés par la préférence WRITE_APPEND qui ajoute des données à la table de destination. Pour plus d'informations, consultez la section relative à configuration.load.writeDisposition sous la propriété configuration.load.
  • Si la zone de votre ensemble de données est définie sur une valeur autre que US, le bucket Cloud Storage régional ou multirégional doit se trouver dans la même région que cet ensemble de données.

Selon le format de vos données sources Cloud Storage, des limitations supplémentaires peuvent s'appliquer. Pour en savoir plus, consultez les pages suivantes :

Autorisations requises

Pour charger des données dans BigQuery, vous devez disposer, au niveau du projet ou de l'ensemble de données, des autorisations requises pour charger des données dans des tables et des partitions BigQuery, nouvelles ou existantes. Si vous chargez des données depuis Cloud Storage, vous devez également avoir accès au bucket contenant vos données. Assurez-vous que vous disposez des autorisations requises suivantes :

  • BigQuery : vous devez disposer de l'autorisation bigquery.transfers.update pour créer le transfert planifié. Le rôle IAM bigquery.admin prédéfini au niveau du projet comprend l'autorisation bigquery.transfers.update. Pour plus d'informations sur les rôles IAM dans BigQuery, consultez la section Contrôle des accès.
  • Cloud Storage : vous devez disposer de l'autorisation storage.objects.get au niveau du projet ou du bucket individuel. Si vous utilisez un caractère générique dans l'URI, vous devez également disposer de l'autorisation storage.objects.list. Si vous souhaitez supprimer les fichiers sources après chaque transfert réussi, vous devez également disposer de l'autorisation storage.objects.delete. Le rôle IAM storage.objectAdmin prédéfini au niveau du projet inclut toutes ces autorisations.

Configurer un transfert Cloud Storage

Pour configurer un transfert Cloud Storage dans le service de transfert de données BigQuery, procédez comme suit :

  1. Accédez à l'interface utilisateur Web de BigQuery.

    Accéder à l'interface utilisateur Web de BigQuery

  2. Cliquez sur Transferts.

  3. Cliquez sur Ajouter un transfert.

  4. Sur la page Nouveau transfert, procédez comme suit :

    • Sous Source, sélectionnez Google Cloud Storage.
    • Sous Nom à afficher, saisissez un nom pour la requête programmée, tel que My Transfer. Le nom à afficher peut correspondre à n'importe quelle valeur permettant d'identifier facilement le transfert si vous devez le modifier par la suite.
    • (Facultatif) Sous Exécution programmée, vous pouvez conserver la valeur par défaut Tous les jours (toutes les 24 heures, en fonction de l'heure de création) ou cliquer sur Modifier pour changer le délai. Vous pouvez également modifier l'intervalle d'exécution et le définir sur "Toutes les semaines", "Tous les mois" ou "Personnalisée". Lorsque vous sélectionnez la valeur "Personnalisée", vous devez indiquer une spécification temporelle de type Cron, par exemple every 12 hours. La période la plus courte autorisée est de 12 heures. Consultez le champ schedule sous TransferConfig pour obtenir des valeurs supplémentaires d'API valides.

      Exécution programmée de la requête

    • Sous Ensemble de données de destination, sélectionnez l'ensemble de données approprié.

    • Sous Table de destination, saisissez le nom de votre table de destination. La table de destination doit suivre les règles de dénomination des tables. Les noms de table de destination acceptent également les paramètres.
    • Sous URI Cloud Storage, saisissez l'URI Cloud Storage. Les caractères génériques et les paramètres sont acceptés.
    • Sous Supprimer les fichiers sources après le transfert, cochez la case si vous souhaitez supprimer les fichiers sources après chaque transfert réussi. Les tâches de suppression représentent l'approche la plus conseillée. Elles ne sont pas relancées si la première tentative de suppression des fichiers sources échoue.
    • Sous Format de fichier, sélectionnez le type de fichiers que vous souhaitez transférer.
    • Sous la section Options de transfert – Tous les formats :
      • Sous Nombre d'erreurs autorisées, saisissez le nombre maximal d'enregistrements incorrects pouvant être ignorés par BigQuery lors de l'exécution de la tâche. Si cette valeur est dépassée, une erreur de type "non valide" est affichée dans le résultat de la tâche, et cette dernière échoue. La valeur par défaut est 0.
    • Sous la section Options de transfert – JSON, CSV :
      • Sous Ignorer les valeurs inconnues, cochez la case si vous souhaitez que le transfert entraîne la suppression des données qui ne correspondent pas au schéma de la table de destination.
    • Sous la section Options de transfert – CSV :

      • Sous Délimiteur de champ, saisissez le caractère qui sépare les champs. La valeur par défaut est une virgule.
      • Sous Lignes d'en-tête à ignorer, saisissez le chiffre correspondant au nombre de lignes d'en-tête dans le ou les fichiers sources si vous ne souhaitez pas les importer. La valeur par défaut est 0.
      • Sous Autoriser les nouvelles lignes entre guillemets, cochez la case si vous souhaitez autoriser les nouvelles lignes entre guillemets.
      • Sous Autoriser les lignes irrégulières, cochez la case si vous souhaitez autoriser le transfert de lignes comportant des colonnes NULLABLE manquantes.

        Nouveau transfert Cloud Storage

    • (Facultatif) Développez la section Avancé, puis configurez les notifications d'exécution pour le transfert. Les notifications d'exécution de transfert sont actuellement en version alpha.

      • Sous Sujet Cloud Pub/Sub, saisissez le nom de votre sujet Cloud Pub/Sub, par exemple projects/myproject/topics/mytopic.
      • Cochez la case Envoyer des notifications par e-mail pour autoriser les notifications par e-mail en cas d'échec d'exécution des transferts.

        Sujet Cloud Pub/Sub

  5. Cliquez sur Ajouter.

Configurer un transfert d'actualisation

En plus de la configuration d'un transfert récurrent à partir de Cloud Storage, vous pouvez également configurer une exécution d'actualisation pour récupérer des fichiers de données supplémentaires.

Si la configuration du transfert est liée à la date (paramétrée), si l'URI Cloud Storage est paramétré, ou si les deux cas s'appliquent, vous pouvez exécuter le transfert à des dates spécifiques.

Pour configurer un transfert d'actualisation, procédez comme suit :

  1. Accédez à l'interface utilisateur Web de BigQuery.

    Accéder à l'interface utilisateur Web de BigQuery

  2. Cliquez sur Transferts.

  3. Cliquez sur le transfert.

  4. Cliquez sur Actualiser le transfert.

    Actualiser le transfert

  5. Dans la boîte de dialogue Démarrer les exécutions de transfert, sélectionnez l'heure de début et l'heure de fin.

    définir des dates dans l'historique

    Si votre configuration de transfert Cloud Storage n'est pas paramétrée, aucune option de date ne s'affiche lorsque vous cliquez sur Actualiser le transfert. Au lieu de cela, l'actualisation a lieu immédiatement. Les fichiers doivent dater au moins d'une heure pour être récupérés lors du transfert.

    Actualiser immédiatement

  6. Cliquez sur OK.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.