Planifier un transfert PostgreSQL

Le connecteur du service de transfert de données BigQuery pour PostgreSQL aide les utilisateurs à créer des tâches de transfert de données récurrentes et à la demande pour transférer des données depuis leur instance PostgreSQL vers BigQuery. Le connecteur est compatible avec les instances PostgreSQL hébergées dans votre environnement sur site, Cloud SQL, ainsi qu'avec d'autres fournisseurs de services cloud public tels qu'Amazon Web Services (AWS) et Microsoft Azure.

Limites

Les transferts de données PostgreSQL sont soumis aux limitations suivantes:

  • Le nombre maximal d'exécutions de transfert simultanées vers une seule base de données PostgreSQL est déterminé par le nombre maximal de connexions simultanées compatibles avec la base de données PostgreSQL. Le nombre d'opérations de transfert simultanées doit être limité à une valeur inférieure au nombre maximal de connexions simultanées compatibles avec la base de données PostgreSQL.
  • Dans PostgreSQL, certains types de données sont mappés sur le type de chaîne dans BigQuery pour éviter toute perte de données. Par exemple, les types numériques définis dans PostgreSQL qui n'ont pas de précision et d'échelle définies sont mappés sur le type de chaîne dans BigQuery.

Avant de commencer

Rôles requis

Si vous avez l'intention de configurer des notifications d'exécution de transfert pour Pub/Sub, assurez-vous de disposer de l'autorisation Identity and Access Management (IAM) pubsub.topics.setIamPolicy. Les autorisations Pub/Sub ne sont pas nécessaires si vous ne configurez que des notifications par e-mail. Pour plus d'informations, consultez la page Notifications d'exécution du service de transfert de données BigQuery.

Pour obtenir les autorisations nécessaires pour créer un transfert de données PostgreSQL, demandez à votre administrateur de vous accorder le rôle IAM Administrateur BigQuery (roles/bigquery.admin) sur votre projet. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient les autorisations requises pour créer un transfert de données PostgreSQL. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour créer un transfert de données PostgreSQL:

  • bigquery.transfers.update
  • bigquery.datasets.get

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Connexions réseau

Si aucune adresse IP publique n'est disponible pour la connexion à la base de données PostgreSQL, vous devez configurer un rattachement de réseau.

Pour obtenir des instructions détaillées sur la configuration réseau requise, consultez les documents suivants:

Configurer un transfert de données PostgreSQL

Sélectionnez l'une des options suivantes :

Console

  1. Accédez à la page Transferts de données.

    Accéder à la page Transferts de données

  2. Cliquez sur Créer un transfert.

  3. Dans la section Source type (Type de source), pour Source (Source), sélectionnez PostgreSQL.

  4. Dans la section Transfer config name (Nom de la configuration de transfert), sous Display name (Nom à afficher), saisissez le nom du transfert. Ce nom peut correspondre à toute valeur permettant d'identifier le transfert si vous devez le modifier ultérieurement.

  5. Dans la section Options de programmation, procédez comme suit :

    • Sélectionnez une fréquence de répétition. Si vous sélectionnez l'option Heures, Jours (par défaut), Semaines ou Mois, vous devez également spécifier une fréquence. Vous pouvez également sélectionner l'option Personnalisé pour créer une fréquence de répétition plus spécifique. Si vous sélectionnez l'option À la demande, ce transfert de données ne s'exécute que lorsque vous déclenchez manuellement le transfert.
    • Le cas échéant, sélectionnez l'option Commencer ou Commencer à l'heure définie, puis indiquez une date de début et une heure d'exécution.
  6. Dans la section Paramètres de destination, pour le champ Ensemble de données, sélectionnez l'ensemble de données que vous avez créé pour stocker vos données, ou cliquez sur Créer un ensemble de données et créez-en un à utiliser comme ensemble de données de destination.

  7. Dans la section Data source details (Détails de la source de données), procédez comme suit :

    • Sous Rattachement de réseau, sélectionnez un rattachement de réseau existant ou cliquez sur Créer un rattachement de réseau. Pour en savoir plus, consultez la section Connexions réseau de ce document.
    • Dans le champ Host (Hôte), saisissez le nom d'hôte ou l'adresse IP du serveur de base de données PostgreSQL.
    • Pour Numéro de port, saisissez le numéro de port du serveur de base de données PostgreSQL.
    • Dans le champ Nom de la base de données, saisissez le nom de la base de données PostgreSQL.
    • Pour Nom d'utilisateur, saisissez le nom d'utilisateur de l'utilisateur PostgreSQL qui lance la connexion à la base de données PostgreSQL.
    • Pour Mot de passe, saisissez le mot de passe de l'utilisateur PostgreSQL qui lance la connexion à la base de données PostgreSQL.
    • Pour les objets PostgreSQL à transférer, procédez comme suit:

      • Cliquez sur Parcourir pour sélectionner les tables PostgreSQL requises pour le transfert, puis cliquez sur Sélectionner.
      • Saisissez manuellement les noms des tables dans les objets PostgreSQL à transférer.

    Détails de la source de données sur la page "Créer un transfert"

  8. Facultatif: Dans le menu Compte de service, spécifiez un compte de service personnalisé pour autoriser le transfert. Assurez-vous que le compte de service utilisé dispose de tous les rôles et autorisations nécessaires. Pour en savoir plus, consultez la section Transférer le propriétaire en tant que compte de service.

  9. Facultatif : dans la section Options de notification, procédez comme suit :

    • Pour activer les notifications par e-mail, cliquez sur le bouton bascule Notifications par e-mail pour l'activer. Lorsque vous activez cette option, l'administrateur de transfert reçoit une notification par e-mail en cas d'échec de l'exécution du transfert.
    • Pour configurer les notifications d'exécution Pub/Sub pour votre transfert, activez l'option Notifications Pub/Sub. Vous pouvez sélectionner le nom de votre sujet ou cliquer sur Créer un sujet pour en créer un.
  10. Cliquez sur Enregistrer.

bq

Saisissez la commande bq mk, puis spécifiez l'indicateur de création de transfert --transfer_config:

bq mk \
    --transfer_config \
    --project_id=PROJECT_ID \
    --data_source=DATA_SOURCE \
    --display_name=DISPLAY_NAME \
    --target_dataset=DATASET \
    --params='PARAMETERS'

Remplacez les éléments suivants :

  • PROJECT_ID (facultatif): ID de votre projet Google Cloud . Si l'indicateur --project_id n'est pas fourni pour spécifier un projet particulier, le projet par défaut est utilisé.
  • DATA_SOURCE: source de données, qui est postgresql.
  • DISPLAY_NAME : nom à afficher de la configuration de transfert de données. Ce nom peut correspondre à toute valeur permettant d'identifier le transfert si vous devez le modifier ultérieurement.
  • DATASET : ensemble de données cible de la configuration de transfert de données.
  • PARAMETERS correspond aux paramètres de la configuration de transfert créée, au format JSON. Exemple : --params='{"param":"param_value"}'. Voici les paramètres d'un transfert PostgreSQL:

    • networkAttachment (facultatif): nom du rattachement de réseau permettant de se connecter à la base de données PostgreSQL.
    • connector.database: nom de la base de données PostgreSQL.
    • connector.endpoint.host: nom d'hôte ou adresse IP de la base de données.
    • connector.endpoint.port: numéro de port de la base de données.
    • connector.authentication.username: nom d'utilisateur de l'utilisateur de la base de données.
    • connector.authentication.password: mot de passe de l'utilisateur de la base de données.
    • assets: liste des noms des tables PostgreSQL à transférer depuis la base de données PostgreSQL lors du transfert.

Par exemple, la commande suivante crée un transfert PostgreSQL appelé My Transfer:

bq mk \
    --transfer_config \
    --target_dataset=mydataset \
    --data_source=postgresql \
    --display_name='My Transfer' \
    --params='{"assets":["DB1/PUBLIC/DEPARTMENT","DB1/PUBLIC/EMPLOYEES"], \
        "connector.authentication.username": "User1", \
        "connector.authentication.password":"ABC12345", \
        "connector.database":"DB1", \
        "Connector.endpoint.host":"192.168.0.1", \
        "Connector.endpoint.port":"1520"}' 

API

Utilisez la méthode projects.locations.transferConfigs.create et fournissez une instance de la ressource TransferConfig.

Mappage des types de données

Le tableau suivant met en correspondance les types de données PostgreSQL avec les types de données BigQuery correspondants.

Type de données PostgreSQL Type de données BigQuery
bigint INTEGER
bigserial INTEGER
bit(n) STRING
bit varying(n) STRING
boolean BOOLEAN
bytea BYTES
character STRING
character varying STRING
double precision FLOAT
integer INTEGER
numeric(precision, scale)/decimal(precision, scale) NUMERIC
real FLOAT
smallint INTEGER
smallserial INTEGER
serial INTEGER
text INTEGER
date DATE
time [ (p) ] [ without timezone ] TIMESTAMP
time [ (p) ] with time zone TIMESTAMP
timestamp [ (p) ] [ without timezone ] TIMESTAMP
timestamp [ (p) ] with time zone TIMESPAMP
xml STRING
tsquery STRING
tsvector STRING
uuid STRING
box STRING
cidr STRING
circle STRING
inet STRING
interval STRING
json STRING
jsonb STRING
line STRING
lseg STRING
macaddr STRING
macaddr8 STRING
money STRING
path STRING
point STRING
polygon STRING

Résoudre les problèmes

Si vous rencontrez des problèmes lors de la configuration de votre transfert de données, consultez la section Problèmes de transfert PostgreSQL.

Étape suivante