Planifier un transfert PostgreSQL
Le connecteur du service de transfert de données BigQuery pour PostgreSQL aide les utilisateurs à créer des tâches de transfert de données récurrentes et à la demande pour transférer des données depuis leur instance PostgreSQL vers BigQuery. Le connecteur est compatible avec les instances PostgreSQL hébergées dans votre environnement sur site, Cloud SQL, ainsi qu'avec d'autres fournisseurs de services cloud public tels qu'Amazon Web Services (AWS) et Microsoft Azure.
Limites
Les transferts de données PostgreSQL sont soumis aux limitations suivantes:
- Le nombre maximal d'exécutions de transfert simultanées vers une seule base de données PostgreSQL est déterminé par le nombre maximal de connexions simultanées compatibles avec la base de données PostgreSQL. Le nombre d'opérations de transfert simultanées doit être limité à une valeur inférieure au nombre maximal de connexions simultanées compatibles avec la base de données PostgreSQL.
- Dans PostgreSQL, certains types de données sont mappés sur le type de chaîne dans BigQuery pour éviter toute perte de données. Par exemple, les types numériques définis dans PostgreSQL qui n'ont pas de précision et d'échelle définies sont mappés sur le type de chaîne dans BigQuery.
Avant de commencer
- Créez un utilisateur dans la base de données PostgreSQL.
- Vérifiez que vous avez effectué toutes les actions requises pour activer le service de transfert de données BigQuery.
- Créez un ensemble de données BigQuery pour stocker vos données.
- Assurez-vous de disposer des rôles requis pour effectuer les tâches décrites dans ce document.
Rôles requis
Si vous avez l'intention de configurer des notifications d'exécution de transfert pour Pub/Sub, assurez-vous de disposer de l'autorisation Identity and Access Management (IAM) pubsub.topics.setIamPolicy
. Les autorisations Pub/Sub ne sont pas nécessaires si vous ne configurez que des notifications par e-mail. Pour plus d'informations, consultez la page Notifications d'exécution du service de transfert de données BigQuery.
Pour obtenir les autorisations nécessaires pour créer un transfert de données PostgreSQL, demandez à votre administrateur de vous accorder le rôle IAM Administrateur BigQuery (roles/bigquery.admin
) sur votre projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient les autorisations requises pour créer un transfert de données PostgreSQL. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour créer un transfert de données PostgreSQL:
-
bigquery.transfers.update
-
bigquery.datasets.get
Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Connexions réseau
Si aucune adresse IP publique n'est disponible pour la connexion à la base de données PostgreSQL, vous devez configurer un rattachement de réseau.
Pour obtenir des instructions détaillées sur la configuration réseau requise, consultez les documents suivants:
- Si vous effectuez un transfert à partir de Cloud SQL, consultez la section Configurer l'accès à l'instance Cloud SQL.
- Si vous effectuez un transfert depuis AWS, consultez la section Configurer le VPN et l'association réseau AWS-Google Cloud .
- Si vous effectuez un transfert depuis Azure, consultez la section Configurer le VPN et l'association réseau Azure-Google Cloud .
Configurer un transfert de données PostgreSQL
Sélectionnez l'une des options suivantes :
Console
Accédez à la page Transferts de données.
Cliquez sur
Créer un transfert.Dans la section Source type (Type de source), pour Source (Source), sélectionnez PostgreSQL.
Dans la section Transfer config name (Nom de la configuration de transfert), sous Display name (Nom à afficher), saisissez le nom du transfert. Ce nom peut correspondre à toute valeur permettant d'identifier le transfert si vous devez le modifier ultérieurement.
Dans la section Options de programmation, procédez comme suit :
- Sélectionnez une fréquence de répétition. Si vous sélectionnez l'option Heures, Jours (par défaut), Semaines ou Mois, vous devez également spécifier une fréquence. Vous pouvez également sélectionner l'option Personnalisé pour créer une fréquence de répétition plus spécifique. Si vous sélectionnez l'option À la demande, ce transfert de données ne s'exécute que lorsque vous déclenchez manuellement le transfert.
- Le cas échéant, sélectionnez l'option Commencer ou Commencer à l'heure définie, puis indiquez une date de début et une heure d'exécution.
Dans la section Paramètres de destination, pour le champ Ensemble de données, sélectionnez l'ensemble de données que vous avez créé pour stocker vos données, ou cliquez sur Créer un ensemble de données et créez-en un à utiliser comme ensemble de données de destination.
Dans la section Data source details (Détails de la source de données), procédez comme suit :
- Sous Rattachement de réseau, sélectionnez un rattachement de réseau existant ou cliquez sur Créer un rattachement de réseau. Pour en savoir plus, consultez la section Connexions réseau de ce document.
- Dans le champ Host (Hôte), saisissez le nom d'hôte ou l'adresse IP du serveur de base de données PostgreSQL.
- Pour Numéro de port, saisissez le numéro de port du serveur de base de données PostgreSQL.
- Dans le champ Nom de la base de données, saisissez le nom de la base de données PostgreSQL.
- Pour Nom d'utilisateur, saisissez le nom d'utilisateur de l'utilisateur PostgreSQL qui lance la connexion à la base de données PostgreSQL.
- Pour Mot de passe, saisissez le mot de passe de l'utilisateur PostgreSQL qui lance la connexion à la base de données PostgreSQL.
Pour les objets PostgreSQL à transférer, procédez comme suit:
- Cliquez sur Parcourir pour sélectionner les tables PostgreSQL requises pour le transfert, puis cliquez sur Sélectionner.
- Saisissez manuellement les noms des tables dans les objets PostgreSQL à transférer.
Facultatif: Dans le menu Compte de service, spécifiez un compte de service personnalisé pour autoriser le transfert. Assurez-vous que le compte de service utilisé dispose de tous les rôles et autorisations nécessaires. Pour en savoir plus, consultez la section Transférer le propriétaire en tant que compte de service.
Facultatif : dans la section Options de notification, procédez comme suit :
- Pour activer les notifications par e-mail, cliquez sur le bouton bascule Notifications par e-mail pour l'activer. Lorsque vous activez cette option, l'administrateur de transfert reçoit une notification par e-mail en cas d'échec de l'exécution du transfert.
- Pour configurer les notifications d'exécution Pub/Sub pour votre transfert, activez l'option Notifications Pub/Sub. Vous pouvez sélectionner le nom de votre sujet ou cliquer sur Créer un sujet pour en créer un.
Cliquez sur Enregistrer.
bq
Saisissez la commande bq mk
, puis spécifiez l'indicateur de création de transfert --transfer_config
:
bq mk \ --transfer_config \ --project_id=PROJECT_ID \ --data_source=DATA_SOURCE \ --display_name=DISPLAY_NAME \ --target_dataset=DATASET \ --params='PARAMETERS'
Remplacez les éléments suivants :
- PROJECT_ID (facultatif): ID de votre projet Google Cloud .
Si l'indicateur
--project_id
n'est pas fourni pour spécifier un projet particulier, le projet par défaut est utilisé. - DATA_SOURCE: source de données, qui est
postgresql
. - DISPLAY_NAME : nom à afficher de la configuration de transfert de données. Ce nom peut correspondre à toute valeur permettant d'identifier le transfert si vous devez le modifier ultérieurement.
- DATASET : ensemble de données cible de la configuration de transfert de données.
PARAMETERS correspond aux paramètres de la configuration de transfert créée, au format JSON. Exemple :
--params='{"param":"param_value"}'
. Voici les paramètres d'un transfert PostgreSQL:networkAttachment
(facultatif): nom du rattachement de réseau permettant de se connecter à la base de données PostgreSQL.connector.database
: nom de la base de données PostgreSQL.connector.endpoint.host
: nom d'hôte ou adresse IP de la base de données.connector.endpoint.port
: numéro de port de la base de données.connector.authentication.username
: nom d'utilisateur de l'utilisateur de la base de données.connector.authentication.password
: mot de passe de l'utilisateur de la base de données.assets
: liste des noms des tables PostgreSQL à transférer depuis la base de données PostgreSQL lors du transfert.
Par exemple, la commande suivante crée un transfert PostgreSQL appelé My Transfer
:
bq mk \ --transfer_config \ --target_dataset=mydataset \ --data_source=postgresql \ --display_name='My Transfer' \ --params='{"assets":["DB1/PUBLIC/DEPARTMENT","DB1/PUBLIC/EMPLOYEES"], \ "connector.authentication.username": "User1", \ "connector.authentication.password":"ABC12345", \ "connector.database":"DB1", \ "Connector.endpoint.host":"192.168.0.1", \ "Connector.endpoint.port":"1520"}'
API
Utilisez la méthode projects.locations.transferConfigs.create
et fournissez une instance de la ressource TransferConfig
.
Mappage des types de données
Le tableau suivant met en correspondance les types de données PostgreSQL avec les types de données BigQuery correspondants.
Type de données PostgreSQL | Type de données BigQuery |
---|---|
bigint |
INTEGER |
bigserial |
INTEGER |
bit(n) |
STRING |
bit varying(n) |
STRING |
boolean |
BOOLEAN |
bytea |
BYTES |
character |
STRING |
character varying |
STRING |
double precision |
FLOAT |
integer |
INTEGER |
numeric(precision, scale)/decimal(precision, scale) |
NUMERIC |
real |
FLOAT |
smallint |
INTEGER |
smallserial |
INTEGER |
serial |
INTEGER |
text |
INTEGER |
date |
DATE |
time [ (p) ] [ without timezone ] |
TIMESTAMP |
time [ (p) ] with time zone |
TIMESTAMP |
timestamp [ (p) ] [ without timezone ] |
TIMESTAMP |
timestamp [ (p) ] with time zone |
TIMESPAMP |
xml |
STRING |
tsquery |
STRING |
tsvector |
STRING |
uuid |
STRING |
box |
STRING |
cidr |
STRING |
circle |
STRING |
inet |
STRING |
interval |
STRING |
json |
STRING |
jsonb |
STRING |
line |
STRING |
lseg |
STRING |
macaddr |
STRING |
macaddr8 |
STRING |
money |
STRING |
path |
STRING |
point |
STRING |
polygon |
STRING |
Résoudre les problèmes
Si vous rencontrez des problèmes lors de la configuration de votre transfert de données, consultez la section Problèmes de transfert PostgreSQL.
Étape suivante
- Pour une vue d'ensemble du service de transfert de données BigQuery, consultez la page Qu'est-ce que le service de transfert de données BigQuery ?.
- Pour plus d'informations sur l'utilisation des transferts, y compris l'obtention d'informations sur une configuration de transfert, la liste des configurations de transfert et l'affichage de l'historique d'exécution d'un transfert, consultez la page Gérer les transferts.
- Découvrez comment charger des données avec des opérations multicloud.