Présentation de la migration des données depuis Teradata

Présentation

Vous pouvez copier des données depuis un système d'entreposage de données sur site (tel que Teradata) vers BigQuery en associant le service de transfert de données BigQuery à un agent de migration spécial. Ce document offre un aperçu du processus de transfert de données à l'aide du service de transfert de données BigQuery.

Le transfert de données est gratuit. Reportez-vous à la page Tarifs pour en savoir plus.

Afin d'utiliser le service de transfert de données BigQuery pour les migrations d'entrepôt de données, vous devez d'abord télécharger un agent de migration sur site qui se connecte à votre entrepôt de données. Configurez ensuite un transfert dans le service de transfert de données BigQuery.

L'agent de migration sur site communique avec le service de transfert de données BigQuery pour copier les tables de votre entrepôt de données vers BigQuery. Vous pouvez surveiller les chargements de données récurrents depuis l'entrepôt de données vers BigQuery à l'aide de Cloud Console.

Le schéma suivant illustre le flux de données global simplifié entre un entrepôt de données sur site, tel que Teradata, et BigQuery.

Extraction de données dans BigQuery.

Modes et options de transfert

Comme chaque migration comporte ses propres exigences, l'agent de migration peut être personnalisé de différentes manières. Il existe trois choix principaux lors de la configuration d'un transfert de données de Teradata vers BigQuery :

Méthode d'extraction

Le service de transfert de données BigQuery offre deux méthodes d'extraction différentes pour transférer des données de Teradata vers BigQuery :

  1. Extraction à l'aide du pilote JDBC avec connexion FastExport Dans ce mode, une table est extraite dans une collection de fichiers AVRO à un emplacement spécifié sur un système de fichiers local. Les fichiers extraits sont ensuite importés dans un bucket Cloud Storage spécifié et, après un transfert réussi, les fichiers sont supprimés du système de fichiers local.
    • Les limitations de la quantité d'espace dans un système de fichiers local sont pleinement appliquées et l'extraction est mise en pause jusqu'à ce que les fichiers extraits aient été importés et supprimés du système de fichiers local.
    • S'il existe des contraintes strictes sur l'espace de stockage local ou si TPT n'est pas disponible, utilisez cette méthode d'extraction.
    • Le pilote JDBC avec FastExport est la méthode d'extraction par défaut.
  2. Extraction à l'aide de l'utilitaire Teradata Parallel Transporter (TPT) tbuild. Dans ce mode, un agent effectue le calcul des lots d'extraction à l'aide de lignes réparties par partitions. Pour chaque lot, un script d'extraction TPT est émis et exécuté, générant un ensemble de fichiers délimités par des barres verticales. Après chaque extraction par lots, les fichiers sont importés dans un bucket Cloud Storage spécifié et supprimés du système de fichiers local. Les limitations de la quantité d'espace de stockage dans le système de fichiers local ne sont pas appliquées. Vous devez donc vous assurer que le système de fichiers local dispose d'assez d'espace pour extraire la plus grande partition d'une table Teradata.
    • Nous vous recommandons d'extraire avec TPT et de personnaliser votre schéma pour indiquer les colonnes de partition. Ce mode d'extraction de données est le plus rapide.

Pour en savoir plus sur la spécification de la méthode d'extraction, reportez-vous à la section Configurer l'agent de migration de la procédure de configuration du transfert.

Fichier de schéma personnalisé

Un fichier de schéma est un fichier JSON qui décrit des objets de base de données. Le schéma comprend un ensemble de bases de données, chacune contenant un ensemble de tables, lesquelles contiennent chacune un ensemble de colonnes. Chaque colonne possède un champ type, le type attribué à une colonne dans BigQuery.

Dans un fichier de schéma, chaque objet possède un champ name, le nom qui lui sera attribué dans BigQuery. Chaque objet possède également un champ originalName, le nom de l'objet correspondant dans la base de données Teradata.

Le service de transfert de données BigQuery fournit une détection automatique de schéma et une conversion de données lors d'un transfert de données de Teradata vers BigQuery. Vous pouvez également spécifier un fichier de schéma personnalisé. Ceci est facultatif. Il est fortement recommandé de personnaliser le schéma dans certaines situations. Exemples :

  • Un fichier de schéma personnalisé est particulièrement utile pour inclure des informations supplémentaires sur une table, comme le partitionnement, qui seraient sinon perdues dans la migration si aucun fichier de schéma n'était spécifié.
  • Pendant le transfert de données, vous pouvez choisir de fournir un fichier de schéma personnalisé pour transformer les champs, par exemple le champ name d'un objet ou le tableau usageType d'une colonne.
  • Consultez la page Fichier de schéma personnalisé pour plus de détails.

Transferts à la demande ou incrémentiels

Lors de la migration de données d'une instance de base de données Teradata vers BigQuery, le service de transfert de données BigQuery assure aussi bien les transferts de données instantanés (transferts à la demande) que les transferts récurrents et périodiques de lignes nouvelles et mises à jour (transferts incrémentiels) (bêta). Les modes de transfert à la demande ou incrémentiel sont définis dans les options de planification à l'étape Configurer un transfert.

  • Transfert de données à la demande
    • Si votre table est très volumineuse et que le mode d'extraction par TPT offrant de meilleures performances est disponible, nous vous recommandons de partitionner votre table Teradata pour pouvoir effectuer l'extraction partition par partition. Pour plus de détails, reportez-vous à la section Fichier de schéma personnalisé.
    • Si vos tables sont petites ou si vous ne pouvez pas utiliser TPT, suivez les instructions de base. La personnalisation du schéma n'est pas nécessaire.
  • Transfert de données incrémentiel
    • Si vous souhaitez migrer périodiquement les modifications de Teradata vers BigQuery, utilisez le mode incrémentiel. Les enregistrements nouveaux et modifiés de Teradata sont ajoutés aux tables BigQuery de manière récurrente.
    • Cette méthode nécessite de personnaliser votre schéma pour annoter les colonnes COMMIT_TIMESTAMP.
    • Certaines conditions s'appliquent lors de la configuration de transferts incrémentiels. Pour plus d'informations, reportez-vous à la section Transferts incrémentiels.

Considérations au sujet des zones

Votre bucket Cloud Storage doit se trouver dans une région ou un emplacement multirégional compatible avec la région ou l'emplacement multirégional de l'ensemble de données de destination dans BigQuery.

Colocalisez vos buckets Cloud Storage pour transférer des données.
  • Si votre ensemble de données BigQuery est multirégional, le bucket Cloud Storage contenant les données que vous transférez doit se trouver dans un bucket régional ou multirégional au même emplacement. Par exemple, si votre ensemble de données BigQuery se trouve dans l'UE, le bucket Cloud Storage doit être situé dans un bucket régional ou multirégional de l'UE.
  • Si votre ensemble de données se trouve dans un emplacement régional, le bucket Cloud Storage doit être un bucket régional du même emplacement. Par exemple, si votre ensemble de données se trouve dans la région Tokyo, le bucket Cloud Storage doit être un bucket régional situé à Tokyo.
  • Exception : Si votre ensemble de données est situé dans l'emplacement multirégional États-Unis, vous pouvez transférer des données à partir d'un bucket Cloud Storage dans n'importe quel emplacement régional ou multirégional.

Pour plus d'informations sur les transferts et les régions, consultez la page Emplacement des données et transferts.

Prix

La migration d'une instance d'entrepôt de données avec le Service de transfert de données BigQuery est gratuite.

  • L'extraction des données, leur importation dans un bucket Cloud Storage et leur chargement dans BigQuery sont gratuits.
  • Les données ne sont pas automatiquement supprimées de votre bucket Cloud Storage après leur importation dans BigQuery. Pensez à les supprimer du bucket pour ne pas avoir à payer de coûts de stockage supplémentaires. Consultez la page sur les tarifs Cloud Storage.
  • Les quotas et limites standards de BigQuery liés aux tâches de chargement s'appliquent.

  • Une fois les données transférées vers BigQuery, les tarifs standards du stockage et des requêtes BigQuery s'appliquent.

  • Consultez la page Tarifs concernant les transferts pour plus de détails.

Limites

  • Les transferts uniques à la demande sont entièrement compatibles. Les transferts incrémentiels sont disponibles en version bêta. Les opérations LDD/LMD dans les transferts incrémentiels sont partiellement compatibles.
  • Les données sont extraites dans un dossier du système de fichiers local (sur site). Assurez-vous de disposer d'un espace de stockage suffisant.
    • Lorsque vous utilisez le mode d'extraction FastExport, vous pouvez définir la quantité maximale d'espace de stockage nécessaire et la limite pleinement appliquée par l'agent de migration. Définissez le paramètre max-local-storage dans le fichier de configuration de l'agent de migration lorsque vous configurez un transfert de Teradata vers BigQuery.
    • Si vous utilisez la méthode d'extraction TPT, assurez-vous que le système de fichiers dispose d'un espace de stockage suffisant, au moins égal à la plus grande partition de table de l'instance Teradata.
  • Le service de transfert de données BigQuery convertit automatiquement le schéma (si vous ne fournissez pas de fichier de schéma personnalisé) et transfère les données Teradata vers BigQuery. Les données sont mappées de Teradata vers les types BigQuery.
  • Les fichiers ne sont pas supprimés automatiquement de votre bucket Cloud Storage après avoir été importés depuis le système de fichiers local et chargés dans BigQuery. Pensez à supprimer les données de votre bucket Cloud Storage après leur chargement dans BigQuery afin d'éviter des frais de stockage supplémentaires. Consultez la page Tarifs.
  • La vitesse d'extraction est limitée par votre connexion JDBC.
  • Les données extraites de Teradata ne sont pas chiffrées. Prenez les mesures nécessaires pour restreindre l'accès aux fichiers extraits dans le système de fichiers local et assurez-vous que le bucket Cloud Storage est correctement sécurisé.

  • Les autres ressources de base de données, telles que les procédures stockées, les requêtes enregistrées, les vues et les fonctions définies par l'utilisateur, ne sont pas transférées et dépassent le cadre de ce service.

Étapes suivantes