Migration de Teradata vers BigQuery : introduction
Ce document décrit les raisons pour lesquelles vous pourriez migrer de Teradata vers BigQuery, compare les fonctionnalités de Teradata et BigQuery, et fournit une liste des étapes à suivre pour commencer votre migration vers BigQuery.
Pourquoi migrer de Teradata vers BigQuery ?
Teradata a été l'un des premiers à innover dans la gestion et l'analyse de volumes de données importants. Toutefois, à mesure que vos besoins en informatique dans le cloud évoluent, vous pouvez avoir besoin d'une solution plus moderne pour vos analyses de données.
Si vous avez déjà utilisé Teradata, envisagez de migrer vers BigQuery pour les raisons suivantes :
- Surmonter les contraintes des anciennes plates-formes
- L'architecture conventionnelle de Teradata a souvent du mal à répondre aux exigences des analyses modernes, en particulier au besoin de simultanéité illimitée et de performances élevées et constantes pour diverses charges de travail. L'architecture sans serveur de BigQuery est conçue pour répondre à ces exigences avec un minimum d'efforts.
- Adopter une stratégie cloud native
- De nombreuses organisations migrent stratégiquement leur infrastructure sur site vers le cloud. Ce changement nécessite de s'éloigner des solutions conventionnelles liées au matériel, comme Teradata, pour passer à un service entièrement géré, évolutif et à la demande comme BigQuery, afin de réduire les frais généraux opérationnels.
- Intégration à des sources de données et des outils d'analyse modernes
- Les données d'entreprise clés résident de plus en plus dans des sources cloud. BigQuery est intégré de manière native à l'écosystème Google Cloud , ce qui permet d'accéder facilement à ces sources et d'effectuer des analyses avancées, du machine learning et du traitement de données en temps réel sans les limites d'infrastructure de Teradata.
- Optimiser les coûts et l'évolutivité
- Teradata implique souvent des processus de scaling complexes et coûteux. BigQuery offre un scaling transparent et automatique du stockage et du calcul de manière indépendante, ce qui élimine la nécessité d'une reconfiguration manuelle et offre un coût total de possession plus prévisible et souvent plus faible.
Comparatif des fonctionnalités
Le tableau suivant compare les fonctionnalités et les concepts de Teradata à leurs équivalents dans BigQuery :
Concept Teradata | Équivalent BigQuery | Description |
---|---|---|
Teradata (sur site, dans le cloud, hybride) | BigQuery (plate-forme unifiée et de données d'IA) BigQuery offre un large éventail de fonctionnalités supplémentaires par rapport à un entrepôt de données conventionnel. | BigQuery est un entrepôt de données cloud natif entièrement géré sur Google Cloud. Teradata propose des options sur site, dans le cloud et hybrides. BigQuery est sans serveur et disponible sur tous les clouds sous le nom BQ Omni. |
Outils Teradata (Teradata Studio, BTEQ) | ConsoleGoogle Cloud , BigQuery Studio, outil de ligne de commande bq | Les deux offrent des interfaces pour gérer l'entrepôt de données et interagir avec lui. BigQuery Studio est une interface Web intégrée à Google Cloud qui permet d'écrire du code SQL, Python et Apache Spark. |
Bases de données/Schémas | Ensembles de données | Dans Teradata, les bases de données et les schémas sont utilisés pour organiser les tables et les vues, comme les ensembles de données BigQuery. Toutefois, la façon dont ils sont gérés et utilisés peut varier. |
Table | Table | Les deux plates-formes utilisent des tableaux pour stocker les données dans des lignes et des colonnes. |
Afficher | Afficher | Les vues fonctionnent de manière similaire sur les deux plates-formes, ce qui permet de créer des tables virtuelles basées sur des requêtes. |
Clé primaire | Clé primaire (non appliquée dans GoogleSQL) | BigQuery est compatible avec les clés primaires non appliquées dans GoogleSQL. Elles servent principalement à optimiser les requêtes. |
Clé étrangère | Clé étrangère (non appliquée dans GoogleSQL) | BigQuery est compatible avec les clés étrangères non appliquées dans GoogleSQL. Elles servent principalement à optimiser les requêtes. |
Index | Clustering, index de recherche, index vectoriels (automatiques ou gérés) | Teradata permet la création explicite d'index. Nous vous recommandons d'utiliser le clustering dans BigQuery. Bien que le clustering ne soit pas équivalent aux index de base de données, il permet de stocker les données de manière ordonnée sur le disque, ce qui contribue à optimiser la récupération des données lorsque des colonnes en cluster sont utilisées comme prédicats. BigQuery est compatible avec les index de recherche et les index vectoriels. |
Partitionnement | Partitionnement | Les deux plates-formes sont compatibles avec le partitionnement des tables pour améliorer les performances des requêtes sur les grandes tables. BigQuery n'accepte que le partitionnement par dates et entiers. Pour les chaînes, utilisez plutôt le clustering. |
Allocation des ressources (en fonction du matériel et des licences) | Réservations (tarification basée sur la capacité), tarification à la demande (tarification de l'analyse) | BigQuery propose des modèles de tarification flexibles. Les réservations permettent de prévoir les coûts pour les charges de travail régulières et ponctuelles à l'aide de l'autoscaling, tandis que la tarification à la demande est axée sur les frais par octet analysé par requête. |
BTEQ, SQL Assistant, autres outils client | BigQuery Studio, l'outil de ligne de commande bq, les API | BigQuery fournit différentes interfaces pour exécuter des requêtes, y compris un éditeur Web, un outil de ligne de commande et des API pour l'accès programmatique. |
Journalisation/Historique des requêtes | Historique des requêtes, INFORMATION_SCHEMA.JOBS |
BigQuery conserve un historique des requêtes exécutées, ce qui vous permet de les examiner, d'analyser les performances et de résoudre les problèmes. INFORMATION_SCHEMA.JOBS conserve l'historique de tous les jobs envoyés au cours des six derniers mois. |
Fonctionnalités de sécurité (contrôle des accès, chiffrement) | Fonctionnalités de sécurité (IAM, LCA, chiffrement) | Les deux offrent une sécurité robuste. BigQuery utilise Google Cloud IAM pour un contrôle précis des accès. |
Contrôles réseau (pare-feu, VPN) | VPC Service Controls, accès privé à Google | BigQuery s'intègre à VPC Service Controls pour limiter l'accès à vos ressources BigQuery depuis des réseaux spécifiques. L'accès privé à Google vous permet d'accéder à BigQuery sans utiliser d'adresses IP publiques. |
Gestion des utilisateurs et des rôles | Identity and Access Management (IAM) | BigQuery utilise IAM pour un contrôle d'accès précis. Vous pouvez accorder des autorisations spécifiques aux utilisateurs et aux comptes de service au niveau du projet, de l'ensemble de données et de la table. |
Autorisations et rôles sur les objets | Listes de contrôle d'accès (LCA) sur les ensembles de données et les tables | BigQuery vous permet de définir des LCA sur les ensembles de données et les tables pour contrôler l'accès de manière précise. |
Chiffrement au repos et en transit | Chiffrement au repos et en transit, clés de chiffrement gérées par le client (CMEK), clés pouvant être hébergées dans des systèmes EKM externes. | BigQuery chiffre les données par défaut. Vous pouvez également gérer vos propres clés de chiffrement pour plus de contrôle. |
Fonctionnalités de gouvernance et de conformité des données | Règles de gouvernance des données, protection contre la perte de données | BigQuery est compatible avec les règles de gouvernance des données et la protection contre la perte de données (DLP) pour vous aider à appliquer les exigences de sécurité et de conformité des données. |
Utilitaires de chargement Teradata (par exemple, FastLoad, MultiLoad), bteq | Service de transfert de données BigQuery, outil de ligne de commande bq, API | BigQuery propose différentes méthodes de chargement de données. Teradata dispose d'utilitaires de chargement spécialisés. BigQuery met l'accent sur l'évolutivité et la rapidité de l'ingestion de données. |
Utilitaires d'exportation Teradata, bteq | Outil de ligne de commande bq, API, exporter vers Cloud Storage | BigQuery permet d'exporter des données vers différentes destinations. Teradata dispose de ses propres outils d'exportation. L'intégration de BigQuery à Cloud Storage est un avantage clé. L'API BigQuery Storage Read permet à toute capacité de calcul externe de lire des données de manière groupée. |
Tables externes | Tables externes | Les deux permettent d'interroger les données dans un stockage externe. BigQuery s'intègre bien à Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage et Google Drive. |
Vues matérialisées | Vues matérialisées | Les deux offrent des vues matérialisées pour améliorer les performances des requêtes. BigQuery fournit des vues matérialisées avec réglage intelligent qui renvoient toujours des données actuelles et qui réécrivent automatiquement les requêtes en vues matérialisées, même lorsque la requête fait référence à une table de base. |
Fonctions définies par l'utilisateur | Fonctions définies par l'utilisateur (SQL, JavaScript) | BigQuery est compatible avec les fonctions définies par l'utilisateur en SQL et en JavaScript. |
Planificateur Teradata, autres outils de planification | Requêtes programmées, Cloud Composer, Cloud Functions, pipelines BigQuery | BigQuery s'intègre aux services de planification Google Cloud et à d'autres outils de planification externes. |
Point de vue | Administration de BigQuery pour la surveillance, le vérification de l'état, l'exploration des jobs et la gestion de la capacité. | BigQuery propose une boîte à outils d'administration complète basée sur l'UI, qui contient plusieurs volets permettant de surveiller l'état opérationnel et l'utilisation des ressources. |
Sauvegarde et récupération | Clonage de l'ensemble de données, voyage temporel et sécurité, instantané et clonage de tables, stockage régional et multirégional, sauvegarde et récupération multirégionales. | BigQuery propose des instantanés et la navigation temporelle pour récupérer des données. Les fonctionnalités temporelles vous permettent d'accéder aux données historiques au cours d'une période donnée. BigQuery propose également le clonage d'ensembles de données, le stockage régional et multirégional, ainsi que des options de sauvegarde et de récupération multirégionales. |
Fonctions géospatiales | Fonctions géospatiales | Les deux plates-formes sont compatibles avec les données et les fonctions géospatiales. |
Commencer
Les sections suivantes résument le processus de migration de Teradata vers BigQuery :
Exécuter une évaluation de la migration
Lors de votre migration de Teradata vers BigQuery, nous vous recommandons de commencer par exécuter l'outil d'évaluation de la migration BigQuery pour évaluer la faisabilité et les avantages potentiels du transfert de votre entrepôt de données de Teradata vers BigQuery. Cet outil fournit une approche structurée pour comprendre votre environnement Teradata actuel et estimer l'effort nécessaire à une migration réussie.
L'exécution de l'outil d'évaluation de la migration BigQuery génère un rapport d'évaluation qui contient les sections suivantes :
- Rapport sur le système existant : instantané du système Teradata existant et de son utilisation, y compris le nombre de bases de données, de schémas et de tables, et la taille totale en To. Il répertorie également les schémas par taille et pointe vers une utilisation potentiellement sous-optimale des ressources, comme les tables sans écriture ou avec peu de lectures.
- Suggestions de transformation vers l'état stable de BigQuery : montre à quoi ressemblera le système sur BigQuery après la migration. Il inclut des suggestions pour optimiser les charges de travail sur BigQuery et éviter les gaspillages.
- Plan de migration : fournit des informations sur l'effort de migration lui-même. Par exemple, passer du système existant à l'état stable de BigQuery. Cette section inclut le nombre de requêtes traduites automatiquement, ainsi que le temps nécessaire pour déplacer chaque table vers BigQuery.
Pour en savoir plus sur les résultats d'une évaluation de la migration, consultez Examiner le rapport Looker Studio.
Migrer le schéma et les données depuis Teradata
Une fois que vous avez examiné les résultats de votre évaluation de la migration, vous pouvez commencer la migration Teradata en préparant BigQuery pour la migration, puis en configurant un job de transfert de données.
Pour en savoir plus sur le processus de migration Teradata, consultez Migrer le schéma et les données depuis Teradata.
Valider votre migration
Une fois que vous avez migré vos données Teradata vers BigQuery, exécutez l'outil de validation des données (DVT) pour valider vos nouvelles données BigQuery. Le DVT valide différentes fonctions, du niveau de la table à celui de la ligne, pour vérifier que vos données migrées fonctionnent comme prévu. Pour en savoir plus sur DVT, consultez Présentation de l'outil de validation des données pour les migrations EDW.
Vous pouvez accéder au DVT dans le dépôt GitHub public du DVT.
Étapes suivantes
- Essayez une migration de test de Teradata vers BigQuery.