Comment déployer son datawarehouse dans le cloud
Preethi Igoor
Data & Analytics Cloud Consultant
Abdullateef Abdulsalam
Data & Analytics Cloud Consultant
Contactez-nous
Si vous êtes une entreprise et que vous souhaitez vous développer, découvrez comment gagner en productivité avec Google Cloud ou contactez notre équipe commerciale.
Commencer iciAutomatisez le redéploiement de votre entrepôt de données vers BigQuery grâce à des nouvelles fonctionnalités de redéploiements des données
La transformation numérique est en général un long voyage jonché d’escales qui sont autant de défis à résoudre. Parmi elles, le redéploiement des datawarehouses (les entrepôts de données) vers le Cloud est souvent l’une des étapes les plus cruciales et chronophages. De quoi engloutir une part conséquente des énergies et efforts dépensés dans cette essentielle modernisation numérique.
Aujourd'hui, pour accélérer les redéploiements de vos datawarehouses vers BigQuery, nous annonçons des nouveaux services, concrétisés sous forme d'un outil de redéploiement de données qui automatise le redéploiement des entrepôts de données sur site vers BigQuery.
Disponible en Preview, cet outil construit sur Google Cloud prend en charge les phases clés du redéploiement d'un entrepôt de données, du redéploiement des schémas et des données historiques à la traduction et à la validation SQL.
Pour réaliser une telle transformation, cet outil fonctionne en étroite coordination avec des accélérateurs de redéploiement tels que Data Validation Tool et les services de redéploiement BigQuery. Une telle collaboration nous permet ainsi d’automatiser un redéploiement de bout en bout de vos entrepôts de données. Les redéploiement à partir de Teradata, Hive, Redshift et Oracle sont actuellement prises en charge et d'autres entrepôts de données le seront à l'avenir.
Solution open source entièrement configurable, ce nouvel outil peut aisément être déployé via Terraform et déclenché avec un simple fichier de configuration JSON. Vous pouvez augmenter ou réduire la capacité de calcul en fonction du volume ou de la complexité des données.
Ses principaux avantages sont les suivants :
- Une approche éprouvée du redéploiement des entrepôts de données d'entreprise avec un risque réduit d'erreurs, de bogues et d'incohérences dans les données.
- Une orchestration automatisée du redéploiement des données, de la traduction et de la validation SQL
- Un tableau de bord de reporting avec les résultats de la validation des données, de l'exécution des tâches et de la traduction SQL affichés dans Looker
- Une réduction du temps nécessaire au transfert initial des données et des artefacts SQL dans Google Cloud
- Une réduction du coût total du redéploiement
- Un besoin limité d'équipe de développement client supplémentaire
- Une courbe d'apprentissage réduite
En exemple, voici comment l'outil de redéploiement des données facilite un redéploiement de Teradata vers BigQuery :
1/ Un utilisateur télécharge les fichiers d'entrée pertinents (liste de tables CSV, fichiers SQL/DDL) et un fichier de configuration JSON vers un bucket Cloud Storage, ce qui déclenche automatiquement l'outil de redéploiement des données.
2/ L'outil de redéploiement des données déclenche le service de transfert de données pour convertir le schéma des tables et transférer les données des tables du datawarehouse source sur site vers les tables BigQuery dans le cloud.
3/ Une fois le transfert de données terminé, l'outil de redéploiement de données déclenche le service de transfert de données pour comparer les tables source et cible sur les valeurs de colonne agrégées, et envoie le résultat de la validation vers les tables de reporting BigQuery.
4/ L'outil de redéploiement des données déclenche alors le service de traduction BigQuery SQL pour traduire les requêtes SQL (téléchargées dans un bucket Cloud Storage) de la syntaxe source vers BigQuery SQL, et restitue le SQL traduit dans un bucket différent. L'outil de redéploiement des données écrit les statistiques de traduction dans les tables de reporting BigQuery.
5/ L'outil déclenche ensuite un outil de validation des données pour comparer le code SQL source et le code SQL cible sur leur ensemble de résultats.
6/ L'outil de redéploiement des données écrit des statistiques de validation dans les tables de reporting BigQuery.
7/ L'utilisateur consulte le tableau de bord de redéploiement dans Looker Studio pour inspecter les résultats de le redéploiement des données, de la traduction SQL et de la validation des données.
Le tour est joué ! En quelques étapes très automatisées, l'outil de redéploiement des données orchestre ce qui peut autrement se révéler être un processus chronophage, sujet à de multiples erreurs.
Cette approche pour un redéploiement simple et éprouvée peut vous aider à réduire les risques et à accélérer le processus de modernisation vers le cloud, libérant ainsi du temps et des ressources pour vous concentrer sur d'autres aspects de votre parcours de transformation numérique. Mieux encore, l'utilisation de l'outil de redéploiement des données sur Google Cloud n'entraîne aucun frais de licence supplémentaire ; les seuls coûts sont ceux du stockage et du calcul utilisé pour les services consommés.
Pour en savoir plus sur l'outil de redéploiement des données, consultez le projet sur Github.